Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文
前言
近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。
-
Huggingface模型下载:https://huggingface.co/CohereForAI/aya-23-8B
-
AI快站模型免费加速下载:https://aifasthub.com/models/CohereForAI

技术特点
Aya-23 基于 Cohere 自研的 Command 模型系列,并结合了 Aya 多语言指令风格数据集,旨在为 23 种语言提供强大的多语言理解和生成能力。

基于 Command 模型,拥有强大的性能基础
Aya 23 模型家族基于 Cohere Command 系列模型,该系列模型使用包含 23 种语言的混合数据进行预训练,并采用了一系列先进的技术,例如:
-
并行注意力和 FFN 层: 类似于 PALM-2 模型,Aya 23 采用了并行块架构,在保持模型质量的同时,显著提高了训练效率,尤其是在张量并行设置下。
-
SwiGLU 激活函数: 与其他激活函数相比,SwiGLU 能够在保证参数量级基本一致的情况下,提升模型的下游任务性能。
-
无偏置: 类似于 PALM2 模型,Aya 23 模型的密集层中去除了所有偏置项,提升了训练的稳定性。
-
旋转位置编码: 使用旋转位置编码 (RoPE) 技术,能够更好地进行长文本外推,同时在短文本长度的情况下,也比其他相对位置编码方法,例如 ALiBi,取得更好的下游任务性能。
-
分组查询注意力 (GQA): Aya-23-8B 模型使用了分组查询注意力,每个 KV 头共享多个 Q 头,从而降低了推理时间的内存占用。
多语言指令风格数据集,提升模型的指令理解能力
为了提升模型对指令的理解能力,Aya 23 使用了多语言指令风格数据集,该数据集包含了来自 xP3x、Aya 和 Data Provenance 等多个数据集的样本,涵盖 23 种语言和 161 个不同的数据集。该数据集还包含了由母语使用者撰写的 204K 人工标注的提示词-响应对,以及通过机器翻译获得的多种语言指令数据集的翻译版本。
支持 23 种语言,涵盖更广泛的应用场景
Aya-23 模型家族支持 23 种语言,包括阿拉伯语、简体中文、繁体中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语,覆盖了全球约一半的人口。
性能表现
Aya-23 模型家族在各种语言、推理、编码和数学基准测试中均取得了优异的成绩,超越了同等大小甚至更大的模型,展现出了强大的多语言能力。

多语言任务评估
研究团队采用了 Üstün 等人提出的多语言评估框架,对 Aya 23 模型进行了全面评估,涵盖了 23 种语言,包括:
-
未见过的识别任务: 在 XWinograd、XCOPA 和 XStoryCloze 等完全未见过的任务中,Aya-23-35B 模型取得了最佳表现,其平均准确率为 70.8%,超越了其他模型。
-
通用语言理解: 在多语言 MMLU 测试中,Aya-23-8B 模型在 14 种语言中取得了最佳表现,其平均准确率为 48.2%,在大部分语言上超过了其他模型。
-
多语言数学推理: 在 MGSM 测试中,Aya-23-8B 模型也取得了领先优势,其平均准确率为 36.6%,是同类模型中表现最优秀的,并且比 Aya-101-13B 提升了 4.5 倍。
-
生成任务: 在机器翻译和多语言摘要任务中,Aya 23 模型也取得了显著的性能提升。

人类偏好评估
为了评估模型的开放式生成能力,研究团队进行了人类偏好评估,结果显示:
-
LLM 评估: 使用 GPT-4 作为评价模型,Aya 23 模型在 10 种语言中,针对不同规模的模型均表现出色,其平均获胜率均高于同类模型。
-
人类评估: 人类评估人员在 5 种语言中,对 Aya 23 模型的生成结果给予了更高的评价,其平均获胜率高于 Aya-101-13B 模型。
开源发布
为了促进多语言模型技术的发展,Cohere 团队公开发布了 Aya-23 的 8B 和 35B 模型,为研究人员和开发者提供了更多选择,加速多语言模型技术的发展和应用。

应用场景
Aya-23 模型家族拥有广泛的应用场景,例如:
-
机器翻译: 可以用于将一种语言的文本翻译成其他语言。
-
文本摘要: 可以用于将长篇文本压缩成简短的摘要。
-
问答系统: 可以用于回答用户的各种问题。
-
内容创作: 可以用于生成各种类型的文本内容,例如新闻报道、故事、诗歌等。
总结
Aya-23 的发布,标志着多语言模型技术取得了新的突破,其卓越的性能和广泛的语言支持能力,为多语言模型的发展开辟了新的方向。随着技术的不断进步,相信 Aya-23 模型家族将会在更多领域发挥重要作用,为人们的生活带来更多的便利和乐趣。
模型下载
Huggingface模型下载
https://huggingface.co/CohereForAI/aya-23-8B
AI快站模型免费加速下载
https://aifasthub.com/models/CohereForAI
相关文章:
Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文
前言 近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——…...
身为UI设计老鸟,不学点3D,好像要被潮流抛弃啦,卷起来吧。
当前3D原则在UI设计中运用的越来越多,在UI设计中,使用3D元素可以为界面带来以下几个价值: 增强视觉冲击力:3D元素可以通过立体感和逼真的效果,为界面增添视觉冲击力,使得设计更加生动、吸引人,并…...
【C语言】实现贪吃蛇--项目实践(超详细)
前言: 贪吃蛇游戏大家都玩过吧?这次我们要用C语言来亲手制作一个!这个项目不仅能让我们复习C语言的知识,还能了解游戏是怎么一步步做出来的。我们会一起完成蛇的移动、食物的生成,还有碰撞检测等有趣的部分。准备好了…...
Elasticsearch 分析器的高级用法一(同义词,高亮搜索)
Elasticsearch 分析器的高级用法一(同义词,高亮搜索) 同义词简介分析使用同义词案例 高亮搜索高亮搜索策略unifiedplainvh 同义词 简介 在搜索场景中,同义词用来处理不同的查询词,有可能是想表达相同的搜索目标。 例…...
Python 开心消消乐
💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…...
mysql - 索引基本知识梳理
mysql索引基本知识梳理 索引介绍 官方介绍索引是帮助MySQL高效获取数据的数据结构, 原理为以空间换时间, mysql的索引采用的是B树的结构 索引的优缺点 优点: 提高查询效率降低数据库IO成本通过索引对数据进行排序, 降低排序成本, 降低CPU消耗 缺点:…...
Nginx SSL/TLS配置:搭建安全的HTTPS网站
随着互联网安全性的日益提升,HTTPS已经成为网站安全通信的标配。Nginx作为一款高性能的HTTP和反向代理服务器,支持SSL/TLS协议,使得我们可以轻松地搭建安全的HTTPS网站。下面,我们将详细介绍如何在Nginx上配置SSL/TLS,…...
echarts 折线图流光效果偏移或不显示
x轴数据需要字符串数组...
Redis数据类型(上篇)
前提:(key代表键) Redis常用的命令 命令作用keys *查看当前库所有的keyexists key判断某个key是否存在type key查看key是什么类型del key 删除指定的keyunlink key非阻塞删除,仅仅将keys从keyspace元数据中删除,真正的…...
VMware虚拟机安装Linux
1.下载Linux的ISO镜像文件 阿里镜像源网站: https://developer.aliyun.com/mirror/ 清华大学镜像源网站: https://mirrors.tuna.tsinghua.edu.cn/本人选择的是:Centos7.9.2009标准版 https://mirrors.tuna.tsinghua.edu.cn/centos/7.9.2009/isos/x86_64/ 标准版&a…...
slurm是什么,怎么用? For slurm和For Pytorch有什么区别和联系?
1.slurm是什么? Slurm(Simple Linux Utility for Resource Management)是一种开源的、用于集群和超级计算机的作业调度系统。它主要用于管理和调度大规模计算任务,使得用户可以有效地利用集群中的计算资源。Slurm提供了一套功能强…...
类和对象【六】友元和内部类
文章目录 友元友元的作用友元的缺点友元函数语法:特点: 友元类语法:特点: 内部类概念特点 友元 友元的作用 友元提供了一种打破封装的方式,有时提供了便利。 友元的主要作用就是打破封装 即可以让一个类的友元函数…...
一点点 cv 经验 1:cv方向、模型评估、输入尺寸、目标检测器设计
一点点 cv 经验 1:cv方向、模型评估、输入尺寸、目标检测器设计 cv 方向Pytorch数据集划分 模型评估误差偏差方差噪声 输入尺寸方法一:让数据适应模型方法二:修改模型适应数据方法三:划分Patch,分别处理 目标检测器结构…...
Java-SpringBoot集成Langchain4j文本嵌入模型实现向量相似度查询
集成Pg数据库并创建vector字段类型 运行pgvector容器 根据需要进行容器目录挂载 docker run --name pgvector \-e POSTGRES_PASSWORD123456 \-p 5432:5432 \-d --platform linux/amd64 ankane/pgvector:latest 进入docker容器并创建vector字段类型 docker exec -it pgvecto…...
正宇软件:引领数字人大新纪元,开启甘肃人大代表履职新篇章
在数字化强国的主旋律之下,政府工作的数字化、智能化转型已成为提升治理效能、增强人民满意度的关键一环。在这个大背景下,正宇软件技术开发有限公司以其卓越的技术实力和丰富的行业经验,成为了政府信息化建设的杰出代表。甘肃省人大代表履职…...
UniApp中,在页面显示时触发子组件的重新渲染
在UniApp中,要在页面显示时触发子组件的重新渲染,可以利用生命周期钩子函数来实现。具体来说,可以在页面的onShow生命周期钩子中调用子组件的方法或者改变子组件的props,从而触发子组件的重新渲染。 首先,确保子组件有…...
Linux(三)
Linux(三) Linux网络配置管理网络基础知识 IP地址A类 由1个字节网络地址3个字节主机地址B类 由2个字节网络地址2个主机地址C类 由3个字节网络地址1个主机地址D类:主要用于组播E类:为将来使用保留 子网掩码子网掩码作用网关DNS服务器 Linux用户管理用户的…...
2024年郫都区区级农业生产社会化服务重点服务组织评定申报条件材料、程序要求
第一章 总 则 第一条 为深入贯彻《中共中央办公厅 国务院办公厅关于促进小农户和现代农业发展有机衔接的意见》《农业农村部关于加快发展农业社会化服务的指导意见》精神,充分发挥农业生产社会化服务组织在引领现代农业发展、打造新时代更高水平“天府粮仓”郫都…...
Java入门须知术语
文章目录 前言JVM (Java Virtual Machine)JVM的组成部分JVM的作用为什么需要JVM JRE(Java Runtime Environment)JRE的组成部分JRE的作用为什么需要JRE JDK(Java Development Kit,Java开发工具包)JDK的组成部分JDK的作用…...
内存分配函数malloc kmalloc vmalloc
内存分配函数malloc kmalloc vmalloc malloc实现步骤: 1)请求大小调整:首先,malloc 需要调整用户请求的大小,以适应内部数据结构(例如,可能需要存储额外的元数据)。通常,这包括对齐调整,确保分配的内存地址满足特定硬件要求(如对齐到8字节或16字节边界)。 2)空闲…...
<6>-MySQL表的增删查改
目录 一,create(创建表) 二,retrieve(查询表) 1,select列 2,where条件 三,update(更新表) 四,delete(删除表…...
盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...
React Native 开发环境搭建(全平台详解)
React Native 开发环境搭建(全平台详解) 在开始使用 React Native 开发移动应用之前,正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南,涵盖 macOS 和 Windows 平台的配置步骤,如何在 Android 和 iOS…...
MongoDB学习和应用(高效的非关系型数据库)
一丶 MongoDB简介 对于社交类软件的功能,我们需要对它的功能特点进行分析: 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具: mysql:关系型数据库&am…...
在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:
在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档,…...
安宝特方案丨XRSOP人员作业标准化管理平台:AR智慧点检验收套件
在选煤厂、化工厂、钢铁厂等过程生产型企业,其生产设备的运行效率和非计划停机对工业制造效益有较大影响。 随着企业自动化和智能化建设的推进,需提前预防假检、错检、漏检,推动智慧生产运维系统数据的流动和现场赋能应用。同时,…...
大语言模型如何处理长文本?常用文本分割技术详解
为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面
代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口(适配服务端返回 Token) export const login async (code, avatar) > {const res await http…...
