当前位置: 首页 > news >正文

突破语言壁垒:Cohere 发布多语言大模型 Aya Expanse

前沿科技速递🚀

在多语言大模型领域,Cohere 再次迎来了突破!10月24日,Cohere的研究实验室 Cohere For AI 正式发布了最新的多语言AI模型家族 —— Aya Expanse。该系列模型开放了8B和32B参数两个版本,为全球AI爱好者带来了崭新的多语言处理能力。

来源:传神社区

01 模型简介

Aya Expanse 作为一款专注于缩小语言差距的多语言模型家族,支持包括中文、英语、阿拉伯语等在内的23种语言,显著提升了各类主流模型的性能。无论是8B还是32B版本,都通过了严格的多语言基准测试,在各类多语言任务中表现优异,胜过 Gemma 2、Llama 3.1 及 Ministral 等领先的开源模型。

Cohere 一直致力于提升多语言研究的质量和普及性。在过去两年内,Aya 项目已经与来自 119 个国家的超过3000位研究者共同协作,建立了包含 5.13 亿个多语言样本的全球最大多语言数据集 Aya Collection,全面覆盖多语言模型的安全性和性能测试。

图片

02 核心创新

Aya Expanse 的成功离不开几项核心技术创新,Cohere 的研究团队在数据生成、人类反馈和模型合并方面做出了重要改进。以下是 Aya Expanse 核心技术亮点:

  1. 数据套利(Data Arbitrage)
    针对资源稀缺的语言,Aya Expanse 采用了一种独特的数据采样策略“数据套利”,通过教师模型生成高质量的合成数据来弥补低资源语言的不足。该方法受到人类学习方式的启发,根据数据分布,采用不同的“教师”模型生成适合的多语言数据。这有效避免了模型因合成数据生成而产生“乱码”的现象,使多语言数据的质量得到了有效保障。

    图片

  2. 多语言偏好训练(Multilingual Preference Training)
    偏好训练是指导模型输出高质量结果的“最后一闪”。Aya Expanse 不仅结合了广泛的多语言人类反馈,还融入了多元文化视角,使其在多语言环境下输出更加精准、安全。通过多轮次的偏好优化,Aya Expanse 的性能和安全性在不同文化和语言背景下均有显著提升,为多语言模型的安全性设立了新的标准。

  3. 模型合并(Model Merging)Aya Expanse 采用了模型合并技术,将多种微调模型的权重进行合并,显著提高了模型的多任务处理能力和语言多样性。这种方法不仅保留了每个模型的高性能,还通过权重加权平均法最大化模型的多样性,确保模型在不同语言家族的表现达到最佳。

    图片

03 卓越性能

通过图中可以看出,Aya Expanse 8B 在多个对比模型中表现突出。在 m-ArenaHard 基准测试中,Aya Expanse 8B 对比 Gemma-2 9B、Llama-3.1 8B 和 Ministral 8B 均取得了较高的得分。

在具体语言对比上,Aya Expanse 8B 在英语、阿拉伯语、中文等多种语言中的表现均超过对比模型 Gemma-2 9B,特别是阿拉伯语和法语的胜率分别高达 69.0% 和 58.0%。这一结果展示了 Aya Expanse 在多语言理解和生成方面的强大适应能力。

图片

图片

在规模较大的测试中,Aya Expanse 32B 表现出色,超越了包括 Gemma 2 27B、Mistral 8x22B 以及 Llama 3.1 70B 等多款主流大模型,为多语言性能树立了新的标杆。而更小的 Aya Expanse 8B 模型在 60.4% 至 70.6% 的胜率范围内超越了 Gemma 2 9B、Llama 3.1 8B 和 Ministral 8B,在同类参数模型中性能领先。

图片

04 模型下载

传神社区:

https://opencsg.com/models/CohereForAI/aya-expanse-8b

huggingface:

https://huggingface.co/CohereForAI/aya-expanse-8b

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

相关文章:

突破语言壁垒:Cohere 发布多语言大模型 Aya Expanse

前沿科技速递🚀 在多语言大模型领域,Cohere 再次迎来了突破!10月24日,Cohere的研究实验室 Cohere For AI 正式发布了最新的多语言AI模型家族 —— Aya Expanse。该系列模型开放了8B和32B参数两个版本,为全球AI爱好者带来了崭新的多…...

内容安全与系统构建加速,助力解决生成式AI时代的双重挑战

内容安全与系统构建加速,助力解决生成式AI时代的双重挑战 0. 前言1. PRCV 20241.1 大会简介1.2 生成式 Al 时代的内容安全与系统构建加速 2. 生成式 AI2.1 生成模型2.2 生成模型与判别模型的区别2.3 生成模型的发展 3. GAI 内容安全3.1 GAI 时代内容安全挑战3.2 图像…...

Scrapy源码解析:DownloadHandlers设计与解析

1、源码解析 代码路径:scrapy/core/downloader/__init__.py 详细代码解析,请看代码注释 """Download handlers for different schemes"""import logging from typing import TYPE_CHECKING, Any, Callable, Dict, Gener…...

shell基础-awk

awk 是一个强大的文本处理工具,广泛用于 Unix 和 Linux 系统中。它可以用来处理和分析文本文件,特别是那些包含结构化数据的文件。以下是 awk 的基础知识和一些常用示例。 基本概念 记录和字段: 记录:awk 处理的每一行文本称为一…...

@Controller 和 @RestController 区别

功能范畴: Controller:用于定义一个控制器类,主要用于处理用户请求并返回视图(通常是HTML页面)。常常与 Spring MVC 的视图解析器一起使用。RestController:是一个特殊类型的控制器,用于返回数据而不是视图…...

【数据库设计】规范设计理论之数据依赖的公理系统(1)

知道范式的几种分类之后还并不能帮助我们设计一款好的数据库,在对关系进行拆解(指模式分解)之前,我们需要引入一个理论基础让设计过程变得有迹可循和具备一定的严谨性以此来支撑数据库背后的可靠性。 Armstrong公理系统 所谓公理…...

Leetcode 合并两个数组

算法思想是双指针从后往前合并,利用了 nums1 数组的尾部空间来存储合并后的结果,从而避免了额外空间的使用。具体步骤如下: 初始化指针: i 指向 nums1 的有效元素末尾,即位置 m - 1。j 指向 nums2 的末尾,即…...

Native Crash 信号速查

重点信号 SIGSEGV(11) signal segmentation violation:段错误无效内存访问访问无权访问的内存空指针、越界访问(mmap?) SIGBUS(7) Bus Error:总线错误非法内存访问访问 …...

【工具变量】自由贸易试验区试点DID数据集(2003-2023年)

数据简介:自由贸易试验区(Free Trade Zone,简称FTZ)是中国ZF在新形势下为了推进GG开放、提高开放型经济水平而采取的重要战略举措。自贸试验区在一国的部分领土内运入任何货物,被认为在关境以外,免于实施惯…...

js-在数组中根据name查找出对应id(find与filter方法)

1.根据name查找出对应id 使用数组的 find 方法来根据对象的某个属性(如名称)查找对应的对象,并获取该对象的 id 属性。 2.find 方法 const array [ { id: 1, name: Alice }, { id: 2, name: Bob }, { id: 3, name: Charlie } ]; 使用…...

推荐:自然语言处理方向的一些创新点

以下是自然语言处理研究方向的一些创新点: 一、预训练模型的改进与优化 模型架构创新 融合多模态信息: 传统的自然语言处理模型主要处理文本信息。创新点在于将图像、音频等多模态信息融合到预训练模型中。例如,对于描述一幅画的文本&#x…...

成都睿明智科技有限公司抖音电商服务的领航者

在这个短视频风起云涌的时代,抖音电商以其独特的魅力迅速崛起,成为无数商家争夺流量与销量的新战场。在这片红海之中,如何脱颖而出,实现销售额的飞跃?今天,就让我们一同走进成都睿明智科技有限公司&#xf…...

【大数据学习 | kafka】kafka的整体框架与数据结构

1. kafka的整体框架 首先kafka启动以后所有的broker都会向zookeeper进行注册,在/brokers/ids中以列表的形式展示所有的节点,在/controller节点中使用独享锁实现broker的选举,其中一个机器为主节点。其他的为从节点,选举的根本原则…...

隐私保护下的数据提取策略

在隐私保护下进行数据提取,需要采取一系列策略来确保个人隐私得到妥善保护,同时满足数据使用的需求。以下是一些关键的策略和方法: 一、数据最小化原则 定义:仅收集和提取必要的数据,避免收集过多的个人信息或不相关…...

vue 和 django 报 CORS(跨域资源共享,Cross-Origin Resource Sharing)是一种跨域访问的机制,

在使用 Vue 和 Django 进行前后端分离开发时,如果遇到 AxiosError: Network Error 的错误,通常可能是由于以下几种原因引起的。下面列出了一些常见的原因和解决方案。 1. CORS(跨源资源共享)问题 当你的 Vue 应用和 Django 后端…...

「Mac畅玩鸿蒙与硬件3」鸿蒙开发环境配置篇3 - DevEco Studio 插件安装与配置

本篇将专注于如何在 DevEco Studio 中安装和配置必要的插件,以增强开发功能和提升效率。通过正确配置插件,开发流程能够得到简化,开发体验也会更加顺畅。 关键词 插件安装配置优化DevEco Studio开发工具 一、插件的重要性 插件可以大幅扩展…...

【论文阅读】PGAN

1. WHY 问题 图像超分辨率一直是一个热门研究课题,具有重要的应用价值。基于生成对抗网络GAN的单幅图像超分辨率方法显示重建图像与人类视觉特征更一致。因此,基于 GAN 的网络优化已成为图像超分辨率的主流。然而,一些最新研究表明&#xf…...

基于Unet卷积神经网络的脑肿瘤MRI分割

项目源码获取方式见文章末尾! 回复暗号:13,免费获取600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【YOLO模型实现农作物病虫害虫识别带GUI界面】 2.【卫星图像道路检测DeepLabV3P…...

[java][基础]HTTPTomcatServlet

1,Web概述 1.1 Web和JavaWeb的概念 Web是全球广域网,也称为万维网(www),能够通过浏览器访问的网站。 在我们日常的生活中,经常会使用浏览器去访问百度、京东、传智官网等这些网站,这些网站统称为Web网站。如下就是通…...

【开源免费】基于SpringBoot+Vue.JS网上超市系统(JAVA毕业设计)

本文项目编号 T 037 ,文末自助获取源码 \color{red}{T037,文末自助获取源码} T037,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…...

RocketMQ Dashboard 部署实战:从源码到生产可用的控制台

1. RocketMQ Dashboard 是什么? RocketMQ Dashboard 是 Apache RocketMQ 官方提供的可视化监控管理工具,相当于给 RocketMQ 装上了"仪表盘"。想象一下开车没有仪表盘,不知道油量、车速、发动机状态有多可怕?RocketMQ Da…...

MongoDB避坑指南:电脑名含中文导致 Invalid UTF-8 string 报错的完美解决

前言最近在配置 MongoDB 本地环境时,遇到了一个非常“玄学”的报错。明明按照教程一步步安装,环境变量也配好了,但无论是启动服务,还是使用 MongoDB Compass 连接本地数据库,都会直接报错。排查了半天,最后…...

基于CRICKIT与蓝牙的双足机器人:从机械原理到手机遥控实践

1. 项目概述:一个会“翻跟头”的蓝牙机器人如果你玩腻了循迹小车或者舵机云台,想做一个动作更“魔性”、互动性更强的机器人,那么这个基于CRICKIT和Feather M0 Bluefruit的双足机器人绝对能让你眼前一亮。它走起路来不是平稳前进,…...

STM32L4实战:用RTC唤醒定时器实现33秒超长待机,实测功耗从52mA降到2.2mA

STM32L4超低功耗实战:从52mA到2.2mA的RTC唤醒优化全解析 当一块STM32L4开发板的功耗从52mA骤降到2.2mA,这不仅仅是数字的变化——它意味着智能穿戴设备的续航从1天延长到3周,工业传感器节点可以摆脱电源线的束缚,便携医疗设备的安…...

LetsFG:基于Function与Group的去中心化协作平台设计与实战

1. 项目概述:一个面向未来的开源协作平台最近在开源社区里,一个名为“LetsFG/LetsFG”的项目引起了我的注意。乍一看这个标题,可能会觉得有些抽象,但当你深入其代码仓库和设计理念后,会发现它指向了一个非常具体且极具…...

科技晚报|2026年5月15日:AI 代理开始补协作、编排和护栏

科技晚报|2026年5月15日:AI 代理开始补协作、编排和护栏 一句话导读:今晚更值得看的,不是哪家模型榜单又变了,而是几家平台同时在补 AI 代理真正进生产前最缺的三块能力:跨 IDE 共享状态、团队级可观测&…...

MISC实战:从受损pcap到关键数据提取的全链路取证分析

1. 受损pcap文件修复实战指南 遇到打不开的流量包文件就像拿到一张破损的地图,明明知道宝藏就在里面却无从下手。我处理过上百个损坏的pcap文件,最常见的报错是"Not a pcap/pcapng file"或"File has invalid header"。这时候别急着…...

【模块化设计-11】基于嵌入式系统的周期性任务调度框架设计与实现

基于嵌入式系统的周期性任务调度框架设计与实现嵌入式系统的稳定性与实时性核心在于任务调度框架的设计,合理的框架不仅能保障各类外设任务有序执行,更能为系统扩展与维护奠定基础。本文以一款集成 ADC 采集、系统守护、外设交互的嵌入式应用为例&#x…...

AiP8F7201单芯片电机驱动方案:从硬件设计到FOC算法实战

1. 项目概述:当MCU遇上三相全桥,一颗芯片的“跨界”革命最近在做一个无刷电机驱动的小项目,选型时发现了一个挺有意思的芯片——AiP8F7201。这玩意儿严格来说不能算传统意义上的“微控制器”,它更像是一个自带“大脑”和“强健四肢…...

为Hermes Agent配置自定义Provider指向Taotoken聚合服务的操作方法

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为Hermes Agent配置自定义Provider指向Taotoken聚合服务的操作方法 Hermes Agent 是一个功能强大的AI代理框架,它支持通…...