当前位置: 首页 > news >正文

SeamlessM4T—Massively Multilingual Multimodal Machine Translation

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。

SeamlessM4T:大规模语言多模态机器翻译

  • 摘要
  • 1 引言
  • 2 多模态翻译的社会技术维度
    • 2.1
    • 2.2
    • 2.3
  • 3 SeamlessAlign:自动创建语音对齐数据
  • 4 SeamlessM4T模型
  • 5 自动和人工评估
  • 6 负责任的AI
  • 7 社会影响与结论
    • 7.1 增强世界准备度
    • 7.2 未来工作

摘要

如何创建Babel Fish,一个可以帮助个人在任何两种语言之间翻译语音的工具?虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外,但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说,传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译,这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距,我们推出了SeamlessM4T——大规模多语言和多模态机器翻译——一个单一的模型,支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点,我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后,我们创建了一个多模态的自动对齐语音翻译语料库,名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据(总计406000小时),我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上,SeamlessM4T为翻译成多种目标语言设定了一个新的标准,在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比,SeamlessM4T在语音到文本中提高了1.3个BLEU点,在语音到语音中提高了2.6个ASR-BLEU点。在CVSS上,与用于语音转换的两级级联模型相比,Seamless M4T Large的性能增强了58%。对语音到文本翻译输出的初步人类评估显示出同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们发现在24种语言中有7种语言比WhisperLarge-v2的基线有了显著改进。为了进一步评估我们的系统,我们开发了Blaser 2.0,在质量估计方面,与前代系统相比,它能够以类似的精度对语音和文本进行评估。经过稳健性测试,与当前最先进的模型相比,我们的系统在语音到文本任务中对背景噪声和说话者变化的处理效果更好(平均分别提高了38%和49%)。至关重要的是,我们评估了Seamless M4T的性别偏见,并增加了毒性以评估翻译安全性。与最先进的相比,我们报告翻译输出中的附加毒性降低了63%。最后,这项工作中的所有贡献——包括模型、推理代码、由我们改进的建模工具包Fairseq2支持的微调配方,以及重新创建SeamlessAlign未经过滤的47万小时的元数据——都是开源的,可以通过https://github.com/facebookresearch/seamless_communication访问.

1 引言

2 多模态翻译的社会技术维度

2.1

2.2

2.3

3 SeamlessAlign:自动创建语音对齐数据

4 SeamlessM4T模型

5 自动和人工评估

6 负责任的AI

7 社会影响与结论

人类交流是多感官的——我们接受来自几种模式的感官输入,以动态的方式处理信息。在多语言环境中,基于文本的机器翻译的进步产生了帮助个人用熟练程度较低的语言进行交流和学习的工具。也就是说,虽然NLLB等基础模型将T2TT推向了200种语言之外,但直接语音翻译尚未取得类似的进展。为了弥补这一差距,我们创建了一个大规模的多语言和多模态机器翻译系统,为下一代语音翻译技术铺平了道路。
使用新的数据和建模方法将S2ST、S2TT、T2TT和ASR组合在一个模型中,我们的主要贡献如下。首先,我们建立了一个与我们的语言覆盖范围相一致的新LID模型,并在新构思的SONAR(一个多语言和多模式句子嵌入空间)的帮助下进行语音挖掘,以创建一个超过47万小时的自动对齐语音翻译语料库。通过融合四个构建块,(1)Seamless M4T NLLB,一个大规模多语言T2TT模型,(2)w2v BERT 2.0,一个在未标记语音音频数据上预训练的语音表示学习模型,(3)T2U,一个文本到单元序列到序列模型,和(4)HiFi GAN,一个用于从单元合成语音的多语言声码器,我们建立了一个统一的模型,涵盖了从100种语言到英语(100 eng)的S2ST,从英语到35种语言(eng-35),以及100 eng和eng-95语言的S2TT。值得注意的是,与之前在S2ST上的工作相比,SeamlessM4T能够执行从英语到35个方向的翻译,S2ST主要提供英语翻译,而不是英语翻译。在S2TT方面,SeamlessM4T在S2TT翻译方面比以前的最先进技术提高了20%的BLEU。对S2TT输出的初步人类评估显示了同样令人印象深刻的结果;对于英语翻译,24种评估语言的XSTS分数始终高于4(满分5)。对于英语方向,我们看到24种语言中有7种语言的Whisper-Large-v2的基线有了显著改进。然后,我们评估了我们的模型的稳健性,发现Seamless M4T在背景噪声和扬声器变化方面比更具稳健性。通过还包括增加毒性水平和性别偏见的结果,我们希望激励未来针对缓解努力的工作。
为了促进可访问性,我们开源了我们工作的所有贡献,包括两种规模的模型,以确保即使是计算资源有限的研究人员也能使用我们的工作。在下一节中,我们通过关注Seamless M4T的下游可能性来讨论其潜在的社会影响。

7.1 增强世界准备度

我们生活的世界从未像现在这样相互关联——互联网、移动设备、通信平台和社交媒体的全球扩散使个人接触到比以往任何时候都更多的多语言内容。当前的社会秩序对一个人的“世界准备度”提出了要求,这是衡量一个人在多语言世界中的能力的指标。世界准备度最初是在语言学习的背景下发展起来的,它强调了能够用母语以外的语言进行交流的重要性,这既有工具原因(即就业或上学),也有文化原因(即成为全球公民)。也就是说,尽管我们认为语言习得应该仍然是提高一个人对世界的准备程度的关键机制,但我们承认,这样做需要许多人可能不具备的精神和物质资源。
SeamlessM4T支持的下游应用程序可以通过简化各种环境下的多语言交换,实现按需访问,以满足世界需求。正如T2TT在衔接多语言文本理解方面所取得的成就一样,Seamless M4T也可能对语音产生同样的效果。研究表明,与母语相反,在母语中,言语比阅读或写作更自然地习得,当涉及到外语时,这种趋势发生了逆转。换言之,在外语环境中,演讲通常被认为比阅读或写作更具挑战性。Seamless M4T支持的应用程序可以作为一种协同试点机制,支持用户进行多语言对话,并增强他们对语音密集交互的信心。随着基于语音的界面(即音频助手、语音备忘录、实时转录等)和听觉内容(即播客、有声读物、短视频等)越来越多地出现在人们的生活中,SeamlessM4T支持的下游应用程序可以提供更丰富多样的多语言体验,并且比基于文本的应用程序更自然、更动态。
从包容性的角度来看,Seamless M4T对多模态的关注可能会在增强那些有无障碍需求的人和那些语言包含多个写作系统的人的世界准备能力方面产生有意义的影响(如第2节所述)。对于许多缺乏阅读或写作技能,或无法依赖视力的人(即盲人或视力障碍者)来说,语音辅助技术对于他们如何沟通和保持联系至关重要。翻译语音的能力不仅使这些群体能够更全面地获得母语之外的信息,而且能够以更适合他们交际需求的方式进行翻译。此外,认识到某些语言可能存在脚本差异,SeamlessM4T提供了可供性,有助于规避多脚本难题。对于没有标准化书写系统的语言,对语音识别和翻译的投资可能有助于防止危害。我们希望我们的努力能够为这一重要运动作出贡献。

7.2 未来工作

与大多数技术一样,收益的分配因用户人口统计和社会状况而异。虽然我们证明Seamless M4T可以通过降低跨语言交流的障碍来增强世界准备能力,但一些用户在使用我们的工作时可能会比其他用户遇到更多困难。例如,与许多其他语音技术一样,Seamless M4T的ASR性能可能因性别、种族、口音或语言而异。此外,我们的系统在翻译俚语或专有语时的表现名词在高资源语言和低资源语言之间也可能不一致。
S2ST面临的另一个挑战是,与书面语言相比,语音取决于即时接收和反馈。换句话说,说话者在确定输出质量或在现场对话中进行“编辑”的能力有限。如果没有能力在反译或母语人士的帮助下进行计划和修订,S2ST在涉及误译或毒性时可能会带来更高程度的互动风险。我们敦促使用SeamlessM4T微调或构建产品的研究人员和开发人员批判性地思考可以帮助用户规避这些潜在障碍的设计功能。与此相关的是,我们认为SeamlessM4T驱动的应用程序最好被视为一种辅助翻译的增强设备,而不是一种取代语言学习或可靠的人类口译员需求的工具。这一提醒在涉及法律或医疗决策的高风险情况下尤其重要。
最后,语音不是口语文本,它包括一套韵律(即节奏、重音和语调)和情感成分,值得进一步研究。为了创建感觉有机和自然的S2ST系统,应将更多的研究转向保持表现力的输出生成。此外,Babel Fish的完美实现需要对低延迟语音翻译的研究进行更深入的投资。开发能够进行流式传输的系统(即,在输入句子呈现时逐步翻译输入句子)可能会增加此类系统在行业或教育环境中的采用。我们希望Seamless M4T为这两个研究领域开辟新的可能性。

相关文章:

SeamlessM4T—Massively Multilingual Multimodal Machine Translation

本文是LLM系列的文章,针对《SeamlessM4T—Massively Multilingual & Multimodal Machine Translation》的翻译。 SeamlessM4T:大规模语言多模态机器翻译 摘要1 引言2 多模态翻译的社会技术维度2.12.22.3 3 SeamlessAlign:自动创建语音对…...

Python数据分析-Numpy

Numpy 个人笔记,仅供参考,谢谢 导入 import numpy import numpy as np from numpy import *Numpy数组对象 引入 # 让列表1 a [1,2,3,4],b [4,5,6,7] [x1 for x in a] # 实现ab a b > [1,2,3,4,5,6,7,8] [x y for (x,y) in zip(a,b)] -------…...

【真题解析】系统集成项目管理工程师 2023 年上半年真题卷(案例分析)

本文为系统集成项目管理工程师考试(软考) 2023 年上半年真题(全国卷),包含答案与详细解析。考试共分为两科,成绩均 ≥45 即可通过考试: 综合知识(选择题 75 道,75分)案例分析(问答题 4 道,75分)案例分析(问答题*4)试题一试题二试题三试题四案例分析(问答题*4) …...

【GAMES202】Real-Time Global Illumination(in 3D)—实时全局光照(3D空间)

一、SH for Glossy transport 1.Diffuse PRT回顾 上篇我们介绍了PRT,并以Diffuse的BRDF作为例子分析了预计算的部分,包括Lighting和Light transport,如上图所示。 包括我们还提到了SH,可以用SH的有限阶近似拟合球面函数&#xff…...

金蝶云星空二开,公有云执行SQL

功能背景; 金蝶公有云执行sql工具,因官方为云部署 用户无法连接数据库增删改查 天梯维护网页仅支持增删改操作 二开单据已支持根据sql动态生成单据体 与sql可视化界面操作一致 功能实现及场景: 1.可用于公有云执行sql类操作 2.私有云部署&am…...

JAVA String 二维的字符串数组 String[][]

String[][] 表示一个二维的字符串数组,也可以称为字符串矩阵。它是由多个一维的字符串数组组成的,每个一维数组都表示矩阵中的一行。 在 Java 中,可以使用如下方式声明和初始化一个二维字符串数组: String[][] matrix new Strin…...

【Unity3D赛车游戏优化篇】【九】Unity中如何让汽车丝滑漂移?

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…...

el-dialog设置高度、使用resetFields清除表单项无效问题

初学者容易踩坑的的el-dialog、el-form问题 1. el-dialog设置高度2. el-form中表单项对不齐3. 使用resetFields清除表单项无效 1. el-dialog设置高度 在el-dialog中里面添加一个div设置固定高度&#xff0c;或者限制最小的高度。 <el-dialogtitle"选择图标"v-mod…...

MySql切换到达梦数据库,各种问题解决记录

参考官方文档&#xff1a; https://eco.dameng.com/document/dm/zh-cn/sql-dev/practice-func.html 1. 关键字导致的报错&#xff1a;如ref,comment,top,domain等 Error -2007: 第 1 行, 第 117 列[ref]附近出现错误: 语法分析出错解决方案&#xff1a;修改关键字即可 2. 查…...

2023开学礼山东财经大学《乡村振兴战略下传统村落文化旅游设计》许少辉新财经图书馆

2023开学礼山东财经大学《乡村振兴战略下传统村落文化旅游设计》许少辉新财经图书馆...

vscode中使用eslint+prettier的配置

eslintprettiervscode自动保存用起来感觉非常爽快。 一般来说&#xff0c;安装eslintprettier插件&#xff0c;然后使用相关脚手架配套的eslintprettier&#xff0c;无法自动格式代码&#xff0c;每次都需要执行格式化命令。这里贴出保存自动格式化代码的setting.json。 // .…...

HTML 标签讲解

HTML 标签讲解 HTML 语言结构根元素元数据元素主体根元素大纲元素文本内容语义化内联文本图像与多媒体编辑标识table表格内容表单内容table表单 HTML 语言结构 Markup &#xff08;标记、标签&#xff09;用来容纳和描述内容 严格意义上&#xff0c;标签是指开始标签&#xf…...

ue5 小知识点 ue的world type,pie editor game

说明以该命令行模式启动游戏的前提下的两个问题&#xff1a; 1.WITH_EDITOR中的代码会被编译 2.由于没有在编辑器中(即没有打开虚幻编辑器)&#xff0c;所以GIsEditor为false WITH_EDITOR和WITH_EDITORONLY_DATA的区别 在论坛中找到的答案&#xff1a; WITH_EDITORONLY_DAT…...

两表union 如何保证group by 字段唯一

当要计算的指标可能来源多个表时&#xff0c;可能会使用到union all把不同的表中计算的指标合起来。关于union all使用条件&#xff1a;两个要联合的SQL语句 字段个数必须一样&#xff0c;而且字段类型要“相容”&#xff08;一致&#xff09; 另外&#xff0c;回顾union和uni…...

【⑰MySQL】 变量 | 循环 | 游标 | 处理程序

前言 ✨欢迎来到小K的MySQL专栏&#xff0c;本节将为大家带来MySQL变量 | 循环 | 游标 | 处理程序的分享✨ 目录 前言1. 变量1.1系统变量1.2 用户变量 2. 定义条件与处理程序2.1 案例分析2.2 定义条件2.3 定义处理程序2.4 案例解决 3. 流程控制3.1 分支结构3.2 循环结构3.3 跳转…...

如何在arXiv上发表一篇文章

目录 1. 初始信息确认2. 提交论文文件3. 论文编译结果4. 补充论文信息5. 总览 1. 初始信息确认 版权问题需要根据个人情况选择。 IEEE, Elsevier, BioMed Central, 这几个出版商都允许在投稿之前挂文章到arXiv下。通常是选择&#xff1a; arXiv.org perpetual, non-exclusive l…...

重要性采样

重要性采样 前言 离散型随机变量 X X X&#xff0c;我们可以通过以下方法求取其期望&#xff1a; 直接计算法&#xff0c;需要知道概率分布&#xff1a; E ( X ) ∑ x ∈ X [ p ( x ) ⋅ x ] \mathbb{E}(X)\sum_{x\in X}\left[p(x)\cdot x\right] E(X)x∈X∑​[p(x)⋅x] 采…...

说说Omega架构

分析&回答 Omega架构我们暂且称之为混合数仓。 什么是ECS设计模式 在谈我们的解法的时候&#xff0c;必须要先提ECS的设计模式。 简单的说&#xff0c;Entity、Component、System分别代表了三类模型。 实体(Entity)&#xff1a;实体是一个普通的对象。通常&#xff0c…...

高忆管理:光刻胶概念强势拉升,同益股份、格林达涨停

光刻胶概念5日盘中强势拉升&#xff0c;截至发稿&#xff0c;同益股份、格林达涨停&#xff0c;波长光电、晶瑞电材涨超7%&#xff0c;容大感光涨逾5%&#xff0c;华懋科技、茂莱光学、苏大维格、南大光电等均走强。 音讯面上&#xff0c;据新加坡《联合早报》网站9月2日报导&…...

计算机图形学线性代数相关概念

Transformation&#xff08;2D-Model&#xff09; Scale(缩放) [ x ′ y ′ ] [ s 0 0 s ] [ x y ] (等比例缩放) \left[ \begin{matrix} x \\ y \end{matrix} \right] \left[ \begin{matrix} s & 0 \\ 0 & s \end{matrix} \right] \left[ \begin{matrix} x \\ y \en…...

浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)

✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义&#xff08;Task Definition&…...

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表&#xff1f;1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

基于ASP.NET+ SQL Server实现(Web)医院信息管理系统

医院信息管理系统 1. 课程设计内容 在 visual studio 2017 平台上&#xff0c;开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的 综合运用 c#.net 知识&#xff0c;在 vs 2017 平台上&#xff0c;进行 ASP.NET 应用程序和简易网站的开发&#xff1b;初步熟悉开发一…...

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略&#xff0c;并且实现了基本的选区操作&#xff0c;还调研了自绘选区的实现。那么相对的&#xff0c;我们还需要设计编辑器的选区表达&#xff0c;也可以称为模型选区。编辑器中应用变更时的操作范围&#xff0c;就是以模型选区为基准来…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下&#xff0c;江苏艾立泰以一场跨国资源接力的创新实践&#xff0c;重新定义了绿色供应链的边界。 跨国回收网络&#xff1a;废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点&#xff0c;将海外废弃包装箱通过标准…...

Python ROS2【机器人中间件框架】 简介

销量过万TEEIS德国护膝夏天用薄款 优惠券冠生园 百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选 鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒 优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友 热卖妙洁棉…...

基于Java Swing的电子通讯录设计与实现:附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘 一、系统概述 本电子通讯录系统采用Java Swing开发桌面应用&#xff0c;结合SQLite数据库实现联系人管理功能&#xff0c;并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能&#xff0c;同时可以最小化到系统…...

深入浅出深度学习基础:从感知机到全连接神经网络的核心原理与应用

文章目录 前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么&#xff1f;1.1.2 感知机的工作原理 1.2 感知机的简单应用&#xff1a;基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...

NPOI操作EXCEL文件 ——CAD C# 二次开发

缺点:dll.版本容易加载错误。CAD加载插件时&#xff0c;没有加载所有类库。插件运行过程中用到某个类库&#xff0c;会从CAD的安装目录找&#xff0c;找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库&#xff0c;就用插件程序加载进…...