当前位置: 首页 > article >正文

0.1B参数跑TTS,8B参数超越30B模型:MOSS这波音频双杀,有点离谱

你敢信吗一个0.1B参数的TTS模型能在CPU上跑实时语音合成MacBook Air单核就能流畅运行。更离谱的是同一个团队还搞了个8B的音频理解模型在通用音频理解榜单上直接把一众30B的模型按在地上摩擦。OpenMOSS团队这一波一个负责说一个负责听配合得也太默契了。先说说的这个MOSS-TTS-Nano0.1B参数是什么概念你手机上的一个App可能都比它大。但就这么个小东西它能干的事一点不少48kHz立体声输出音质不是玩具级别的支持20种语言中文英文日语韩语法语德语……基本主流语言全覆盖零样本语音克隆给一段参考音频就能用那个人的声音说话流式推理边生成边播放延迟低到可以实时对话长文本自动分块不会说着说着就断了最让我觉得有意思的是它的ONNX CPU版本。4月17号刚发布的推理效率比原版翻了一倍MacBook Air M4上单核CPU就能跑。不需要GPU不需要PyTorchONNX Runtime直接上。你说这意味着什么意味着你可以在浏览器插件里跑TTS了。他们真的做了个Chrome扩展——MOSS-TTS-Nano-Reader直接在浏览器里朗读网页不需要本地部署推理服务。这在以前是不可想象的TTS这种东西哪有不上GPU的但MOSS-TTS-Nano就是做到了。它的底层是一个纯自回归的Audio Tokenizer LLM管线。音频先用MOSS-Audio-Tokenizer-Nano压缩成12.5Hz的token流再用0.1B的LLM自回归生成。简单粗暴但管用。这个Tokenizer也值得多说两句。它只有20M参数但能把48kHz立体声音频压缩到0.125kbps到2kbps的可变码率用的16个码本的RVQ。在同参数量120M以内的开源音频tokenizer里它的重建质量是最好的。说白了这个小Tokenizer是整个MOSS-TTS家族的共享底座不管你是旗舰级的8B模型还是这个0.1B的Nano都用同一套音频表示。保证了家族一致性也降低了部署门槛。再说听的这个MOSS-Audio如果TTS-Nano是会说那MOSS-Audio就是会听。而且它听的能力说实话超出了我的预期。MOSS-Audio不是简单的语音转文字。它是一个统一的音频理解模型能做的事包括语音理解转写、说话人识别、情绪分析环境声理解听到背景里的雨声、车流声、键盘声能推断你在什么场景音乐理解分析风格、情绪走向、配器特征音频问答给一段播客直接回答你关于内容的问题时间感知QA知道什么时间说了什么支持词级和句级时间戳复杂推理多跳推理不是简单的信息提取架构上有两个我觉得特别值得关注的设计第一个是DeepStack跨层特征注入。传统的做法是把编码器的顶层特征直接丢给LLM。但问题来了——顶层特征虽然语义丰富底层韵律、瞬态事件、局部时频结构就丢了。MOSS-Audio的解法是把编码器各层的特征都挑一些出来分别投影后注入LLM的前几层。这样从低层声学细节到高层语义抽象一个都不落。这就像你听一个人说话不光听说了什么语义还听怎么说的语气、节奏、情绪才能完整理解。第二个是时间感知表示。在音频帧之间按照固定间隔插入显式的时间token。这样模型在预训练阶段就学会了什么发生在什么时候——时间戳ASR、事件定位、基于时间的问答都能在统一的文本生成框架里完成不需要额外的对齐模块。这招的效果有多猛看数据就知道了。数据说话MOSS-Audio到底有多强通用音频理解MOSS-Audio-8B-Thinking平均准确率71.08MMAU 77.33MMAU-Pro 64.92MMAR 66.53MMSU 75.52。超过所有开源模型包括30B的Qwen3-Omni和33B的Step-Audio。你没看错8B参数打30B、打33B。甚至在MMSU上8B-Thinking的75.52比33B的Step-Audio-R175.18还高。语音描述Speech Captioning13个细粒度维度里MOSS-Audio-8B-Instruct在11个上领先总平均分3.7252超过Gemini-3-Pro和Qwen3-Omni-30B。ASR语音识别综合CER 11.30全场最低。在方言8.76和歌唱9.81场景下更是遥遥领先。你想想看唱歌的语音都能识别好这声学建模能力不是一般强。时间戳ASR这是最炸裂的。AISHELL-1上AAS 35.77LibriSpeech上131.61。作为对比Qwen3-Omni是833.66Gemini-3.1-Pro是708.24。差了一个数量级。这意味MOSS-Audio在时间对齐上比这些大模型精确得多。说和听的组合拳现在你把这两个模型放在一起看会发现一个有意思的事情MOSS-TTS-Nano负责说——0.1B参数CPU可跑实时语音生成20种语言零样本克隆。MOSS-Audio负责听——8B参数音频理解全栈通用理解超30B模型时间戳精度碾压级。而它们共享同一套音频Tokenizer——MOSS-Audio-Tokenizer-Nano。这意味着什么说出来的声音听的人能完美理解。因为生成端和理解端用的是同一套音频表示体系。不存在我说了你听不懂的问题。这对于语音对话系统、实时语音助手这种需要边听边说的场景来说是巨大的优势。而且别忘了MOSS-TTS家族还有更多模型MOSS-TTS8B旗舰高保真零样本克隆细粒度控制MOSS-TTSD多说话人对话生成超长对话音频MOSS-VoiceGenerator文字描述直接生成音色不需要参考音频MOSS-SoundEffect可控音效生成环境声、城市场景、短音乐MOSS-TTS-Realtime低延迟实时语音面向语音智能体从说到听从单人到多人从语音到音效从离线到实时——MOSS正在搭一个完整的音频AI基础设施。我的看法说真的OpenMOSS这波操作让我挺感慨的。国内做音频AI的团队不少但大多数要么只做TTS要么只做ASR要么只做音频理解。能把生成和理解两条线都做起来还能共享底层Tokenizer的真不多。更关键的是他们在小而精这条路上走得非常坚决。0.1B的TTS-Nano敢往CPU上推20M的Tokenizer敢跟大模型比重建质量8B的Audio理解敢跟30B的模型对打。这不是靠堆资源堆出来的是真的在架构设计和训练策略上下了功夫。对普通开发者来说这两款模型意味着TTS不再是GPU专属浏览器插件就能跑的语音合成部署成本几乎为零音频理解不再是闭源专属8B参数的模型单卡就能跑效果还比大模型好生成理解一体化共享Tokenizer带来的生态一致性让组合使用变得异常自然我觉得这才是开源的意义——不是把模型往HuggingFace上一扔就完事了而是让普通人真的能用起来。代码和模型都已经开源了感兴趣的可以直接去试试MOSS-TTS-Nanogithub.com/OpenMOSS/MOSS-TTS-NanoMOSS-Audiogithub.com/OpenMOSS/MOSS-Audio

相关文章:

0.1B参数跑TTS,8B参数超越30B模型:MOSS这波音频双杀,有点离谱

你敢信吗?一个0.1B参数的TTS模型,能在CPU上跑实时语音合成,MacBook Air单核就能流畅运行。 更离谱的是,同一个团队还搞了个8B的音频理解模型,在通用音频理解榜单上直接把一众30B的模型按在地上摩擦。 OpenMOSS团队这一…...

中兴光猫工厂模式解锁神器:zteOnu完全指南,3步开启Telnet高级权限

中兴光猫工厂模式解锁神器:zteOnu完全指南,3步开启Telnet高级权限 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫Telnet权限获取工具zteOnu是一款专为…...

别再模拟IIC了!手把手教你用STM32F407硬件IIC点亮OLED(附F1/F4配置差异详解)

从模拟到硬件:STM32F4硬件IIC驱动OLED的进阶实践 在嵌入式开发领域,IIC通信协议因其简洁的两线制设计(SCL时钟线和SDA数据线)而广受欢迎。许多开发者最初接触STM32的IIC通信时,往往从模拟IIC(Software IIC…...

vue基于springboot的的校园二手交易平台

目录同行可拿货,招校园代理 ,本人源头供货商核心功能模块用户管理商品管理交易流程社区互动技术实现要点前端架构后端架构数据模型示例扩展功能方向安全注意事项项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园…...

不只是跑模式:用WRF-ARW做一次完整的区域天气模拟实战(以一次强对流过程为例)

从科学问题到可视化:用WRF-ARW完整模拟强对流天气的实战指南 当气象雷达上出现那片醒目的红色回波时,我们往往只能被动应对。但有没有可能提前48小时就预见到这场强对流天气的发生发展?这正是WRF-ARW赋予我们的"天气显微镜"能力。…...

Blender 3MF插件完整指南:免费实现3D打印文件完美转换

Blender 3MF插件完整指南:免费实现3D打印文件完美转换 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 你是否曾为Blender创作的精彩3D模型无法在3D打印机中保…...

Windows Cleaner:免费快速解决C盘爆满的终极系统清理神器

Windows Cleaner:免费快速解决C盘爆满的终极系统清理神器 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 还在为电脑运行缓慢、C盘空间告急而烦恼吗&a…...

跨模态注意力机制在视觉语言融合中的应用与实践

1. 项目概述:当视觉遇见语言在AI领域摸爬滚打这些年,我亲眼见证了单模态模型到多模态融合的技术跃迁。最近手头这个"视觉语言融合机制"项目,本质上是在解决一个根本问题:如何让机器像人类一样,同时理解图片里…...

3分钟学会RPG Maker MV游戏资源解密:解锁加密素材的终极指南

3分钟学会RPG Maker MV游戏资源解密:解锁加密素材的终极指南 【免费下载链接】RPG-Maker-MV-Decrypter You can decrypt RPG-Maker-MV Resource Files with this project ~ If you dont wanna download it, you can use the Script on my HP: 项目地址: https://g…...

告别LOOP!用ABAP 740的REDUCE运算符,一行代码搞定数据统计与累加

告别LOOP!用ABAP 740的REDUCE运算符,一行代码搞定数据统计与累加 在SAP ABAP开发中,数据统计、金额汇总和字符串拼接是几乎每天都会遇到的场景。传统的LOOP循环虽然功能强大,但往往需要多行代码才能完成简单的累加操作。ABAP 740…...

快速构建kernel32.dll API学习工具:用快马生成安全的函数查询桌面原型

今天想和大家分享一个实用的小工具开发过程——用Python快速构建一个kernel32.dll API学习工具。作为一个Windows开发者,经常需要查阅kernel32.dll中的各种系统API,但直接从网上下载dll文件既不安全也不规范。于是我用InsCode(快马)平台快速生成了一个桌…...

原神自动化脚本终极指南:解放双手,专注游戏乐趣

原神自动化脚本终极指南:解放双手,专注游戏乐趣 【免费下载链接】genshin-impact-script 原神脚本,包含自动钓鱼、自动拾取、自动跳过对话等多项实用功能。A Genshin Impact script includes many useful features such as automatic fishing…...

告别龟速下载:保姆级教程教你修改小米ROM下载地址,轻松跑满宽带

小米ROM下载加速实战指南:无需工具修改CDN地址突破限速 每次系统更新时盯着进度条龟速爬行,是不是让你想砸手机?去年换用小米13 Ultra后,我也被ROM下载速度折磨得够呛——200M宽带环境下速度长期徘徊在50KB/s。经过三个月反复测试…...

终极指南:如何用FakeLocation轻松管理Android应用位置模拟 [特殊字符][特殊字符]

终极指南:如何用FakeLocation轻松管理Android应用位置模拟 📱📍 【免费下载链接】FakeLocation Xposed module to mock locations per app. 项目地址: https://gitcode.com/gh_mirrors/fak/FakeLocation 想要在Android设备上自由控制每…...

2025终极指南:八大网盘直链下载助手,告别限速烦恼

2025终极指南:八大网盘直链下载助手,告别限速烦恼 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘…...

GPTFree开源AI对话聚合器:统一接口调用多平台免费模型

1. 项目概述:一个开源AI对话聚合器的诞生最近在GitHub上看到一个挺有意思的项目,叫“GPTFree”。光看名字,你可能会以为又是一个“免费使用ChatGPT”的套壳工具,但点进去仔细研究后,我发现它的设计思路和实现方式&…...

手把手教你用LVM搭建家用NAS的RAID1镜像盘(基于Ubuntu 22.04 + 多块旧硬盘)

手把手教你用LVM搭建家用NAS的RAID1镜像盘(基于Ubuntu 22.04 多块旧硬盘) 周末整理书房时翻出三块闲置硬盘——一块2TB的西数蓝盘、一块1.5TB的希捷和一块老旧的1TB东芝。这些退役老兵虽然速度不快,但健康状况良好,正好用来搭建家…...

Emacs集成GDScript开发:语法高亮、智能缩进与LSP配置全解析

1. 项目概述:当Emacs遇见Godot的GDScript如果你是一名同时活跃在Godot游戏引擎和Emacs编辑器两个社群的开发者,那么你很可能体会过那种在两个世界间切换的割裂感。在Godot编辑器中,GDScript的语法高亮、自动补全和代码导航体验流畅自然&#…...

别再手动推导了!用Easics的Verilog CRC16生成器,5分钟搞定Modbus通信校验

别再手动推导了!用Easics的Verilog CRC16生成器,5分钟搞定Modbus通信校验 在工业通信协议开发中,CRC校验是确保数据传输可靠性的关键环节。特别是对于Modbus这类广泛应用的协议,CRC16校验的正确实现直接关系到整个系统的稳定性。传…...

通过MCP协议将Nmap封装为AI可调用的网络扫描工具

1. 项目概述:当AI助手学会“扫描”网络 最近在折腾AI应用开发,特别是想让AI助手能更深入地理解和操作本地环境。一个很具体的需求是:能不能让AI像一位经验丰富的网络工程师一样,去“感知”和“探查”它所处的网络环境?…...

避坑指南:ROS Melodic与STM32底盘通信时,那些没人告诉你的时序和异常处理

ROS Melodic与STM32底盘通信避坑指南:时序异常与工程实践全解析 当你在深夜调试ROS机器人底盘时,突然发现小车不受控制地撞向墙壁——这种惊心动魄的场景往往源于通信链路上那些未被妥善处理的时序问题和异常情况。本文将从七个真实项目案例出发&#x…...

3D场景智能分区与NavMesh生成技术解析

1. 项目背景与核心价值在游戏开发和虚拟仿真领域,3D场景的智能生成与结构化分解一直是提升开发效率的关键技术。传统工作流程中,关卡设计师需要手动布置场景元素、设置导航网格(NavMesh),再根据游戏逻辑划分功能区域&a…...

从物理卡到eSIM:一文读懂ISO/IEC 7816协议栈,揭秘你的手机如何与‘数字身份证’对话

从物理卡到eSIM:解密ISO/IEC 7816协议栈与移动身份认证的进化之路 当你用手机拨打电话时,是否想过那个小小的SIM卡是如何完成身份验证的?从传统的塑料卡片到如今内置的eSIM芯片,这场持续了三十年的技术演进背后,隐藏着…...

架构设计新视角:lunar-javascript如何重新定义农历计算解决方案

架构设计新视角:lunar-javascript如何重新定义农历计算解决方案 【免费下载链接】lunar-javascript 日历、公历(阳历)、农历(阴历、老黄历)、佛历、道历,支持节假日、星座、儒略日、干支、生肖、节气、节日、彭祖百忌、每日宜忌、吉神宜趋凶煞宜忌、吉神…...

别再乱写复杂驱动了!手把手教你用Vector DaVinci Configurator配置一个符合AUTOSAR标准的CDD模块

实战指南:用Vector DaVinci Configurator构建AUTOSAR合规CDD模块 在汽车电子控制单元(ECU)开发中,复杂设备驱动(CDD)作为连接硬件与AUTOSAR标准架构的关键桥梁,其合规性设计直接关系到整个系统…...

终极免费开源Windows Defender控制工具:一键掌控你的系统防护

终极免费开源Windows Defender控制工具:一键掌控你的系统防护 【免费下载链接】defender-control An open-source windows defender manager. Now you can disable windows defender permanently. 项目地址: https://gitcode.com/gh_mirrors/de/defender-control…...

解锁九大网盘下载新姿势:LinkSwift直链助手终极指南

解锁九大网盘下载新姿势:LinkSwift直链助手终极指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

从滴滴 vs 美团打车看Stackelberg博弈:平台定价策略背后的真实商业逻辑

滴滴与美团打车的定价暗战:Stackelberg博弈如何重塑网约车市场格局 清晨七点半的北京国贸地铁站外,滴滴司机王师傅刚接完一单早高峰订单,手机同时弹出两条通知——滴滴将早高峰时段司机端补贴上调15%,而美团打车则在十分钟后更新了…...

SQLModel实战:用Python类型注解统一SQLAlchemy与Pydantic模型

1. 项目概述:当SQLAlchemy遇上Pydantic如果你和我一样,常年混迹在Python的后端开发领域,那么对SQLAlchemy和Pydantic这两个名字一定不会陌生。前者是Python生态里操作关系型数据库的事实标准,功能强大但学习曲线不低;后…...

深入Zynq GPIO寄存器:抛开Xilinx SDK API,手动操作MASK_DATA寄存器点亮LED

深入Zynq GPIO寄存器:手动操作MASK_DATA寄存器点亮LED的硬核实践 在嵌入式开发的世界里,理解硬件寄存器操作是区分普通开发者与资深工程师的重要分水岭。当我们使用Xilinx SDK提供的API函数控制GPIO时,实际上是在使用一个高度抽象的软件层&am…...