当前位置: 首页 > article >正文

南京大学等联合发布开源语音大模型VITA-Qinyu,首发支持角色扮演+哼唱

在 AI 语音交互的赛道上南京大学联合腾讯音乐研发的 VITA-Qinyu 正式亮相。这是业内首款兼具自然对话、高表现力角色扮演与歌唱能力的开源端到端语音语言模型SLM一举打破了传统语音模型仅聚焦对话准确性、缺乏情感与场景表现力的局限让 AI 语音交互真正走向「有温度、有个性、有乐趣」。更重要的是团队已将 VITA-QinYu 的训练代码与模型权重全面开源邀全球开发者共建推动表达型语音大模型的技术迭代与场景落地GitHub地址https://github.com/VITA-MLLM/VITA-QinYuDemo地址https://tme-lyra-lab.github.io/VITA-QinYu/论文地址Coming Soon颠覆体验AI 不止会对话更能演角色、唱金曲过去的端到端语音语言模型核心能力集中在实现流畅的自然对话却难以捕捉人类语音中丰富的副语言信息——比如温柔的安慰语气、贴合角色的专属声线、随口哼唱的旋律这些充满「人情味」的表达始终是 AI 语音的短板。而 VITA-QinYu 的出现填补了这一空白。它首次将角色扮演与歌唱能力融入通用语音对话模型实现了三大核心能力✅ 自然对话保持顶尖的对话准确性与流畅度理解、推理能力媲美同等规模大小的LLM✅ 角色扮演通过给定自然语言描述定制角色进行交流同步支持动态音色控制多轮对话人物设定的一致性角色扮演种类无限制✅ 歌唱生成无需乐谱输入仅通过用户输入相关哼唱的指令即可生成自然演唱语音打破传统歌声合成对结构化音乐信息的依赖。从日常的景点推荐、聊天互动到化身修仙前辈展开沉浸式角色扮演再到随口点歌就能哼唱经典旋律VITA-QinYu 让 AI 语音交互的场景边界被彻底拓宽。接下来听一下 demo 效果重心在新能力效果探索上并没有做 VLLM 以及其他相关的加速目前实际延时在 H20 上 2s 左右自然对话哼唱能力角色扮演该角色是一个青年男性身份是穿越者/现代灵魂性格跳脱吐槽、偶尔迷茫气质违和音色自然带现代口语该角色是一个幼儿女性身份是世家千金性格活泼机敏、爱撒娇气质天真灵动音色甜润语速较快该角色是一个中年男性 身份是修真界的前辈高人 , 性格沉稳淡定善于提出建设性意见气质偏向智者风格该角色是一个青年女性身份是苗女/异族少女性格直率泼辣、敢爱敢恨气质野性奔放音色独特带口音硬核设计混合语音-文本范式解锁更丰富的语音表达VITA-QinYu 的出色表现源于其创新的混合语音-文本建模范式。在原有交错文本-音频建模的基础上模型引入了多码本音频令牌既实现了更丰富的副语言特征表征又保证了音、文模态的清晰分离避免相互干扰从底层解决了「表达丰富性」与「模态稳定性」的矛盾。模型的核心架构还包含这些关键设计双骨干模型可选以 Decoder-only Transformer 为基础支持 Qwen3-8B、Youtu-LLM-4B 双骨干推出 4B/8B 两个版本支持多轮对话仅保留历史文本响应以降低计算成本兼顾性能与轻量化动态音色控制集成 Text-to-TimbreTTT模块以及 speaker embedding 相关模块通过角色描述即可生成匹配的声线实现动态音色控制高保真音频编解码采用 XY-Tokenizer 多码本编解码器12.5Hz 下 8 个码本相比单码本方案能更精准还原语音与歌唱的旋律、韵律提升生成质量。海量数据多维度精细化处理筑牢模型训练根基高质量的模型离不开大规模、多维度、精细化的数据集支撑与处理。VITA-QinYu 团队打造了一套覆盖自然对话、角色扮演、歌唱三大类的全链路数据处理流水线累计构建12K 小时自然对话数据、2.6K 小时角色扮演数据、1.2K 小时歌唱数据并通过多轮筛选、标注、合成优化让每一类数据都精准匹配模型能力训练需求为三大核心能力的落地筑牢基础。自然对话数据双层筛选 情感优化从多源文本中筛选 155 万条中英样本通过长度限制、正则过滤、模型打分剔除低质内容对高分样本做情感分析与口语改写生成 40 万条富含情绪的自然对话合成 9 万 独特说话人语音查询提升模型对不同声线、口音的适配性。角色扮演数据三阶段流水线保障人设统一从有声书中提取 2 万 角色定义人口统计、声线风格等四大属性通过属性约束提示词生成 8 万 轮贴合人设的多回合脚本为脚本标注情绪指令用指令式 TTS 生成精细控制韵律与情绪的语音数据累计 2.6K 小时。哼唱数据无乐谱适配日常场景收集 5000 首热门歌曲分解片段并提取 MIDI 旋律通过零样本 SVS 生成高保真 vocal 片段绑定统一声线将标准化点歌指令改写为「唱一段青花瓷」等口语化查询构建 1.2K 小时歌唱数据。开源共建代码模型全开放邀开发者一起完善为了让更多开发者能够参与到表达型语音大模型的研发中推动技术的快速迭代与场景落地做出了一个重要决定——将模型的训练代码、权重全面开源并打造了一套易用的 Web demo 演示系统支持流式传输与全双工交互。这套系统融合了 Whisper 语音识别、TEN 框架实现打断检测能力还原了真实自然的人机语音交互场景开发者无需复杂部署即可快速体验自然对话、角色扮演相关的效果能力更能基于开源代码与模型进行二次开发、场景定制与技术优化。从基础的语音交互优化到个性化的角色音色定制再到歌唱能力的升级、垂直场景的适配VITA-QinYu 的开源为开发者提供了全新的技术底座期待全球开发者的加入一起完善模型能力探索更多新可能。未来可期开启表达型语音大模型新时代目前 VITA-QinYu 的角色扮演与歌唱能力仍处于早期探索阶段团队表示未来将持续优化模型进一步提升表达丰富度、场景适配性与生成质量。而此次开源更是为行业注入了新的活力让更多开发者能够参与其中共同推动 AI 语音交互技术的发展。这款「能说、会演、善唱」的 AI 语音大模型正在为智能助手、沉浸式交互、数字人、语音娱乐、在线教育等领域打开全新的想象空间。相信在开源社区的共同努力下VITA-QinYu 将不断进化让 AI 语音的交互体验更贴近人类让科技真正拥有「人情味儿」。✨ 开源已启未来共筑快来解锁 AI 语音交互的全新可能现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

相关文章:

南京大学等联合发布开源语音大模型VITA-Qinyu,首发支持角色扮演+哼唱

在 AI 语音交互的赛道上,南京大学联合腾讯音乐研发的 VITA-Qinyu 正式亮相。这是业内首款兼具自然对话、高表现力角色扮演与歌唱能力的开源端到端语音语言模型(SLM),一举打破了传统语音模型仅聚焦对话准确性、缺乏情感与场景表现力…...

嵌入式系统中命令模式的应用与优化

1. 嵌入式系统中的误操作救赎之道在嵌入式开发中,参数配置误操作就像厨房里的盐罐打翻——一瞬间的失误可能导致整锅菜报废。上周我就遇到一个真实案例:某工业设备因为工程师误触"恢复出厂设置",导致产线上30台设备参数全部重置&am…...

氢能多能利用调度系统 -NSGA-II多目标优化,实现氢能-电能-交通多能耦合系统的24小时优化调度,包含电解制氢、可再生能源、储氢、掺氢燃气轮机、氢燃料电池和氢电动汽车等关键设备研究(Matlab)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

NodeList 对象

NodeList 对象 概述 NodeList 对象是 DOM(文档对象模型)中的一种数据结构,它代表了包含在一个父节点内的所有元素节点的一个集合。NodeList 对象常用于处理文档中的多个元素,是 JavaScript 在操作 DOM 时的一个重要工具。 特点 1. 长度属性 NodeList 对象具有一个 len…...

Linux内核死锁检测与Lockdep工具详解

1. Linux内核死锁问题概述在Linux内核开发中,死锁是一个令人头疼的问题。想象一下这样的场景:两个进程就像两个固执的人,各自握着对方想要的东西,却都不愿意先放手,结果就是双方都卡在那里动弹不得。这就是死锁的典型表…...

SQLite NULL 值

SQLite NULL 值 SQLite 是一种轻量级的数据库管理系统,广泛用于嵌入式系统和移动应用中。在 SQLite 中,NULL 值是一个非常重要的概念,它表示未知、缺失或不确定的数据。本文将详细介绍 SQLite 中的 NULL 值,包括其定义、处理方法以及优化技巧。 什么是 NULL 值 在 SQLit…...

STM32大棚花卉物联网护养系统设计与实现

1. 项目概述这个大棚花卉护养系统是我去年为一个花卉种植基地设计的物联网解决方案。当时客户反映传统人工管理方式效率低下,经常出现浇水不及时、温度控制不精准等问题。经过三个月的开发和调试,这套系统成功将花卉产量提升了30%,同时减少了…...

LPS331AP SPI嵌入式驱动库:Mbed平台高精度气压温度传感器底层控制

1. LPS331AP_SPI 库概述LPS331AP_SPI 是一个专为 Mbed OS 平台设计的轻量级 SPI 驱动库,面向意法半导体(STMicroelectronics)推出的高精度数字气压/温度传感器 LPS331AP。该器件采用 MEMS 技术,集成压力传感单元与温度传感单元&am…...

DAY4--SQL限制返回行数查询

SQL基础入门:电商用户数据限制返回行数查询实操 这一章能解决什么电商工作问题? 这一章要学的LIMIT,是我认为电商数据分析新人最应该刻进肌肉记忆的语法。因为它直接关系到两件事:你的工作效率,以及你的职场安全。 我先…...

STM32 OLED三级菜单框架设计与实现

1. STM32 OLED菜单界面框架设计概述在嵌入式设备开发中,人机交互界面是连接用户与硬件的重要桥梁。基于STM32微控制器和OLED显示屏构建的菜单系统,因其低成本、低功耗和高对比度显示特性,在工业控制、智能家居和便携设备等领域广泛应用。本文…...

DAY3--SQL单字段去重查询

SQL基础入门:电商用户数据单字段去重查询实操 这一章能解决什么电商工作问题? 前两章我们学了SELECT *(全量看数据)和SELECT 字段列表(精准取字段)。这一章讲的是另一个高频操作:去重。 我讲一个…...

基于单片机的温控风扇(有完整资料)

资料查找方式:特纳斯电子(电子校园网):搜索下面编号即可编号:T4272204C设计简介:本设计是基于单片机的语音控制温控风扇,主要实现以下功能:1、可通过LCD1602显示温度和档位&#xff…...

基于单片机的心率及跌倒检测系统设计(有完整资料)

资料查找方式:特纳斯电子(电子校园网):搜索下面编号即可编号:T4192205M设计简介:本设计是基于单片机的心率及跌倒检测系统,主要实现以下功能:1、可通过心率模块检测当前的心率 2、可…...

程序员必看:代码注释规范与重构实战指南

1. 程序员入职第一天的震撼教育那天早上九点整,我刷完门禁卡走进新公司的办公区,工位上已经摆好了全新的MacBook Pro和一台4K显示器。行政小姐姐热情地带着我走完入职流程后,我迫不及待地打开代码仓库,准备熟悉项目。就在我点开核…...

GD32与STM32替换实战:硬件差异与移植要点

1. GD32与STM32替换背景解析在当前的全球芯片供应环境下,许多工程师不得不面对从STM32转向国产替代方案的选择。作为国内领先的MCU厂商,兆易创新(GigaDevice)的GD32系列因其与STM32的高度兼容性,成为最受欢迎的替代方案之一。我曾在三个量产项…...

ESP8266原生HomeKit接入:零桥接HAP协议实现

1. 项目概述HomeKit-ESP8266 是一个面向 ESP8266 Arduino Core 的原生 Apple HomeKit 配件实现库。它不依赖任何桥接设备(如 HomePod、Apple TV 或 Mac),可直接作为独立的 HomeKit 配件接入 iOS/macOS 的“家庭”App。该库并非基于 Apple 官方…...

Makefile核心概念与高效构建实践指南

1. Makefile基础概念与核心结构Makefile本质上是一种声明式构建脚本,它通过定义目标、依赖和命令三者之间的关系,让构建工具(make)能够智能地决定哪些文件需要重新编译。这种机制在C/C项目中尤为重要,因为源文件之间的…...

Nextion Library技术解析:嵌入式HMI轻量通信框架

1. Nextion Library 深度技术解析:面向嵌入式工程师的轻量级HMI通信框架 1.1 库定位与工程价值 Nextion Library 是一个专为 Nextion 系列智能串口屏设计的轻量级 C 库,核心目标是 在资源受限的 MCU 平台上(如 Arduino Uno、STM32F0/F1、ES…...

好写作AI“期刊论文智造局”:解锁学术发表的通关秘籍

在学术的江湖里,期刊论文就像是一把把锋利的宝剑,是学者们披荆斩棘、开疆拓土的得力武器。然而,想要打造出一把称手的“宝剑”,从选题到撰写,再到格式调整,每一步都充满挑战。别愁啦!好写作AI化…...

接cst-matlab自动化建模,cst天线/超表面数据集自动化计算和收集,提供建模代码

接cst-matlab自动化建模,cst天线/超表面数据集自动化计算和收集,提供建模代码,提供数据集数据CST和MATLAB这对组合最近被我玩出花了。搞天线设计的朋友应该都懂,手动建模调参简直是精神折磨——尤其是超表面这种动辄几十个单元的结…...

好写作AI“期刊论文魔法工坊”:打造学术发表的秘密武器

在学术的浩瀚星空中,期刊论文宛如璀璨星辰,是研究者展示智慧结晶、推动学科发展的重要途径。然而,撰写一篇高质量且符合期刊要求的论文,却如同在荆棘丛中开辟道路,充满了挑战与艰辛。别担心,好写作AI宛如一…...

好写作AI“文献综述智囊团”:开启学术探索新航道

在学术研究的广袤天地中,文献综述宛如一座灯塔,为研究者照亮前行的道路,它不仅是对前人研究成果的全面梳理与总结,更是为后续研究搭建起坚实的理论基石。然而,撰写一份高质量的文献综述并非易事,海量文献的…...

基于S7-200控制的自动洗车系统 本设计包括设计报告,PLC组态仿真,I/O接口,带注释程序...

基于S7-200控制的自动洗车系统 本设计包括设计报告,PLC组态仿真,I/O接口,带注释程序pdf版,接线图,控制电路图,主电路图,PLC接线图,顺序功能图 总体设计 系统有自动和手动模式,选择手…...

VL53L1X ToF测距传感器嵌入式驱动开发全指南

1. VL53L1X 距离传感器驱动库深度解析与嵌入式工程实践VL53L1X 是意法半导体(STMicroelectronics)基于飞行时间(Time-of-Flight, ToF)原理推出的高精度、单点激光测距传感器。其核心优势在于:在 40mm–4000mm 典型量程…...

直流电机与步进电机工作原理及应用解析

1. 电机基础概念与分类电机作为将电能转换为机械能的装置,在现代工业和生活中有广泛应用。从家用电器到工业设备,电机无处不在。理解电机的工作原理,对于从事相关领域的技术人员至关重要。电机按电源类型可分为直流电机(DC电机&am…...

Abaqus模拟铝合金搅拌摩擦焊顺序热力耦合过程:残余应力仿真与最优焊接方案对比

abaqus铝合金搅拌摩擦焊,顺序热力耦合中残余应力的仿真,根据仿真温度去模拟焊后残余应力,焊接过程中不同焊接方案下的温度、瞬态应力变化曲线以及焊后残余变形,对比最优焊接方案铝合金搅拌摩擦焊(FSW)的数值…...

嵌入式系统中单例模式的应用与实现

1. 单例模式在嵌入式系统中的核心价值在资源受限的嵌入式环境中,全局状态管理一直是个棘手的问题。想象一下这样的场景:温度传感器模块认为系统运行正常,而控制模块却检测到了硬件故障,两个模块对系统状态的认知出现分歧&#xff…...

杰理之开mic关mic复位问题处理【篇】

开PC模式...

企业财务自动化全场景落地,从入门到精通的完整指南 —— 2026企业级智能体选型与实战路径

在2026年的数字化深水区,企业财务管理正经历从“信息化”向“原生智能化”的跨代跃迁。 随着金税四期的全场景覆盖与数据要素资产化的推进,财务部门已不再满足于基础的流程自动化。 从“钱、票、账、税、资”的碎片化处理,到构建全链路闭环的…...

表格设计:结构与美感并重

1. 表格的结构如果把表格比作一座建筑,那么它的每个结构部件都承担着特定功能。下面是一个完整的表格示例,展示了所有标准结构组件:表格结构图解:标题与副标题:表格的"名字"和"简介",告…...