超拟人语音合成上线,打造有温度的交互新体验
语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。
人工智能的出现,让机器也能拥有如同人类一般的语音能力。但伴随人机交互的普及,机器要突破的不只是能听会说,还需要精准表达性格与情感,成为人机交互的新趋势。
作为人工智能发展长河中最早起步,也是落地最早的技术之一,语音技术正朝着让人惊叹的方向不断进化。
历经百年,语音合成走进千行百业
语音合成采用先进的深度学习技术,可实现文本转化成拟人化的语音。即“赋予机器像人一样自如说话的能力”,是语音交互、语音翻译的关键接口能力。

(图片由讯飞星火生成)
1779年,德裔丹麦科学家 Christian Gottlieb Kratzenstein 建造了人类的声道模型,使其可以产生五个长元音。这可以说是语音合成技术最早的起源。
1960年,瑞典科学家G. Fant的著作《语音产生的声学理论》建立了现代语音分析、合成的理论基础,极大推动了语音合成技术的进步。
到20世纪90年代,语音合成已经可以商业应用。然而,当时中文语音市场几乎全部掌握在跨国公司手中。1999年,科大讯飞成立后,这一切发生了改变。以语音合成技术为基础,讯飞持续深耕语音领域。2010年10月28日,科大讯飞发布了提供移动互联网智能语音交互能力平台——讯飞语音云,向全世界开发者开放自己的语音合成技术。
语音合成技术飞速发展,从实验室悄无声息地渗入我们每个人的生活,有时,你甚至毫无察觉。
上班途中,你不仅可以使用各种阅读软件翻阅书籍,还能戴上耳机“听”书;
驾车时,打开导航软件,可以听到流畅的人声实时为你导航;
下班回到家,躺在沙发上和音箱对话,音箱将为你播放想听的音乐;
然而应用初期,传统合成技术受制于声音采集的因素,合成出来的声音,刻板、不接地气,缺乏像真人声音一样的抑扬顿挫,很容易分辨出是由机器合成的,让人产生听觉疲劳。
近年来,越来越多的科技企业将眼光转向音色合成、情感合成等领域,力求使语音合成的声音更加自然,并具备个性化特征。
坚持源头技术创新,效果国际领先
自上世纪90年代,科大讯飞开始在语音领域的探索,确立了「让机器能听会说,能理解会思考;用人工智能建设美好世界」的公司使命。坚持源头技术创新,2006年到2019年,连续14年蝉联国际语音合成大赛冠军,持续走在世界前列。
2024年1月30日,讯飞星火V3.5正式发布。大模型技术加持下,语音合成的韵律表现力和拟人度有了大幅提升,超拟人语音合成MOS达到4.5,拟人度达到83%+。
在语音合成领域,通常采用MOS(Mean Opinion Score,平均得分法)对语音质量进行评价,分值为1-5分,分值越高语音质量和自然度也越高。
其合成效果类似人类在日常生活的口语化表达习惯,像人类一样拥有副语言(呼吸、叹气)、变换语速、口误、 长停顿思考、轻重读等副语言表达能力,让合成听起来更具“人味儿”。

无论是轻松的日常聊天,还是复杂的专业问答,都能得到快速而精准的回复,声音中蕴含着温暖和情感,让人几乎忘记了是在与机器进行对话。
声情并茂,有温度的交互体验
近期,超拟人语音合成能力在讯飞开放平台上线,将文字转化为自然流畅的人声,在实时语音合成的基础上,进一步提升了语音的自然度和表现力,精准模拟人类的副语言现象,如呼吸、叹气、语速变化等,使得语音不仅流畅自然,更富有情感和生命力。

在产品设计上,“超拟人合成”采用业内领先的语音合成框架。其功能包括针对书面语转译成口语化文本和新版语音合成引擎。
其中新版语音合成引擎,使用大型语言模型对日常交流中的副语言现象进行建模,针对拟声词、话语符号、韵律等副语言标签进行预测。利用语音大模型对副语言标签进行还原,从而极大地提高了合成的拟人化效果。
与传统的语音合成相比,超拟人语音合成具有以下优势:
- 大模型加持,拟人效果升级
大型语言模型针对拟声词、话语符号、韵律等副语言标签进行预测,极大提升合成的拟人化效果。
- 真实自然,专业实力
专注语音20年,技术实力雄厚;人声自然饱满,逼真度高,富有表现力,人机交互更具真实感
- 智能读法判断
根据上下文和语境判断数字以及英文的朗读方式
- 动态调参,自由配置
随心调节语调/语速/音量等参数,满足复杂场景需求
超拟人语音合成+大模型,让人机交互深入人心
目前,超拟人语音合成能力已在讯飞星火APP上应用,让超2400万用户能体验到更自然、生动且有温度的声音。
用户只需打开讯飞星火APP,开启通话模式,即可听到星火发出如邻家大哥哥/大姐姐一样的声音,与你唠嗑,为你遇到的工作生活难题解惑、陪你度过孤独无聊的时光。
星火APP提供了“聆飞逸”、“聆小玥”男女声两种发音人,可自由切换。音色自然,还像人一样时不时有停顿、“嗯……”等语气词。打断后,可继续提问下一个问题,也可以直接“挂断”语音,切回到文字模式,看到刚刚整个对话过程的文字版。
除了讯飞星火APP,在使用场景方面,超拟人语音合成还可应用在新闻播报、智能硬件、电话客服、出行导航、有声阅读、无障碍播报等,提升用户体验,带去温情的服务。
随着超拟人语音合成能力的上线,开发者可以通过直接调用WebAPI接口,将其应用在开发的产品之中。期待超拟人语音合成能力解锁更丰富场景,为用户提供更加美好的语音交互体验,让全世界享受AI带来的乐趣。
进入讯飞开放平台,完成实名认证,可免费领取服务量和发音人
相关文章:
超拟人语音合成上线,打造有温度的交互新体验
语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。 人工智能…...
word 及PPT 中修改公式字体
主要参考: 1.word修改公式默认字体并打出漂亮公式_word 公式 字体-CSDN博客 2.word 使用数学公式字体 在2中 提供的 链接下载字体,或者可以在这里直接下载,下载链接: https://www.lanzoub.com/iNt3g1rs3w0h 密码:a52p 然后按…...
将数据转换成xml格式的文档并下载
现在有一个实体类对象的集合,需要将它们转换为xml文档,xml文档就是标签集合的嵌套,例如一个学生类,有姓名、年龄等,需要转换成一下效果: <student><age>14</age><name>张三</na…...
深入理解与实践AB测试:从理论到实战案例解析
一、引言 在互联网产品优化和运营策略制定中,AB测试(也称为分组测试或随机化对照实验)是一种科学且严谨的方法。它通过将用户群体随机分配至不同的实验组(通常是A组和B组),对比不同版本的产品或策略对关键…...
flask之请求钩子
请求钩子是通过装饰器的形式实现,Flask支持如下四种请求钩子: 1、before_first_request: 在第一次请求处理之前先被执行 2、before_request: 在每次请求前执行 3、after_request: 在每次请求处理之后被执行 接受一个参数:视图函数的响应在…...
COPY requires at least two arguments, docker COPY 报错
COPY requires at least two arguments # 使用 Node.js 12.16.0FROM node:12.16.0WORKDIR /appCOPY ..原因:Dockerfile文件COPY后的两个. 要加空格 本内容来源于小豆包,想要更多内容请跳转小豆包 》...
权限提升-Web权限提升篇划分获取资产服务后台系统数据库管理相互转移
知识点 1、权限提升转移-分类&高低&场景 2、Web权限提升及转移-后台&数据库 3、后台权限及转移-转移对象&后台分类 章节点: 1、Web权限提升及转移 2、系统权限提升及转移 3、宿主权限提升及转移 4、域控权限提升及转移 基础点 0、为什么我们要学…...
【Unity每日一记】unity中的内置宏和条件编译(Unity内置脚本符号)
👨💻个人主页:元宇宙-秩沅 👨💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨💻 本文由 秩沅 原创 👨💻 收录于专栏:uni…...
发现有一个会Python的男友魅力值杠杠的!!!
Python能做什么? 可以做日常任务,比如自动备份你的MP3,可以做网站,很多著名的网站像知乎、YouTube就是Python写的, 可以做网络游戏的后台,很多在线游戏的后台都是Python开发的。 上面说的这些本人并没有实…...
SQL日期函数
文章目录 1.获取日期时间函数1.1 获取当前日期时间1.2 获取当前日期1.3 获取当前时间 2.日期格式化★★★2.1 日期转指定格式字符串2.2 字符串转日期 3.日期间隔3.1 增加日期间隔 ★★★3.2 减去一个时间间隔★★★3.3 日期相差天数(天)3.4 相差时间&…...
C语言经典面试题目(二十六)
1、解释一下C语言中的函数原型及其作用。 函数原型是指在函数定义之前声明函数的参数类型、返回类型和函数名称的一种声明方式。函数原型的作用包括: 编译器检查:函数原型能够告诉编译器函数的返回类型和参数类型,从而能够在编译阶段检查函…...
创建一个electron-vite项目
前置条件:非常重要!!! npm: npm create quick-start/electronlatest yarn: yarn create quick-start/electron 然后进入目录,下载包文件,运行项目 到以上步骤,你已经成功运行起来一个 electr…...
Codeforces Round 935 (Div. 3)A~E
A. Setting up Camp 题目分析: 有三种人,内向、外向、综合,内向必须独自一个帐篷,外向必须3个人一个帐篷,综合介于1~3人一个帐篷,我们发现非法情况只会存在外向的人凑不成3个人一个帐篷的情况,因外向不够可…...
ES: spring boot中使用ElasticsearchClient
一、依赖:(要根据不同版本的ES来调整依赖,否则会报错,不支持太低版本的ES,比如7.6以下的) <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-e…...
实体框架EF(Entity Framework)简介
实体框架EF(Entity Framework)简介 文章目录 实体框架EF(Entity Framework)简介一、概述二、O/R Mapping是什么采用O/R Mapping带来哪些好处 三、Entity Framework架构3.1 下图展示了Entity Framework的整体架构3.2 Entity Framew…...
使用CUDA 为Tegra构建OpenCV
返回:OpenCV系列文章目录(持续更新中......) 上一篇:MultiArch与Ubuntu/Debian 的交叉编译 下一篇:在iOS中安装 警告: 本教程可能包含过时的信息。 使用CUDA for Tegra 的OpenCV 本文档是构建支持 CUD…...
YoloV8改进策略:BackBone改进|PKINet
摘要 PKINet是面向遥感旋转框的主干,网络包含了CAA、PKI等模块,给我们改进卷积结构的模型带来了很多启发。本文,使用PKINet替代YoloV8的主干网络,实现涨点。PKINet是我在作者的模型基础上,重新修改了底层的模块,方便大家轻松移植到YoloV8上。 论文:《Poly Kernel Ince…...
如何在Linux系统部署Dupal CMS结合内网穿透实现无公网IP访问web界面
文章目录 前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal6. 固定Drupal 公网地址 正文开始前给大家推荐个网站,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&a…...
小巧玲珑的SQLite
SQLite是桌面端和移动端的不错选择 前言 SQLite身影无处不在。 SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低&a…...
【Android 内存优化】 native内存泄漏监控方案源码分析
文章目录 前言使用效果使用apiJNI的动态注册native方法动态注册 hook的实现android_dlopen_ext和dl_iterate_phdr naive监控的实现nativeGetLeakAllocs 总结 前言 Android的native泄漏怎么检测?下面通过研究开源项目KOOM来一探究竟。 使用效果 未触发泄漏前的日志…...
SwitchyOmega+Burp无感抓包实战:解决HTTPS拦截与流量路由难题
1. 为什么“无感抓包”是BurpSuite日常使用的分水岭刚接触Web安全测试的朋友常有个错觉:装上Burp Suite,配好代理,打开浏览器,点几下网页——流量就该自动进来了。结果现实是:首页打不开、登录态丢失、HTTPS报错满屏、…...
三十岁想从零转行现实吗?带你分辨真正有前景的好工作
我是29岁那年,完成从转行裸辞副业的职业转型。 如果你把职业生涯看成是从现在开始30岁,到你退休那年,中间这么漫长的30年,那么30岁转行完全来得及…...
基于Arduino与nRF24L01+的无线传感器平台设计与部署指南
1. 项目概述与设计思路如果你和我一样,喜欢在阳台或者小院子里种点蔬菜瓜果,那你肯定也遇到过这样的烦恼:出门几天,心里总惦记着家里的番茄苗是不是缺水了,小温室里的温度会不会太高。传统的温湿度计只能让你在现场读数…...
浏览器指纹识别机制深度剖析与反识别技术实现
一、浏览器指纹技术基础认知1.1 浏览器指纹的核心定义在数字化时代,每一台接入互联网的设备都会留下独特的数字标识,浏览器指纹便是其中最关键的识别凭证之一。浏览器指纹是网站通过 JavaScript 脚本、HTTP 请求头、硬件接口调用等多种技术手段ÿ…...
yolo视频识别 车辆速度估计识别 yolo11视频实时速度测量与测速估计
文章目录YOLOv11:视频实时速度测量与测速估计一、YOLOv11概述二、速度测量原理三、距离测量方法四、应用场景五、实践案例以下是关于使用YOLOv11进行视频实时速度测量与测速估计的介绍: YOLOv11:视频实时速度测量与测速估计 随着计算机视觉…...
氘可来昔替尼常见副作用为鼻咽炎头痛及腹泻,如何应对
任何口服药物的临床价值,都必须在疗效与安全性的天平上找到精准的平衡点。氘可来昔替尼以PASI 75应答率的全面胜出证明了自己在银屑病治疗中的卓越地位,而其不良反应谱同样经过了严苛的临床验证。鼻咽炎、头痛和腹泻构成了这款药物最需关注的三大安全信号…...
基于Max78000与规则引导的音频数据集构建:边缘AI声音识别实战
1. 项目概述:当边缘AI遇见棕榈树里的“窃听者”在边缘计算和物联网设备大行其道的今天,我们常常面临一个核心矛盾:一方面,我们希望设备足够“聪明”,能实时识别并响应特定的声音模式,比如工厂里高压阀门的异…...
【2026实测】怎么提高论文原创度?盘点8款主流降AI工具,附结构级优化指南
写文章最怕碰到什么,是辛辛苦苦自己码出来的字,却被标了极高的AI值。目前很多文本审核机制对内容的原创度要求极高,纯手写的初稿也可能因为句式太工整被判定为机器生成的。 为了帮几个快被这事折腾疯了的学弟学妹找条出路,我花了…...
如何优化 MySQL 千万级数据分页查询的性能?
它的本质是:**传统 LIMIT offset, size 在大数据量下性能急剧下降,是因为 MySQL 必须 扫描并丢弃 前 offset 行数据。当 offset 很大时(如 LIMIT 1000000, 10),MySQL 需要读取 1,000,010 行记录,执行 1,000…...
昇腾CANN cmake 实战:CANN CMake 构建系统——跨平台编译配置与模块化管理
8 个 CANN 仓库各需独立构建(ops-transformer/ops-nn/hccl/ge/…)→ 手写 8 套 CMakeLists.txt(CANN 路径判断、跨 NPU 型号编译、第三方库兼容)。cmake 仓库提供统一的 FindCANN.cmake CANNConfig.cmake 模板——任何仓库只需 f…...
