超拟人语音合成上线,打造有温度的交互新体验
语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。
人工智能的出现,让机器也能拥有如同人类一般的语音能力。但伴随人机交互的普及,机器要突破的不只是能听会说,还需要精准表达性格与情感,成为人机交互的新趋势。
作为人工智能发展长河中最早起步,也是落地最早的技术之一,语音技术正朝着让人惊叹的方向不断进化。
历经百年,语音合成走进千行百业
语音合成采用先进的深度学习技术,可实现文本转化成拟人化的语音。即“赋予机器像人一样自如说话的能力”,是语音交互、语音翻译的关键接口能力。
(图片由讯飞星火生成)
1779年,德裔丹麦科学家 Christian Gottlieb Kratzenstein 建造了人类的声道模型,使其可以产生五个长元音。这可以说是语音合成技术最早的起源。
1960年,瑞典科学家G. Fant的著作《语音产生的声学理论》建立了现代语音分析、合成的理论基础,极大推动了语音合成技术的进步。
到20世纪90年代,语音合成已经可以商业应用。然而,当时中文语音市场几乎全部掌握在跨国公司手中。1999年,科大讯飞成立后,这一切发生了改变。以语音合成技术为基础,讯飞持续深耕语音领域。2010年10月28日,科大讯飞发布了提供移动互联网智能语音交互能力平台——讯飞语音云,向全世界开发者开放自己的语音合成技术。
语音合成技术飞速发展,从实验室悄无声息地渗入我们每个人的生活,有时,你甚至毫无察觉。
上班途中,你不仅可以使用各种阅读软件翻阅书籍,还能戴上耳机“听”书;
驾车时,打开导航软件,可以听到流畅的人声实时为你导航;
下班回到家,躺在沙发上和音箱对话,音箱将为你播放想听的音乐;
然而应用初期,传统合成技术受制于声音采集的因素,合成出来的声音,刻板、不接地气,缺乏像真人声音一样的抑扬顿挫,很容易分辨出是由机器合成的,让人产生听觉疲劳。
近年来,越来越多的科技企业将眼光转向音色合成、情感合成等领域,力求使语音合成的声音更加自然,并具备个性化特征。
坚持源头技术创新,效果国际领先
自上世纪90年代,科大讯飞开始在语音领域的探索,确立了「让机器能听会说,能理解会思考;用人工智能建设美好世界」的公司使命。坚持源头技术创新,2006年到2019年,连续14年蝉联国际语音合成大赛冠军,持续走在世界前列。
2024年1月30日,讯飞星火V3.5正式发布。大模型技术加持下,语音合成的韵律表现力和拟人度有了大幅提升,超拟人语音合成MOS达到4.5,拟人度达到83%+。
在语音合成领域,通常采用MOS(Mean Opinion Score,平均得分法)对语音质量进行评价,分值为1-5分,分值越高语音质量和自然度也越高。
其合成效果类似人类在日常生活的口语化表达习惯,像人类一样拥有副语言(呼吸、叹气)、变换语速、口误、 长停顿思考、轻重读等副语言表达能力,让合成听起来更具“人味儿”。
无论是轻松的日常聊天,还是复杂的专业问答,都能得到快速而精准的回复,声音中蕴含着温暖和情感,让人几乎忘记了是在与机器进行对话。
声情并茂,有温度的交互体验
近期,超拟人语音合成能力在讯飞开放平台上线,将文字转化为自然流畅的人声,在实时语音合成的基础上,进一步提升了语音的自然度和表现力,精准模拟人类的副语言现象,如呼吸、叹气、语速变化等,使得语音不仅流畅自然,更富有情感和生命力。
在产品设计上,“超拟人合成”采用业内领先的语音合成框架。其功能包括针对书面语转译成口语化文本和新版语音合成引擎。
其中新版语音合成引擎,使用大型语言模型对日常交流中的副语言现象进行建模,针对拟声词、话语符号、韵律等副语言标签进行预测。利用语音大模型对副语言标签进行还原,从而极大地提高了合成的拟人化效果。
与传统的语音合成相比,超拟人语音合成具有以下优势:
- 大模型加持,拟人效果升级
大型语言模型针对拟声词、话语符号、韵律等副语言标签进行预测,极大提升合成的拟人化效果。
- 真实自然,专业实力
专注语音20年,技术实力雄厚;人声自然饱满,逼真度高,富有表现力,人机交互更具真实感
- 智能读法判断
根据上下文和语境判断数字以及英文的朗读方式
- 动态调参,自由配置
随心调节语调/语速/音量等参数,满足复杂场景需求
超拟人语音合成+大模型,让人机交互深入人心
目前,超拟人语音合成能力已在讯飞星火APP上应用,让超2400万用户能体验到更自然、生动且有温度的声音。
用户只需打开讯飞星火APP,开启通话模式,即可听到星火发出如邻家大哥哥/大姐姐一样的声音,与你唠嗑,为你遇到的工作生活难题解惑、陪你度过孤独无聊的时光。
星火APP提供了“聆飞逸”、“聆小玥”男女声两种发音人,可自由切换。音色自然,还像人一样时不时有停顿、“嗯……”等语气词。打断后,可继续提问下一个问题,也可以直接“挂断”语音,切回到文字模式,看到刚刚整个对话过程的文字版。
除了讯飞星火APP,在使用场景方面,超拟人语音合成还可应用在新闻播报、智能硬件、电话客服、出行导航、有声阅读、无障碍播报等,提升用户体验,带去温情的服务。
随着超拟人语音合成能力的上线,开发者可以通过直接调用WebAPI接口,将其应用在开发的产品之中。期待超拟人语音合成能力解锁更丰富场景,为用户提供更加美好的语音交互体验,让全世界享受AI带来的乐趣。
进入讯飞开放平台,完成实名认证,可免费领取服务量和发音人
相关文章:

超拟人语音合成上线,打造有温度的交互新体验
语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。 人工智能…...
word 及PPT 中修改公式字体
主要参考: 1.word修改公式默认字体并打出漂亮公式_word 公式 字体-CSDN博客 2.word 使用数学公式字体 在2中 提供的 链接下载字体,或者可以在这里直接下载,下载链接: https://www.lanzoub.com/iNt3g1rs3w0h 密码:a52p 然后按…...

将数据转换成xml格式的文档并下载
现在有一个实体类对象的集合,需要将它们转换为xml文档,xml文档就是标签集合的嵌套,例如一个学生类,有姓名、年龄等,需要转换成一下效果: <student><age>14</age><name>张三</na…...

深入理解与实践AB测试:从理论到实战案例解析
一、引言 在互联网产品优化和运营策略制定中,AB测试(也称为分组测试或随机化对照实验)是一种科学且严谨的方法。它通过将用户群体随机分配至不同的实验组(通常是A组和B组),对比不同版本的产品或策略对关键…...
flask之请求钩子
请求钩子是通过装饰器的形式实现,Flask支持如下四种请求钩子: 1、before_first_request: 在第一次请求处理之前先被执行 2、before_request: 在每次请求前执行 3、after_request: 在每次请求处理之后被执行 接受一个参数:视图函数的响应在…...
COPY requires at least two arguments, docker COPY 报错
COPY requires at least two arguments # 使用 Node.js 12.16.0FROM node:12.16.0WORKDIR /appCOPY ..原因:Dockerfile文件COPY后的两个. 要加空格 本内容来源于小豆包,想要更多内容请跳转小豆包 》...

权限提升-Web权限提升篇划分获取资产服务后台系统数据库管理相互转移
知识点 1、权限提升转移-分类&高低&场景 2、Web权限提升及转移-后台&数据库 3、后台权限及转移-转移对象&后台分类 章节点: 1、Web权限提升及转移 2、系统权限提升及转移 3、宿主权限提升及转移 4、域控权限提升及转移 基础点 0、为什么我们要学…...

【Unity每日一记】unity中的内置宏和条件编译(Unity内置脚本符号)
👨💻个人主页:元宇宙-秩沅 👨💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨💻 本文由 秩沅 原创 👨💻 收录于专栏:uni…...

发现有一个会Python的男友魅力值杠杠的!!!
Python能做什么? 可以做日常任务,比如自动备份你的MP3,可以做网站,很多著名的网站像知乎、YouTube就是Python写的, 可以做网络游戏的后台,很多在线游戏的后台都是Python开发的。 上面说的这些本人并没有实…...

SQL日期函数
文章目录 1.获取日期时间函数1.1 获取当前日期时间1.2 获取当前日期1.3 获取当前时间 2.日期格式化★★★2.1 日期转指定格式字符串2.2 字符串转日期 3.日期间隔3.1 增加日期间隔 ★★★3.2 减去一个时间间隔★★★3.3 日期相差天数(天)3.4 相差时间&…...
C语言经典面试题目(二十六)
1、解释一下C语言中的函数原型及其作用。 函数原型是指在函数定义之前声明函数的参数类型、返回类型和函数名称的一种声明方式。函数原型的作用包括: 编译器检查:函数原型能够告诉编译器函数的返回类型和参数类型,从而能够在编译阶段检查函…...

创建一个electron-vite项目
前置条件:非常重要!!! npm: npm create quick-start/electronlatest yarn: yarn create quick-start/electron 然后进入目录,下载包文件,运行项目 到以上步骤,你已经成功运行起来一个 electr…...

Codeforces Round 935 (Div. 3)A~E
A. Setting up Camp 题目分析: 有三种人,内向、外向、综合,内向必须独自一个帐篷,外向必须3个人一个帐篷,综合介于1~3人一个帐篷,我们发现非法情况只会存在外向的人凑不成3个人一个帐篷的情况,因外向不够可…...
ES: spring boot中使用ElasticsearchClient
一、依赖:(要根据不同版本的ES来调整依赖,否则会报错,不支持太低版本的ES,比如7.6以下的) <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-e…...

实体框架EF(Entity Framework)简介
实体框架EF(Entity Framework)简介 文章目录 实体框架EF(Entity Framework)简介一、概述二、O/R Mapping是什么采用O/R Mapping带来哪些好处 三、Entity Framework架构3.1 下图展示了Entity Framework的整体架构3.2 Entity Framew…...

使用CUDA 为Tegra构建OpenCV
返回:OpenCV系列文章目录(持续更新中......) 上一篇:MultiArch与Ubuntu/Debian 的交叉编译 下一篇:在iOS中安装 警告: 本教程可能包含过时的信息。 使用CUDA for Tegra 的OpenCV 本文档是构建支持 CUD…...

YoloV8改进策略:BackBone改进|PKINet
摘要 PKINet是面向遥感旋转框的主干,网络包含了CAA、PKI等模块,给我们改进卷积结构的模型带来了很多启发。本文,使用PKINet替代YoloV8的主干网络,实现涨点。PKINet是我在作者的模型基础上,重新修改了底层的模块,方便大家轻松移植到YoloV8上。 论文:《Poly Kernel Ince…...

如何在Linux系统部署Dupal CMS结合内网穿透实现无公网IP访问web界面
文章目录 前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal6. 固定Drupal 公网地址 正文开始前给大家推荐个网站,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&a…...
小巧玲珑的SQLite
SQLite是桌面端和移动端的不错选择 前言 SQLite身影无处不在。 SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低&a…...
【Android 内存优化】 native内存泄漏监控方案源码分析
文章目录 前言使用效果使用apiJNI的动态注册native方法动态注册 hook的实现android_dlopen_ext和dl_iterate_phdr naive监控的实现nativeGetLeakAllocs 总结 前言 Android的native泄漏怎么检测?下面通过研究开源项目KOOM来一探究竟。 使用效果 未触发泄漏前的日志…...

UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...
vscode里如何用git
打开vs终端执行如下: 1 初始化 Git 仓库(如果尚未初始化) git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

【力扣数据库知识手册笔记】索引
索引 索引的优缺点 优点1. 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度(创建索引的主要原因)。3. 可以加速表和表之间的连接,实现数据的参考完整性。4. 可以在查询过程中,…...

基于Flask实现的医疗保险欺诈识别监测模型
基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢
随着互联网技术的飞速发展,消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁,不仅优化了客户体验,还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用,并…...

1.3 VSCode安装与环境配置
进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件,然后打开终端,进入下载文件夹,键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...
Typeerror: cannot read properties of undefined (reading ‘XXX‘)
最近需要在离线机器上运行软件,所以得把软件用docker打包起来,大部分功能都没问题,出了一个奇怪的事情。同样的代码,在本机上用vscode可以运行起来,但是打包之后在docker里出现了问题。使用的是dialog组件,…...

算法笔记2
1.字符串拼接最好用StringBuilder,不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...