当前位置: 首页 > news >正文

超拟人语音合成上线,打造有温度的交互新体验

语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。

人工智能的出现,让机器也能拥有如同人类一般的语音能力。但伴随人机交互的普及,机器要突破的不只是能听会说,还需要精准表达性格与情感,成为人机交互的新趋势。

作为人工智能发展长河中最早起步,也是落地最早的技术之一,语音技术正朝着让人惊叹的方向不断进化。

历经百年,语音合成走进千行百业

语音合成采用先进的深度学习技术,可实现文本转化成拟人化的语音。即“赋予机器像人一样自如说话的能力”,是语音交互、语音翻译的关键接口能力。

图片

(图片由讯飞星火生成)

1779年,德裔丹麦科学家 Christian Gottlieb Kratzenstein 建造了人类的声道模型,使其可以产生五个长元音。这可以说是语音合成技术最早的起源。

1960年,瑞典科学家G. Fant的著作《语音产生的声学理论》建立了现代语音分析、合成的理论基础,极大推动了语音合成技术的进步。

到20世纪90年代,语音合成已经可以商业应用。然而,当时中文语音市场几乎全部掌握在跨国公司手中。1999年,科大讯飞成立后,这一切发生了改变。以语音合成技术为基础,讯飞持续深耕语音领域。2010年10月28日,科大讯飞发布了提供移动互联网智能语音交互能力平台——讯飞语音云,向全世界开发者开放自己的语音合成技术。

语音合成技术飞速发展,从实验室悄无声息地渗入我们每个人的生活,有时,你甚至毫无察觉。

上班途中,你不仅可以使用各种阅读软件翻阅书籍,还能戴上耳机“听”书;

驾车时,打开导航软件,可以听到流畅的人声实时为你导航;

下班回到家,躺在沙发上和音箱对话,音箱将为你播放想听的音乐;

然而应用初期,传统合成技术受制于声音采集的因素,合成出来的声音,刻板、不接地气,缺乏像真人声音一样的抑扬顿挫,很容易分辨出是由机器合成的,让人产生听觉疲劳。

近年来,越来越多的科技企业将眼光转向音色合成、情感合成等领域,力求使语音合成的声音更加自然,并具备个性化特征。

坚持源头技术创新,效果国际领先

自上世纪90年代,科大讯飞开始在语音领域的探索,确立了「让机器能听会说,能理解会思考;用人工智能建设美好世界」的公司使命。坚持源头技术创新,2006年到2019年,连续14年蝉联国际语音合成大赛冠军,持续走在世界前列。

2024年1月30日,讯飞星火V3.5正式发布。大模型技术加持下,语音合成的韵律表现力和拟人度有了大幅提升,超拟人语音合成MOS达到4.5,拟人度达到83%+。

在语音合成领域,通常采用MOS(Mean Opinion Score,平均得分法)对语音质量进行评价,分值为1-5分,分值越高语音质量和自然度也越高。

其合成效果类似人类在日常生活的口语化表达习惯,像人类一样拥有副语言(呼吸、叹气)、变换语速、口误、 长停顿思考、轻重读等副语言表达能力,让合成听起来更具“人味儿”。

图片

无论是轻松的日常聊天,还是复杂的专业问答,都能得到快速而精准的回复,声音中蕴含着温暖和情感,让人几乎忘记了是在与机器进行对话。

声情并茂,有温度的交互体验

近期,超拟人语音合成能力在讯飞开放平台上线,将文字转化为自然流畅的人声,在实时语音合成的基础上,进一步提升了语音的自然度和表现力,精准模拟人类的副语言现象,如呼吸、叹气、语速变化等,使得语音不仅流畅自然,更富有情感和生命力。

图片

在产品设计上,“超拟人合成”采用业内领先的语音合成框架。其功能包括针对书面语转译成口语化文本和新版语音合成引擎。

其中新版语音合成引擎,使用大型语言模型对日常交流中的副语言现象进行建模,针对拟声词、话语符号、韵律等副语言标签进行预测。利用语音大模型对副语言标签进行还原,从而极大地提高了合成的拟人化效果。

与传统的语音合成相比,超拟人语音合成具有以下优势:

  • 大模型加持,拟人效果升

大型语言模型针对拟声词、话语符号、韵律等副语言标签进行预测,极大提升合成的拟人化效果。

  • 真实自然,专业实力

专注语音20年,技术实力雄厚;人声自然饱满,逼真度高,富有表现力,人机交互更具真实感

  • 智能读法判断

根据上下文和语境判断数字以及英文的朗读方式

  • 动态调参,自由配置

随心调节语调/语速/音量等参数,满足复杂场景需求

超拟人语音合成+大模型,让人机交互深入人心

目前,超拟人语音合成能力已在讯飞星火APP上应用,让超2400万用户能体验到更自然、生动且有温度的声音。

用户只需打开讯飞星火APP,开启通话模式,即可听到星火发出如邻家大哥哥/大姐姐一样的声音,与你唠嗑,为你遇到的工作生活难题解惑、陪你度过孤独无聊的时光。

星火APP提供了“聆飞逸”、“聆小玥”男女声两种发音人,可自由切换。音色自然,还像人一样时不时有停顿、“嗯……”等语气词。打断后,可继续提问下一个问题,也可以直接“挂断”语音,切回到文字模式,看到刚刚整个对话过程的文字版。

除了讯飞星火APP,在使用场景方面,超拟人语音合成还可应用在新闻播报、智能硬件、电话客服、出行导航、有声阅读、无障碍播报等提升用户体验带去温情的服务


随着超拟人语音合成能力的上线,开发者可以通过直接调用WebAPI接口,将其应用在开发的产品之中。期待超拟人语音合成能力解锁更丰富场景,为用户提供更加美好的语音交互体验,让全世界享受AI带来的乐趣。

进入讯飞开放平台,完成实名认证,可免费领取服务量和发音人

相关文章:

超拟人语音合成上线,打造有温度的交互新体验

语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。 人工智能…...

word 及PPT 中修改公式字体

主要参考: 1.word修改公式默认字体并打出漂亮公式_word 公式 字体-CSDN博客 2.word 使用数学公式字体 在2中 提供的 链接下载字体,或者可以在这里直接下载,下载链接: https://www.lanzoub.com/iNt3g1rs3w0h 密码:a52p 然后按…...

将数据转换成xml格式的文档并下载

现在有一个实体类对象的集合&#xff0c;需要将它们转换为xml文档&#xff0c;xml文档就是标签集合的嵌套&#xff0c;例如一个学生类&#xff0c;有姓名、年龄等&#xff0c;需要转换成一下效果&#xff1a; <student><age>14</age><name>张三</na…...

深入理解与实践AB测试:从理论到实战案例解析

一、引言 在互联网产品优化和运营策略制定中&#xff0c;AB测试&#xff08;也称为分组测试或随机化对照实验&#xff09;是一种科学且严谨的方法。它通过将用户群体随机分配至不同的实验组&#xff08;通常是A组和B组&#xff09;&#xff0c;对比不同版本的产品或策略对关键…...

flask之请求钩子

请求钩子是通过装饰器的形式实现&#xff0c;Flask支持如下四种请求钩子&#xff1a; 1、before_first_request: 在第一次请求处理之前先被执行 2、before_request: 在每次请求前执行 3、after_request: 在每次请求处理之后被执行 接受一个参数&#xff1a;视图函数的响应在…...

COPY requires at least two arguments, docker COPY 报错

COPY requires at least two arguments # 使用 Node.js 12.16.0FROM node:12.16.0WORKDIR /appCOPY ..原因&#xff1a;Dockerfile文件COPY后的两个. 要加空格 本内容来源于小豆包&#xff0c;想要更多内容请跳转小豆包 》...

权限提升-Web权限提升篇划分获取资产服务后台系统数据库管理相互转移

知识点 1、权限提升转移-分类&高低&场景 2、Web权限提升及转移-后台&数据库 3、后台权限及转移-转移对象&后台分类 章节点&#xff1a; 1、Web权限提升及转移 2、系统权限提升及转移 3、宿主权限提升及转移 4、域控权限提升及转移 基础点 0、为什么我们要学…...

【Unity每日一记】unity中的内置宏和条件编译(Unity内置脚本符号)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;uni…...

发现有一个会Python的男友魅力值杠杠的!!!

Python能做什么&#xff1f; 可以做日常任务&#xff0c;比如自动备份你的MP3&#xff0c;可以做网站&#xff0c;很多著名的网站像知乎、YouTube就是Python写的&#xff0c; 可以做网络游戏的后台&#xff0c;很多在线游戏的后台都是Python开发的。 上面说的这些本人并没有实…...

SQL日期函数

文章目录 1.获取日期时间函数1.1 获取当前日期时间1.2 获取当前日期1.3 获取当前时间 2.日期格式化★★★2.1 日期转指定格式字符串2.2 字符串转日期 3.日期间隔3.1 增加日期间隔 ★★★3.2 减去一个时间间隔★★★3.3 日期相差天数&#xff08;天&#xff09;3.4 相差时间&…...

C语言经典面试题目(二十六)

1、解释一下C语言中的函数原型及其作用。 函数原型是指在函数定义之前声明函数的参数类型、返回类型和函数名称的一种声明方式。函数原型的作用包括&#xff1a; 编译器检查&#xff1a;函数原型能够告诉编译器函数的返回类型和参数类型&#xff0c;从而能够在编译阶段检查函…...

创建一个electron-vite项目

前置条件&#xff1a;非常重要&#xff01;&#xff01;&#xff01; npm: npm create quick-start/electronlatest yarn: yarn create quick-start/electron 然后进入目录&#xff0c;下载包文件&#xff0c;运行项目 到以上步骤&#xff0c;你已经成功运行起来一个 electr…...

Codeforces Round 935 (Div. 3)A~E

A. Setting up Camp 题目分析: 有三种人&#xff0c;内向、外向、综合&#xff0c;内向必须独自一个帐篷&#xff0c;外向必须3个人一个帐篷&#xff0c;综合介于1~3人一个帐篷&#xff0c;我们发现非法情况只会存在外向的人凑不成3个人一个帐篷的情况&#xff0c;因外向不够可…...

ES: spring boot中使用ElasticsearchClient

一、依赖&#xff1a;&#xff08;要根据不同版本的ES来调整依赖,否则会报错&#xff0c;不支持太低版本的ES&#xff0c;比如7.6以下的&#xff09; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-e…...

实体框架EF(Entity Framework)简介

实体框架EF&#xff08;Entity Framework&#xff09;简介 文章目录 实体框架EF&#xff08;Entity Framework&#xff09;简介一、概述二、O/R Mapping是什么采用O/R Mapping带来哪些好处 三、Entity Framework架构3.1 下图展示了Entity Framework的整体架构3.2 Entity Framew…...

使用CUDA 为Tegra构建OpenCV

返回&#xff1a;OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 上一篇&#xff1a;MultiArch与Ubuntu/Debian 的交叉编译 下一篇&#xff1a;在iOS中安装 警告&#xff1a; 本教程可能包含过时的信息。 使用CUDA for Tegra 的OpenCV 本文档是构建支持 CUD…...

YoloV8改进策略:BackBone改进|PKINet

摘要 PKINet是面向遥感旋转框的主干,网络包含了CAA、PKI等模块,给我们改进卷积结构的模型带来了很多启发。本文,使用PKINet替代YoloV8的主干网络,实现涨点。PKINet是我在作者的模型基础上,重新修改了底层的模块,方便大家轻松移植到YoloV8上。 论文:《Poly Kernel Ince…...

如何在Linux系统部署Dupal CMS结合内网穿透实现无公网IP访问web界面

文章目录 前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal6. 固定Drupal 公网地址 正文开始前给大家推荐个网站&#xff0c;前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&a…...

小巧玲珑的SQLite

SQLite是桌面端和移动端的不错选择 前言 SQLite身影无处不在。 SQLite&#xff0c;是一款轻型的数据库&#xff0c;是遵守ACID的关系型数据库管理系统&#xff0c;它的设计目标是嵌入式的&#xff0c;而且目前已经在很多嵌入式产品中使用了它&#xff0c;它占用资源非常的低&a…...

【Android 内存优化】 native内存泄漏监控方案源码分析

文章目录 前言使用效果使用apiJNI的动态注册native方法动态注册 hook的实现android_dlopen_ext和dl_iterate_phdr naive监控的实现nativeGetLeakAllocs 总结 前言 Android的native泄漏怎么检测&#xff1f;下面通过研究开源项目KOOM来一探究竟。 使用效果 未触发泄漏前的日志…...

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇&#xff0c;在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下&#xff1a; 【Note】&#xff1a;如果你已经完成安装等操作&#xff0c;可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作&#xff0c;重…...

vscode里如何用git

打开vs终端执行如下&#xff1a; 1 初始化 Git 仓库&#xff08;如果尚未初始化&#xff09; git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

【力扣数据库知识手册笔记】索引

索引 索引的优缺点 优点1. 通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度&#xff08;创建索引的主要原因&#xff09;。3. 可以加速表和表之间的连接&#xff0c;实现数据的参考完整性。4. 可以在查询过程中&#xff0c;…...

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施&#xff0c;由雇主和个人按一定比例缴纳保险费&#xff0c;建立社会医疗保险基金&#xff0c;支付雇员医疗费用的一种医疗保险制度&#xff0c; 它是促进社会文明和进步的…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件&#xff0c;然后打开终端&#xff0c;进入下载文件夹&#xff0c;键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验

系列回顾&#xff1a; 在上一篇中&#xff0c;我们成功地为应用集成了数据库&#xff0c;并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了&#xff01;但是&#xff0c;如果你仔细审视那些 API&#xff0c;会发现它们还很“粗糙”&#xff1a;有…...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)

Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败&#xff0c;具体原因是客户端发送了密码认证请求&#xff0c;但Redis服务器未设置密码 1.为Redis设置密码&#xff08;匹配客户端配置&#xff09; 步骤&#xff1a; 1&#xff09;.修…...

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件&#xff0c;所以得把软件用docker打包起来&#xff0c;大部分功能都没问题&#xff0c;出了一个奇怪的事情。同样的代码&#xff0c;在本机上用vscode可以运行起来&#xff0c;但是打包之后在docker里出现了问题。使用的是dialog组件&#xff0c;…...

算法笔记2

1.字符串拼接最好用StringBuilder&#xff0c;不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...