ASR 概述
前言
随着企业加强了与客户的线上沟通,企业越发依赖于虚拟助手、聊天机器人以及其他的语音技术,以实现与客户的高效互动。这几类人工智能,都是依赖于自动语音识别技术,简称为 ASR。ASR 涉及到将语音转换为文本,促使计算机理解人类语言并与人类对话。
语音识别技术,也被称为自动语音识别 Automatic Speech Recognition(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
ASR 的使用量正在与日俱增。在 Deepgram 与 Opus Research 合作进行的一项最新调查中,向来自北美洲多个行业的400名决策者调查了其公司的 ASR 使用情况。99% 的调查对象表示,他们都有在使用 ASR,主要以手机应用中的语音助手为主,这说明了这项技术的重要性。随着 ASR 技术的不断发展,ASR 逐渐受到企业的青睐,它可以提高企业在虚拟环境中的客户服务质量。
自动语音识别
机器要与人实现对话,那就需要实现三步:听懂(耳)> 理解(脑)> 回答(口),机器要听懂人类说话,就离不开语音识别技术(ASR)。
自动语音识别的工作原理
过去几十年里,由于强大的人工智能和机器学习算法,ASR 的发展速度迅猛。如今,大多 ASR 程序仍使用定向对话,但一些优化版本已开始利用自然语言处理技术,这是人工智能的子领域。
-
定向对话 ASR
当您打电话给银行时,您可能体验过定向对话。如果是一些大型银行,您通常需要先与计算机互动,然后才联系到相应的人员。计算机可能会要求您简单地回答“是”或“否”来确认身份,或直接读出您的卡号。无论是哪一种情况,您都是通过直接对话式 ASR 来互动。这些 ASR 程序只限于简短的口头回答,因此词汇量有限。这些 ASR 程序适用于简单的客户互动,无法胜任复杂的沟通。
-
基于自然语言处理的 ASR
NLP 是人工智能的一个子领域。NLP 是指一种教会计算机理解人类语音或自然语言的方法。
基于NLP语音识别程序的工作原理的简要介绍:
- 向 ASR 程序说出一个指令,或提出一个问题。
- 该程序将语音转换为频谱图,这是机器可读的音频文件。
- 一个声学模型通过消除任何背景噪声(例如,狗叫声或静电)来清理音频文件。
- 算法将清理后的音频文件分解成音素。音素是声音的基本组成部分。例如,在英语中,“ch” 和 “t” 是音素。
- 算法分析音素的序列,并使用统计概率来确定序列中的单词和句子。
- NLP 模型可以将语境应用到句子中,例如,确定说的是 “write” 还是 “right”。
- 一旦 ASR 程序理解了说的内容,ASR 程序就可以给予合理的答复,并通过“文本-语音”转换技术来回复。
虽然根据所使用的算法类型,上述流程会发生变化,但这并不妨碍理解 ASR 程序的工作原理。基于 NLP 的 ASR 没有限制,并且能够模拟真实对话,是迄今为止最先进的版本。例如,一个基于 NLP 的 ASR 系统的典型词库可以涵盖 6 万多个单词。评估 ASR 有两个维度,即单词错误率和响应速度;在理想条件下,ASR 系统在理解人类语音方面可以达到接近 99% 的准确率。但是,大多数情况都不满足理想条件。
数据科学家针对关于如何教会 ASR 程序理解人类语音这个主题,持续开展实验。数据科学家正在探索其他可以与完全监督学习互补的方法,这需要收集每个可能会出现的语言例子来训练人工智能,并应用主动学习等技术。与程序互动的人越多,程序自主学习能力就越强。可以想象到,这无疑节省了研究人员的大量时间。
智能ASR语音识别产品优势
- 高准确的识别率:基于先进的深度学习算法,安静环境下近场语音识别,中文普通话字准确率超过96%。
- 灵活的接入方式:支持不同设备端的 SDK 接入,同时也支持 HTTP 协议的 API 接入。
- 低延时识别速度:快速的系统响应,提升用户交互体验。
- 专业的业务领域:针对呼叫、客服场景,进行大量的业务场景优化。
- 智能文本纠错能力:基于行业文本数据,针对用户输入上下文进行智能纠错,根据用户输入停顿,智能化插入标点符号。
自动语音识别的应用
基本上,ASR 应用适用于各行各业。到目前为止,已有很多客户采用了 ASR 技术,以优化客户体验。以下是几个突出的应用:
- **语音虚拟助手:**受欢迎的虚拟助手有很多:谷歌助理、苹果的 Siri、亚马逊 Alexa 和微软的 Cortana。这些应用提高了获取信息的速度和效率,在日常生活中随处可见。未来,虚拟助手市场仍会蓬勃发展。
- 智能客服:提供全渠道接入端口,主要应用在销售服务(售前、售中、 售后),营销推荐以及数据分析场景中。
- **转录和听写:**许多行业都需要语音转录服务。借助这类应用,可以转录公司会议、销售部门的客户电话、政府调查采访,甚至是记录病人的治疗过程。
- **教育:**ASR 提供了非常有用的教育工具。智能语音在产品营销、课堂管理、教学测评等场景获得了大量应用,不同类型的教育企业适用于不同的解决方案。
- **车载信息娱乐系统:**在汽车行业中,ASR 被广泛应用,以优化车内体验。最新的汽车型号具有识别语音命令功能,例如驾驶员可以发出指令“将温度调高两度”。这些系统旨在将车内环境的管理工作自动化,无需驾驶员腾出方向盘上的手来完成,从而提高安全性。
- **安全:**ASR 可以识别关于“进入某些区域”的语音,提高安全性。
- **无障碍:**ASR 还是一个可以推进无障碍性的工具,未来发展前景广阔。例如,不懂或无法使用技术的人可以在智能手机上发出语音指令;例如,”打电话给Jane”。
上述多个应用适用于各个行业,并且操作过程简单。由此可知,近年来 ASR 技术市场的呈指数级增长,实属正常现象。
ASR 的挑战
导致 ASR 领域出现挑战的几个常见因素:
-
噪声数据
通常,噪声数据是无意义的数据。但在ASR背景下,噪声数据也有字面意义。在理想环境中,音频文件里语音清晰且没有背景噪声,但现实往往并非如此。音频数据中可能会包含一些无关的噪声,例如有人在背景中咳嗽,有其他人在主扬声器上说话,有建筑噪声,甚至是静电。一个高质量的 ASR 系统能够提取出有用的音频数据,并消除无意义的数据。
-
发言者差异性
ASR 系统经常需要理解性别、地区、背景各不相同的人的语音。人类语音出现多个方面的差异,比如语言、方言、口音、音高、音量、语速等
若想让 ASR 系统为所有终端用户提供一致卓越的体验,ASR 系统需要能够理解和解释多种不同的语音。
-
硬件设施质量低
大多公司都缺乏高质量的录音设备,从而导致音频文件中出现上文提到的噪声数据。
-
同音字和语境障碍
仅仅是英语一门语言,就存在多个同音词,即发音相同但含义不同的词。ASR系统需要依靠一个高度准确的NLP算法来运行,以根据语境来解释每位发言者的说话内容。
-
单词之间缺少界限
我们在写字或打字时,会使用空格、标点符号等来分开每个单词和句子。但如果是在说话,单词和句子就会连成一串。在这样的情况下,ASR程序无法将一连串语音分成独立片段。
如何克服自动语音识别中的挑战
ASR 工作的现场环境大多不符合理想条件,会对技术的精确度产生负面影响。破坏理想条件的常见因素有很多,为实施 ASR 的团队带来了挑战。幸运的是,可以采取一些方法来克服这些挑战。
通过个性化的数据采集和标注项目,可以解决部分挑战。可以采集,甚至有机会创建语音数据集,这个数据集更能代表客户的语音差异情况,提高客户服务质量。可以选择自己解决问题,也可以选择和拥有 ASR 经验的第三方数据供应商合作,充分利用其专业知识和工具。合适的数据合作伙伴可以提供特定用例所需的数据,以及与 ASR 应用兼容的数据平台,助力快速启动项目。
目前,很多数据供应商都能提供用于语音识别的成品数据集,但这还不够,他们应该还能根据多元化的发言者群体,以满足独特的数据需求。此外,数据供应商还可以提供工具,可以帮助克服上文中提到的挑战。
参考
- 什么是自动语音识别(ASR)?
- 什么是ASR技术,它改变了呼叫中心什么?
相关文章:
ASR 概述
前言 随着企业加强了与客户的线上沟通,企业越发依赖于虚拟助手、聊天机器人以及其他的语音技术,以实现与客户的高效互动。这几类人工智能,都是依赖于自动语音识别技术,简称为 ASR。ASR 涉及到将语音转换为文本,促使计…...
聊聊比特币----比特币地址
⽐特币地址是⼀个标识符(帐号),包含27-34个字母数字拉丁字符(0,O,I除外)。地址可以以QR码形式表⽰,是匿名的,不包含关于所有者的信息。 地址⽰例:14qViLJfdG…...
(4)【Python数据分析进阶】Machine-Learning模型与算法应用-回归、分类模型汇总
线性回归、逻辑回归算法应用请参考: https://codeknight.blog.csdn.net/article/details/135693621https://codeknight.blog.csdn.net/article/details/135693621本篇主要介绍决策树、随机森林、KNN、SVM、Bayes等有监督算法以及无监督的聚类算法和应用PCA对数据进行降维的算法…...
Python 调用 OpenAI ChatGPT API
一、安装环境1. 安装python环境 $ pip install openai 2. 验证是否安装成功 方法1,bash命令验证 $ pip show openai 方法2,python脚本验证 import openai print(openai.__version__) 3. 找到你的 OpenAI API Key:进入OpenAI官网࿰…...
springboot155基于JAVA语言的在线考试与学习交流网页平台
简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 获取资料方式 **项…...
echarts使用之地图(五)
1 基本使用 百度地图 API : 使用百度地图的 api , 它能够在线联网展示地图 , 百度地图需要申请 ak 矢量地图 : 可以离线展示地图 , 需要开发者准备矢量地图数据。本文使用该方式。 json格式的数据如下: 格式参照:GeoJSON <!DOCTYPE html&…...
【已解决】青龙面板依赖安装失败原因
青龙面板必须安装依赖,才可以执行脚本,这是不争的事实。 如果脚本跑不起来,就去看看依赖吧。 NodeJs 依赖如下 axios request canvas cheerio js-base64 dotenv magic tough-cookie ws7.4.3 require requests date-fns ts-md5 typescript j…...
[Python] 什么是KMeans聚类算法以及scikit-learn中的KMeans使用案例
什么是无监督学习? 无监督学习是机器学习中的一种方法,其主要目的是从无标签的数据集中发现隐藏的模式、结构或者规律。在无监督学习中,算法不依赖于任何先验的标签信息,而是根据数据本身的特征和规律进行学习和推断。无监督学习…...
在 iOS 上安装自定企业级应用
了解如何安装您的组织创建的自定应用并为其建立信任。 本文适用于学校、企业或其他组织的系统管理员。 您的组织可以使用 Apple Developer Enterprise Program 创建和分发企业专用的 iOS 应用,以供内部使用。您必须先针对这些应用建立信任后,才能将其打…...
【Linux C | I/O模型】Unix / Linux系统的5种IO模型 | 图文详解
😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...
C++设计模式-简单工厂模式,工厂方法模式,抽象工厂模式
目录 简单工厂模式,工厂方法模式,抽象工厂模式 附: 简单工厂模式,工厂方法模式,抽象工厂模式 简单工厂模式:根据字符串参数返回对象。 工厂方法模式:创建一维对象,即一个工厂创建…...
java处理ppt方案详解
需求 需要系统中展示的ppt案例有一个动态展示的效果,也就是要有动画的交互,要求支持浏览器直接打开预览 背景 目前已经实现了前端上传pptx文件,后端解析为png的图片,前端掉接口返回对应的图片,模拟播放ppt的效果 各种尝…...
鸿蒙4.0.0 安装minitouch
鸿蒙4.0.0 安装minitouch ubuntu 系统 minitouch 地址 https://github.com/DeviceFarmer/minitouch 因为 鸿蒙4.0.0 对应安卓12 API版本31 所以启动 minitouch 需要 STFService 地址 https://github.com/openstf/STFService.apk 到release下载最新的STFService.apk &…...
前端excel带样式导出 exceljs 插件的使用
本来用的xlsx和xlsx-style两个插件,过程一步一个坑,到完全能用要消灭好多bug。这时发现了exceljs,真香😀 案例 <!DOCTYPE html> <html><head><meta charset"utf-8" /><meta name"view…...
用GOGS搭建GIT服务器
GOGS官网 Gogs: A painless self-hosted Git service 进入文件所在目录 cd /usr/local/develop 解压文件 tar -xvf gogs_0.13.0_linux_amd64.tar.gz 解压之后 进入gogs 目录 cd gogs 创建几个目录 userdata 存放用户数据 log文件存放进程日志 repositories 仓库根目…...
2024年美赛数学建模E题思路分析 - 财产保险的可持续性
# 1 赛题 问题E:财产保险的可持续性 极端天气事件正成为财产所有者和保险公司面临的危机。“近年来,世界已经遭受了1000多起极端天气事件造成的超过1万亿美元的损失”。[1]2022年,保险业的自然灾害索赔人数“比30年的平均水平增加了115%”。…...
哪种安全数据交换系统,可以满足信创环境要求?
安全数据交换系统是一种专门设计用于在不同网络环境之间安全传输数据的技术解决方案。这类系统确保数据在传输过程中的完整性、机密性和可用性,同时遵守相关的数据保护法规和行业标准。 使用安全数据交换系统的原因主要包括以下几点: 1、数据保护&#…...
OfficeWeb365 Readfile 任意文件读取漏洞
免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…...
机器学习基础、数学统计学概念、模型基础技术名词及相关代码个人举例
1.机器学习基础 (1)机器学习概述 机器学习是一种人工智能(AI)的分支,通过使用统计学和计算机科学的技术,使计算机能够从数据中学习并自动改进性能,而无需进行明确的编程。它涉及构建和训练机器…...
小埋的解密游戏的题解
目录 原题描述: 题目描述 输入格式 输出格式 样例 #1 样例输入 #1 样例输出 #1 样例 #2 样例输入 #2 样例输出 #2 提示 主要思路: 代码实现code: 原题描述: 题目描述 小埋最近在玩一个解密游戏,这个游戏…...
UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造,完美适配AGV和无人叉车。同时,集成以太网与语音合成技术,为各类高级系统(如MES、调度系统、库位管理、立库等)提供高效便捷的语音交互体验。 L…...
AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案
问题描述:iview使用table 中type: "index",分页之后 ,索引还是从1开始,试过绑定后台返回数据的id, 这种方法可行,就是后台返回数据的每个页面id都不完全是按照从1开始的升序,因此百度了下,找到了…...
汽车生产虚拟实训中的技能提升与生产优化
在制造业蓬勃发展的大背景下,虚拟教学实训宛如一颗璀璨的新星,正发挥着不可或缺且日益凸显的关键作用,源源不断地为企业的稳健前行与创新发展注入磅礴强大的动力。就以汽车制造企业这一极具代表性的行业主体为例,汽车生产线上各类…...
MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...
css3笔记 (1) 自用
outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size:0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格ÿ…...
C/C++ 中附加包含目录、附加库目录与附加依赖项详解
在 C/C 编程的编译和链接过程中,附加包含目录、附加库目录和附加依赖项是三个至关重要的设置,它们相互配合,确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中,这些概念容易让人混淆,但深入理解它们的作用和联…...
