基于集成Whisper 与 Pepper-GPT改进人机交互体验并实现顺畅通信
摘要
随着技术以令人眼花缭乱的速度发展,使人机交互更加顺畅比以往任何时候都更加重要。为了应对这一挑战,一个新领域应运而生:人机交互(HRI)。有效的人机交互被认为是实现技术效益的关键。
用户体验(UX)是指机器对用户的影响–易用性、直观性、实用性以及交互过程中的挫折程度。确保良好的用户体验对于机器人为我们的日常生活带来实质性价值至关重要。
软银机器人公司(Softbank Robotics)推出的著名仿人社交机器人 Pepper 以其多样化的交互功能而闻名。然而,如果要实现更像人类的交流,Pepper 目前的能力可能无法满足人们的期望。研究还表明,语言处理过程中的延迟和错误会影响用户体验。开发人员准备的对话也很有限,很难对用户的深入问题和要求做出回应,而且据说 Pepper 的语音识别能力也不足以理解自然语言。
为应对这些挑战,预计将使用 ChatGPT 等大规模语言模型。这些先进的系统可以实现更自然、更符合语境的对话,并有助于提高 Pepper 的语音识别能力。
本文开发了 Pepper-GPT 系统,该系统集成了 Pepper 机器人、Whisper 和 GPT API。它还报告了该方法及其与人类互动的实验结果。这一举措旨在提高与机器人交流的质量,为人类生活带来更大价值。
技术
Pepper-GPT 项目采用独特的方法彻底改变人与机器人之间的交流。该项目的核心是两个关键要素:BlackBox 和 PepperController。
BlackBox 结合了先进的语音识别和自然语言处理技术,负责将用户的语音转换为文本并生成有意义的回复。它使用 OpenAI 的 Whisper 自动语音识别系统和 gpt-3.5-turbo 语言模型。另一方面,PepperController 负责管理机器人在现实世界中执行动作的命令。
数据交换基于客户端-服务器模式,使用 TCP/IP 协议,确保了可靠性和稳定性。这种系统设计确保了从语音输入到生成响应的流畅过程,使人机互动更加自然。
Pepper-GPT 扩展了人工智能和机器人技术的潜力,使实时互动伴侣不仅仅是一个数字助理。这种方法成功地为机器人提供了先进的通信能力,甚至能够进行物理操作。
此外,BlackBox 可分为两个模块:语音识别模块和 GPT 模块。通过这两个模块,BlackBox 可记录用户的语音输入,识别语音内容,并通过 GPT-3.5 模型生成精确的操作命令或上下文化的响应。生成的结果将发送给 PepperController 执行。
语音识别模块
Pepper-GPT 项目的语音识别工作重点是准确解读用户的语音并做出相应的响应。这一过程的核心是 Whisper ASR 系统,它是从三种不同的自动语音识别 (ASR) 模型测试中选出的。之所以选择该系统,是因为它具有鲁棒性和出色的性能,可以显著提高 Pepper 机器人的语音识别能力。特别是,在兼顾处理速度、资源消耗和准确性方面,Whisper Small 模型的效率优于其他模型。
语音识别模块的设计是在检测到人声时开始录音,在检测到静音时停止录音,以防止产生无声音频。它还集成了一个 Silero VAD 模型,可以识别人声,避免意外生成 "谢谢 "等短语,从而引发不恰当的反应。
录制的音频被保存为文件,并由 Whisper Small 模型转换为文本。然后,文本被传输到 GPT 模块,由该模块负责内容分析和生成回复。不过,有时 Whisper Small 模型无法成功转录文本,在这种情况下,系统会自动提示用户再次发言,确保对话流畅、无压力。
GPT 模块
在 Pepper-GPT 项目中引入 GPT 模块,旨在使用户与机器人之间的交流更深入、更自然。该模块的核心是使用 gpt-3.5-turbo 模型生成响应。之所以选择该模型,是因为它具有出色的理解能力和文本生成能力。它能生成类似人类的回应,使 Pepper-GPT 能够实现高度灵活对话的目标。通过理解用户输入并创建相关的、真实的对话,该技术可以大大提高用户体验的质量。
在该模块中,语音识别模块接收用户的文本,分析文本内容,并根据情况切换到动作模式或语音模式。在动作模式下,用户的要求被转化为 Pepper 机器人可以执行的动作指令。而在语音模式下,GPT 模块则充当对话者的角色,根据上下文做出回应并继续对话。
不过,也可能出现误读。为了解决这个问题,GPT 模块提供了双重检查功能。该功能允许对生成的响应进行复核,以确定是否合适,并在必要时进行修正。这样,Pepper 机器人就能对用户的交互做出适当的反应。
GPT 模块的先进设计进一步促进了用户与机器人之间的互动,确保当用户要求 Pepper 机器人采取行动或进行对话时,它能准确捕捉到用户的意图并做出适当的回应。
Pepper-GPT 项目中的 PepperController 是 Pepper 机器人的中枢神经系统。通过控制机器人的动作和对话,该系统使 Pepper 成为一个更具吸引力和活力的实体。具体来说,Naoqi ALAnimatedSpeech 代理是执行动作和语音命令的核心技术。对于语音指令,PepperController 会将黑盒中的文本转换成语音,Pepper 机器人则会根据用户的话语做出特定的动画。
PepperController
Pepper 机器人可以执行的所有动作都存储在一个预先编码的数据集中,并根据物理动作指令选择适当的动作。此外,在语音识别和生成响应的过程中,过渡动画会像 Pepper 在思考一样进行,从而使交互流程更加流畅。
在数据传输方面,采用了可靠的 TCP/IP 协议,以确保 BlackBox 和 PepperController 之间稳定的数据交换。该通信协议具有重传功能,可确保数据的可靠收发,防止数据丢失。Pepper-GPT 的设计采用了客户端-服务器模式,每个客户端都有特定的角色,在用户输入指令后,相应的指令会被发送到 PepperController,从而引导机器人进行下一步操作。
实验和结果
这里进行了两项分析:一项是将选定的语音识别应用程序接口与其他应用程序接口进行比较,另一项是关于实验的最终结果。
第一步是评估语音识别。为了提高语音识别的准确性和速度,在实验之前,我们使用三种语音到文本应用程序接口进行了两次测试。
词错误率 (WER) 用于评估准确性。这是一种广泛使用的衡量系统准确性的指标;WER 是根据转述、删除和插入错误的数量以及参考词语的总数计算得出的。此外,识别时间也被用作一种性能指标,用于衡量模型将口语转化为文本的速度。这一点在实际应用中非常重要,因为在实际应用中需要即时有效地将语音转换为文本。
语音口音档案数据集也被用作数据集,在该数据集中,来自 177 个国家的说话者说出了相同的英语句子。这些口音的多样性非常适合评估所选语音识别模型的适应性和性能。该测试包括母语为英语和非母语为英语的国家/地区,以测试其在全球交流中的实用性;第二个测试使用 "日常对话 "数据集,其中包括日常口语对话。该测试旨在评估语音识别模型识别和转录常见对话的准确度。为了测试模型在实际应用中的性能,我们选择了现实世界中可能遇到的五种不同的对话场景。
第一次评估共分析了 24 个组,包括英语国家和非英语国家;测试使用了三种语音到文本 API,并将平均单词错误率(WER)和平均识别时间作为评估标准。结果表明,Whisper 的 WER 明显低于其他 API,表现出近乎完美的准确性。
其中,在英语国家中,美国的 WER 最低,而英国的 WER 最高。在非英语国家中,印度口音最难理解,而阿拉伯语和菲律宾语最容易理解。在平均识别时间方面,Whisper 能够在最短时间内将语音转换为文本。
第二个测试使用了 "日常对话 "数据集,以评估在五个不同对话场景中语音识别的准确性和效率。测试结果表明,Whisper 的 WER 值一直最低,准确率最高,平均识别时间最短。
通过这些结果,Whisper 的性能明显优于其他语音识别应用程序接口,证实了我们的研究方法的适用性。这证明了 Whisper 在语音到文本的转换中的有效性,在这种转换中需要高准确性和高效率,即使是在现实世界的应用中也是如此。
真人实验
为了探索将 ChatGPT 与 Pepper 机器人集成的意义,需要与真人参与者进行试验。奥克兰大学的学生将接受挑战,与集成 ChatGPT 的 Pepper 机器人进行自由对话,每次对话持续 15 到 20 分钟。
通过在校园公告栏上散发传单的方式招募参与者。对参与者的唯一要求是必须年满 18 周岁,能够用英语交流。
知情同意是人类参与式研究的一项基本伦理要求。这可以确保参与者充分了解研究的目的、风险和益处,以及他们自己的权利。参与者阅读 "参与者信息表 "并在 "同意书 "上签字表示同意。这一程序可保护参与者的隐私和机密,并确保研究符合道德标准。研究人员回答参与者的问题,帮助他们充分了解研究内容,并在知情的情况下做出参与决定。
实验开始前,向参与者简要介绍了集成系统的功能和特点,以及与机器人开始对话的指南。参与者还配备了麦克风,以提高语音识别的准确性。
在实验过程中,参与者可以自由地与放置在他们面前的 Pepper-GPT 机器人交谈,系统会将他们的对话转录成文本。如果需要技术协助,房间一角会有一名研究人员在场。与机器人的互动时间为五到十分钟,根据参与者的反应进行调整。
互动结束后,参与者填写了两份数字问卷,提供了他们的年龄、性别、院系、伦理考虑因素和以前使用 ChatGPT 的经验等信息。此外,还收集了他们与机器人互动的反馈意见。所有参与者都获得了一张价值 10 美元的礼品卡。
定量结果显示,参与者的英语能力不同,他们的体验也不同,但许多人认为与 ChatGPT 的互动逼真且引人入胜。不过,一些参与者认为系统的直观性还有待提高。总之,结果表明,实体机器人的存在丰富了 ChatGPT 互动。
在语音识别技术的评估中,人们发现词错误率(WER)和处理时间之间存在明显的相关性。尤其是具有复杂语音特征的英国口音显示出较高的 WER 和较长的处理时间,而澳大利亚口音则相反。事实证明,WER 和处理时间之间存在线性关系,尽管这种趋势并不总是适用于所有情况。
实验显示,参与者的英语水平对他们与 Pepper-GPT 的交互体验有很大影响。一般来说,Whisper 的语音识别功能在涉及口音的测试中表现良好,但英语理解能力较低的参与者不得不重复提问,直到机器人准确领会他们的意图。
约有 30% 的参与者拥有丰富的 ChatGPT 使用经验,他们对机器人性能的期望值高于偶尔使用的用户,而后者在实验结束时往往对系统的功能略感失望。其他挑战还包括难以决定何时与机器人互动,以及 Pepper 机器人面部识别技术的准确率较低,这就要求参与者多次尝试以引起机器人的注意。
研究表明,英语水平、用户期望、交互时间的清晰度以及 Pepper-GPT 的面部跟踪功能都会影响参与者的体验。这些因素是该系统下一次迭代中需要改进的重要方面,预计将有助于提高用户满意度和参与度。
总结
本文将 Whisper ASR 和 GPT-3.5 API 集成到 Pepper 机器人中,缩小了虚拟人工智能与实体机器人之间的差距,大大改善了用户体验。词错误率(WER)为 1.716%,平均处理时间为 2.639 秒,超过了谷歌的 ASR 服务。这提高了 Pepper-GPT 的理解能力,GPT 模块使机器人能够生成与上下文相关的响应,理解用户的指令并采取相应的行动,从而使交互更丰富,更吸引用户。
对参与者的调查结果显示,Pepper-GPT 在人机交互领域具有巨大潜力。超过 90% 的参与者认为该系统用户界面友好,一半以上的参与者认为机器人的手势恰当。参与者的积极反馈表明,他们喜欢 Pepper-GPT,并期待今后与该系统进一步互动。
通过进一步改进,预计Pepper-GPT 将发展成为一种更加自然、高效和愉悦的交互体验,进一步提升用户体验。
相关文章:

基于集成Whisper 与 Pepper-GPT改进人机交互体验并实现顺畅通信
摘要 随着技术以令人眼花缭乱的速度发展,使人机交互更加顺畅比以往任何时候都更加重要。为了应对这一挑战,一个新领域应运而生:人机交互(HRI)。有效的人机交互被认为是实现技术效益的关键。 用户体验(UX&…...
C++设计模式精选面试题及参考答案
目录 什么是单例模式?它的应用场景是什么?如何保证单例模式线程安全? 什么是工厂方法模式?如何与简单工厂模式进行比较? 抽象工厂模式和工厂方法模式有什么区别?请给出实际应用场景。 什么是建造者模式?它和工厂模式有什么不同? 在什么情况下使用单例模式?如何在…...

Linux下的vim和gdb
vim: vim是编译功能强大,多模式的编译器。实际中vim有很多种模式,但是常用的就三种模式: 1、正常/普通/命令模式(Normal mode)控制屏幕光标的移动,字符、字或行的删除,移动复制某区段及进入Insert mode下…...

(蓝桥杯C/C++)——搜索
一、回溯法 1.回溯法简介 回溯法一般使用 ** DFS(深度优先搜索) ** 实现,DFS是一种遍历或搜索图、树或图像等数据结构的算法,当然这个图、树未必要存储下来(隐式处理就是回溯法),常见的是通过某种关系构造出的搜索树,搜索树一般…...

【网页设计】HTML5 和 CSS3 提高
目标 能够说出 3~5 个 HTML5 新增布局和表单标签能够说出 CSS3 的新增特性有哪些 1. HTML5 的新特性 注:该部分所有内容可参考菜鸟教程菜鸟教程 - 学的不仅是技术,更是梦想! (runoob.com) HTML5 的新增特性主要是针对于以前的不足…...

FastGPT部署通义千问Qwen和智谱glm模型|OneAPI配置免费的第三方API
继这篇博客之后 从零开始FastGPT本地部署|Windows 有同学问,不想在多个平台申请API-Key,不好管理且要付费,有木有白嫖方案呀? 答:有啊。用硅基流动。 注册方法看这篇 【1024送福利】硅基流动送2000万token啦࿰…...

https网站 请求http图片报错:net::ERR_SSL_PROTOCOL_ERROR
问题描述 场景: https网站,请求http图片资源报错:net::ERR_SSL_PROTOCOL_ERROR 原因: Chrome 81 中,对混合内容资源加载策略进行了改变,会自动升级到 https:// ,如果无法通过 https:// 加载&am…...

攻防世界38-FlatScience-CTFWeb
攻防世界38-FlatScience-Web 点开这个here看到一堆pdf,感觉没用,扫描一下 试试弱口令先 源码里有: 好吧0.0 试试存不存在sql注入 根本没回显,转战login.php先 输入1’,发现sql注入 看到提示 访问后得源码 <?php ob_start(); ?>…...

探索 JNI - Rust 与 Java 互调实战
真正的救赎,并非厮杀后的胜利,而是能在苦难之中,找到生的力量和内心的安宁。 ——加缪Albert Camus 一、Rust Java ? Java 和 Rust 是两种现代编程语言,各自具有独特的优势,适用于不同的应用场景。 1、…...
网络安全-Linux基础(bash脚本)
文章目录 bash脚本编写基础使用的脚本解析器/bin/bash(声明)bash脚本需要拥有执行权限bash脚本语法输入与输出函数的封装条件判断语句条件符号 循环语句模块化编程 Linux进程操作查看寻找进程终止进程暂停与恢复进程后台运行 bash脚本编写系统内存资源占…...

Lucene 和 Elasticsearch 中更好的二进制量化 (BBQ)
作者:来自 Elastic Benjamin Trent Lucene 和 Elasticsearch 中更好的二进制量化 (BBQ)。 嵌入模型输出 float32 向量,通常对于高效处理和实际应用来说太大。Elasticsearch 支持 int8 标量量化,以减小向量大小,同时保持性能。其他…...

jmeter基础05_第1个http请求
本节课使用网站“httpbin.org”进行基础的http请求全流程。 请求获取httpbin.org的首页: 请求方法:GET URL:http://httpbin.org 参数:无 1、操作步骤 ① 打开jmeter:命令行窗口输入“jmeter”并回车。 ② 添加线程组…...

C++builder中的人工智能(25):AI中的C++多线程std::thread
主要是为Ai算法中要使用到C的多线程,这是使用C11中的多线程std::thread。 在现代数学、物理和计算机科学中,优化和加速应用程序开发在编程中非常重要,以加快计算速度。多核心CPU和GPU通过核心和晶体管的数量得到了高度发展,为当今…...
RestSharp基本使用方法
关于RestSharp RestSharp is a library that allows you to make REST and HTTP calls in .NET applications. It supports serialization, parameters, async functions, and more. RestSharp是C#的一个WepApi库,支持通用的Web接口处理,支持序列化、参数…...
MySQL与Oracle对比及区别
一、比较 1、MySQL的特点 性能卓越,服务稳定,很少出现异常宕机; 开放源代码无版本制约,自主性及使用成本低; 历史悠久,社区和用户非常活跃,遇到问题及时寻求帮助; 软件体积小&#…...

NCC前端调用查询弹框
系统自带的查询模板 弹框 调启使用默认的 查询模板 是在 单据模板的 列表模板中,有个查询区域 ,查询区域就是查询模板内容如果在列表页做客开 新增按钮 调启查询模板 无问题,但是目前需求是需要再卡片页面下调启系统标准的调启模板代码 //调…...

【高中生讲机器学习】25. AdaBoost 算法详解+推导来啦!
创建时间:2024-11-08 首发时间:2024-11-13 最后编辑时间:2024-11-13 作者:Geeker_LStar 你好呀~这里是 Geeker_LStar 的人工智能学习专栏,很高兴遇见你~ 我是 Geeker_LStar,一名高一学生,热爱计…...

第三十七章 Vue之编程式导航及跳转传参
目录 一、编程式导航跳转方式 1.1. path 路径跳转 1.1.1. 使用方式 1.1.2. 完整代码 1.1.2.1. main.js 1.1.2.2. App.vue 1.1.2.3. index.js 1.1.2.4. Home.vue 1.1.2.5. Search.vue 1.2. name 命名路由跳转 1.2.1. 使用方式 1.2.2. 完整代码 1.2.2.1. main.js 1…...

vue 版本升级
Vue 3.4 升级了组件产值方式 v-model ,果断升级玩玩,记录一下升级过程 我的原Vue版本是3.2.13 升级到目前最新3.5.12 1. npm add vuelatest 2. npm add -g vue/clilatest 安装完成后记得查看是否有如下警告 这个警告是说eslint-plugin-vue package…...

探索Copier:Python项目模板的革命者
文章目录 **探索Copier:Python项目模板的革命者**1. 背景介绍:为何Copier成为新宠?2. Copier是什么?3. 如何安装Copier?4. 简单库函数使用方法4.1 创建模板4.2 从Git URL创建项目4.3 使用快捷方式4.4 动态替换文本4.5 …...
云原生后端深度解析
云原生后端 云原生后端是指专门为云计算环境设计的软件架构和服务。它强调了应用程序的设计、开发、部署和运维的方式,以充分利用云平台提供的弹性、可伸缩性和自动化能力。云原生技术主要包括容器化、微服务、不可变基础设施、声明式APIs等核心概念。下面是对这些…...

本地 SSL 证书生成神器,自己创建SSL
本地 SSL 证书生成神器,自己创建SSL 在本地环境中配置HTTPS一直以来是开发者的痛点,手动创建SSL证书、配置信任存储不仅繁琐,还容易出错。今天给大家介绍一个开源神器——mkcert!它能让你快速生成本地受信任的SSL/TLS证书,轻松打造安全的HTTPS开发环境,成为许多开发者的首…...

HCIP-快速生成树RSTP
一、RSTP是什么 STP(Spanning Tree Protocol )是生成树协议的英文缩写。该协议可应用于环路网络,通过一定的算法实现路径冗余,同时将环路网络修剪成无环路的树型网络,从而避免报文在环路网络中的增生和无限循环。 RS…...

企业级RAG(检索增强生成)系统构建研究
— 摘要 检索增强生成(Retrieval-Augmented Generation,RAG)技术已经成为企业在知识管理、信息检索和智能问答等应用中的重要手段。本文将从RAG系统的现状、方法论、实践案例、成本分析、实施挑战及应对策略等方面,探讨企业如何…...
MATLAB基础应用精讲-【数模应用】Google Caffeine算法
目录 前言 算法原理 Caffeine算法的背景和优势 什么是Caffeine算法 Caffeine算法的工作原理 常见的缓存数据淘汰算法 FIFO LRU LFU W-TinyLFU Caffeine W-TinyLFU 实现 元素驱逐 元素访问 Caffeine 的四种缓存添加策略 1. 手动加载 2. 自动加载 3. 手动异步加载…...

第十九届中国国际中小企业博览会将在粤开展
11月15日-18日,第十九届中国国际中小企业博览会(简称“中博会”)将在广州广交会展馆举办,共设8个展厅,展位总数约2800个,将举办超过30场系列配套活动,35个国家(地区)和国…...

云计算在智能交通系统中的应用
💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 云计算在智能交通系统中的应用 云计算在智能交通系统中的应用 云计算在智能交通系统中的应用 引言 云计算概述 定义与原理 发展历…...
b4tman / docker-squid 可快速安装运行的、容器型代理服务器 + podman
使用容器部署,省时省力。 使用镜像,目前的最大麻烦就是之前各大镜像源纷纷关闭,需要自己找到合适的、安全的镜像源。 幸好 docker-squid 推广在 ghcr.io,目前下载没有障碍。 注:ghcr.io 是 GitHub Container Registry …...

脉冲神经网络(Spiking Neural Network,SNN)学习(1)
目录 一、神经网络 1、神经元 2、激活函数 (1)常见的激活函数:Sigmoid函数 (2)常见的激活函数:ReLU(Rectified Linear Unit)函数 (3)常见的激活函数&…...
【疑难杂症】电脑休眠后无法开机,进入 steamVR 时电脑突然黑屏关机
问题描述 1.电脑休眠后无法启动,只能拔电源再启动 2.进入 steamVR 时,电脑突然断电黑屏关机(无蓝屏,无任何报错) 3.在进行渲染时,如R23等,电脑突然黑屏关机 4.进入 VRChat 时,准备进…...