当前位置: 首页 > article >正文

基于WebRTC的实时语音对话系统:从语音识别到AI回复

基于WebRTC的实时语音对话系统:从语音识别到AI回复

在当今数字化时代,实时语音交互已成为人机界面的重要组成部分。本文将深入探讨一个基于WebRTC技术的实时语音对话系统,该系统集成了语音识别(ASR)、大语言模型(LLM)和语音合成(TTS)技术,实现了完整的语音到语音的交互体验。
源码

系统架构概览

我们的系统采用了前后端分离的架构,主要包含以下核心组件:

  1. 前端WebRTC客户端:负责音频采集和播放
  2. 后端FastAPI服务:处理WebRTC连接和信令
  3. 语音识别模块:基于Sherpa-ONNX的实时语音转文字
  4. 大语言模型接口:连接讯飞星火API进行自然语言处理
  5. 语音合成模块:将AI回复转换为自然语音

整个系统的工作流程如下图所示:

用户语音输入 → WebRTC传输 → 语音识别(ASR) → 大语言模型处理 → 语音合成(TTS) → WebRTC传输 → 用户听到回复

技术亮点

1. 基于WebRTC的实时音频传输

WebRTC(Web Real-Time Communication)是一项革命性技术,它允许网页浏览器之间进行实时的音视频通信,无需安装任何插件。在我们的系统中,WebRTC负责处理以下关键任务:

  • 建立浏览器与服务器之间的P2P连接
  • 实时采集用户麦克风的音频数据
  • 将服务器生成的语音回复实时传回浏览器

以下是前端建立WebRTC连接的核心代码片段:

// 前端WebRTC连接建立代码
const pc = new RTCPeerConnection(configuration);
const audioTrack = await navigator.mediaDevices.getUserMedia({audio: true}).then(stream => stream.getAudioTracks()[0]);
pc.addTrack(audioTrack);

2. 实时语音识别技术

我们使用了Sherpa-ONNX作为语音识别引擎,它具有以下优势:

  • 支持流式识别,可实时处理音频
  • 使用ONNX格式模型,推理速度快
  • 支持中英双语识别

语音识别的核心处理流程如下:

async def run_asr_on_track(track: MediaStreamTrack, websocket: WebSocket):"""接收WebRTC音频流,执行ASR识别"""asr_stream = stt_recognizer.create_stream()try:while True:# 接收音频帧frame = await track.recv()# 转换为ASR所需格式_audio = AudioSegment(data=bytes(frame.planes[0]),sample_width=frame.format.bytes,frame_rate=frame.sample_rate,channels=len(frame.layout.channels))_audio = _audio.set_frame_rate(ASR_SAMPLE_RATE).set_channels(1)# 转换为float32并归一化samples = np.array(_audio.get_array_of_samples()).astype(np.float32) / 32768.0# 送入识别器处理asr_stream.accept_waveform(ASR_SAMPLE_RATE, samples)# 解码当前可用的音频while stt_recognizer.is_ready(asr_stream):stt_recognizer.decode_stream(asr_stream)# 获取中间结果并发送current_result = stt_recognizer.get_result(asr_stream)if current_result:await websocket.send_text(json.dumps({"type": "asr_partial_result","data": current_result}))finally:# 处理最终结果full_transcript = stt_recognizer.get_result(asr_stream)await websocket.send_text(json.dumps({"type": "asr_result", "data": full_transcript}))

3. 大语言模型集成

系统集成了讯飞星火大语言模型API,用于理解用户语音内容并生成智能回复。这部分实现了:

  • 异步API调用,不阻塞主线程
  • 错误处理和重试机制
  • 结构化的请求和响应处理

以下是调用讯飞星火API的核心代码:

async def call_xunfei_api(text):"""调用讯飞星火大模型API"""headers = {"Authorization": f"Bearer {XUNFEI_API_KEY}","Content-Type": "application/json"}data = {"model": "generalv3.5","messages": [{"role": "user","content": text}],"stream": False}async with aiohttp.ClientSession() as session:async with session.post(XUNFEI_API_URL, headers=headers, json=data) as response:if response.status == 200:result = await response.json()if result.get("code") == 0:content = result["choices"][0]["message"]["content"]return content

4. 语音合成与回传

系统使用Sherpa-ONNX的TTS模块将文本转换为自然语音,并通过WebRTC回传给用户:

async def run_tts_and_send(text: str, tts_track: TTSAudioTrack):"""生成TTS音频并通过WebRTC发送"""# 生成语音generated_audio = tts_model.generate(text, sid=0, speed=1.0)# 转换为int16格式samples_int16 = (generated_audio.samples * 32767).astype(np.int16)# 添加到WebRTC音频轨道await tts_track.add_audio_bytes_pcm(samples_int16, generated_audio.sample_rate, 1  # 单声道)

技术挑战与解决方案

1. 音频格式转换与重采样

WebRTC音频通常使用48kHz采样率的Opus编码,而ASR和TTS模型可能需要不同的采样率(如16kHz)。我们使用pydub库解决了这个问题:

# 将WebRTC音频转换为ASR所需格式
_audio = AudioSegment(data=bytes(frame.planes[0]),sample_width=frame.format.bytes,frame_rate=frame.sample_rate,channels=len(frame.layout.channels)
)
_audio = _audio.set_frame_rate(ASR_SAMPLE_RATE).set_channels(1)

2. 语音活动检测(VAD)

为了提高识别准确率,我们实现了语音活动检测,只在检测到语音时进行处理:

# 使用VAD检测是否有语音活动
is_speech = self.vad.is_speech(pcm_bytes, frame.sample_rate)
if is_speech:self.last_audio_time = current_time# 将当前帧的音频数据添加到缓冲区self.audio_buffer.append({'data': pcm_bytes,'format': frame.format,'sample_rate': frame.sample_rate,'channels': len(frame.layout.channels)})

3. WebRTC信令处理

WebRTC需要复杂的信令交换来建立连接。我们使用WebSocket实现了自定义信令服务器:

@app.websocket("/ws")
async def websocket_endpoint(websocket: WebSocket):await websocket.accept()pc = RTCPeerConnection()# 处理客户端发来的信令消息while True:message_str = await websocket.receive_text()message = json.loads(message_str)if message["type"] == "offer":# 处理SDP offeroffer = RTCSessionDescription(sdp=message["sdp"], type=message["type"])await pc.setRemoteDescription(offer)answer = await pc.createAnswer()await pc.setLocalDescription(answer)await websocket.send_text(json.dumps({"type": "answer", "sdp": pc.localDescription.sdp}))elif message["type"] == "candidate":# 处理ICE candidate# ... 处理ICE候选项的代码 ...

系统优化与性能提升

为了提高系统的实时性和用户体验,我们实施了以下优化:

  1. 异步处理:使用Python的asyncio库实现全异步架构,避免阻塞
  2. 流式处理:实现音频数据的流式处理,减少延迟
  3. 模型量化:使用int8量化的ONNX模型,提高推理速度
  4. 缓冲区管理:优化音频缓冲区大小,平衡延迟和识别准确率

应用场景与未来展望

这个实时语音对话系统可应用于多种场景:

  • 智能客服:提供24/7的语音交互式客户服务
  • 教育辅助:语言学习和口语练习
  • 无障碍应用:为视障人士提供语音交互界面
  • 智能家居控制:通过语音控制智能家居设备

未来,我们计划进一步优化系统:

  1. 集成更多语言模型,支持多语言交互
  2. 添加情感识别功能,使AI回复更加自然
  3. 实现多轮对话记忆,提高交互连贯性
  4. 优化移动端体验,降低资源消耗

结论

基于WebRTC的实时语音对话系统代表了人机交互的未来方向。通过整合语音识别、大语言模型和语音合成技术,我们创建了一个端到端的语音交互解决方案。这不仅展示了现代Web技术的强大能力,也为未来的智能交互系统提供了参考架构。

随着AI技术的不断进步,我们相信这类系统将在未来发挥越来越重要的作用,为用户提供更自然、更高效的交互体验。

相关文章:

基于WebRTC的实时语音对话系统:从语音识别到AI回复

基于WebRTC的实时语音对话系统:从语音识别到AI回复 在当今数字化时代,实时语音交互已成为人机界面的重要组成部分。本文将深入探讨一个基于WebRTC技术的实时语音对话系统,该系统集成了语音识别(ASR)、大语言模型(LLM)和语音合成(TTS)技术&am…...

typeof运算符和深拷贝

typeof运算符 识别所有值类型识别函数判断是否是引用类型(不可再细分) //判断所有值类型 let a; typeof a //undefined const strabc; typeof str //string const n100; typeof n //number const …...

.Net HttpClient 使用 Cookie

在 HttpClient 中使用 Cookie Cookie 是服务器存储在客户端的小型数据片段,可用于身份验证、会话跟踪等。 .Net HttpClient 支持 Cookie 功能,本教程详细介绍了Cookie 的管理与使用。 初始化 #!import "./Ini.ipynb"什么是 Cookie Cookie …...

Python爬虫实战:通过PyExecJS库实现逆向解密

1. 核心定义 1.1 PyExecJS 库 PyExecJS 是 Python 的第三方库,通过调用 JavaScript 运行时环境(如 Node.js、PhantomJS),实现 Python 与 JavaScript 的无缝交互。其核心功能包括: JavaScript 代码编译与执行跨语言函数调用与数据传递多引擎支持与自动环境检测1.2 字段加…...

Java中的伪共享(False Sharing):隐藏的性能杀手与高并发优化实战

引言 在高性能Java应用中,开发者通常会关注锁竞争、GC频率等显性问题,但一个更隐蔽的陷阱——伪共享(False Sharing)​——却可能让精心设计的并发代码性能骤降50%以上。伪共享是由CPU缓存架构引发的底层问题,常见于多…...

GO语言语法---switch语句

文章目录 基本语法1. 特点1.1 不需要break1.2 表达式可以是任何类型1.3 省略比较表达式1.4 多值匹配1.5 类型switch1.6 case穿透1.7 switch后直接声明变量1.7.1 基本语法1.7.2 带比较表达式1.7.3 不带比较表达式1.7.4 结合类型判断 1.8 switch后的表达式必须与case语句中的表达…...

开疆智能Profient转ModbusTCP网关连接ABB机器人MODBUS TCP通讯案例

本案例是通过开疆智能Profinet转ModbusTCP网关将西门子PLC与ABB机器人进行通讯 因西门子PLC采用Profinet协议,而ABB机器人采用的是ModbusTCP通讯。故采取此种方案。 配置过程: 1.MODBUS/TCP基于以太网,故ABB机器人在使用时需要有616-1PCIN…...

解决qt.network.ssl: QSslSocket::connectToHostEncrypted: TLS initialization failed

可以参考:解决qt.network.ssl: QSslSocket::connectToHostEncrypted: TLS initialization failed-CSDN博客 讲的是程序执行目录下可能缺少了: libssl-1_1-x64.dll 和 libcrypto-1_1-x64.dll 库文件,将其复制到可执行文件exe的同级目录下即可…...

【洛谷P3386】二分图最大匹配之Kuhn算法/匈牙利算法:直观理解

题目:洛谷P3386 【模板】二分图最大匹配 🥕 匈牙利算法本来是针对带权图最大匹配的,这里由于题目只是求最大匹配的边数,所以我们也只考虑无权的情况。 🚀 本文旨在服务于看了别的关于匈牙利算法的文章但不甚理解的童…...

Text2SQL:自助式数据报表开发---0517

Text2SQL技术 早期阶段:依赖于人工编写的规则模板来匹配自然语言和SQL语句之间的对应关系 机器学习阶段:采用序列到序列模型等机器学习方法来学习自然语言与SQL之间的关系 LLM阶段:借助LLM强大的语言理解和代码生成能力,利用提示…...

使用Visual Studio将C#程序发布为.exe文件

说明 .exe 是可执行文件(Executable File)的扩展名。这类文件包含计算机可以直接运行的机器代码指令,通常由编程语言(如 C、C、C#、Python 等)编译或打包生成。可以用于执行自动化操作(执行脚本或批处理操…...

写spark程序数据计算( 数据库的计算,求和,汇总之类的)连接mysql数据库,写入计算结果

1. 添加依赖 在项目的 pom.xml&#xff08;Maven&#xff09;中添加以下依赖&#xff1a; xml <!-- Spark SQL --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.3.0…...

React Flow 边的基础知识与示例:从基本属性到代码实例详解

本文为《React Agent&#xff1a;从零开始构建 AI 智能体》专栏系列文章。 专栏地址&#xff1a;https://blog.csdn.net/suiyingy/category_12933485.html。项目地址&#xff1a;https://gitee.com/fgai/react-agent&#xff08;含完整代码示​例与实战源&#xff09;。完整介绍…...

oracle 资源管理器的使用

14.8.2资源管理器的使用 资源管理器控制CPU资源使用说明&#xff1a;  第一种分配方法&#xff1a;EMPHASIS CPU 分配方法确定在资源计划中对不同使用者组中的会话的重视程度。CPU占用率的分配级别为从1 到8&#xff0c;级别1 的优先级最高。百分比指定如何将CPU 资源分配给每…...

新手入门系列-linux系统下安装和使用docker

新手入门系列一 virtualbox+vagrant创建linux虚拟机 新手入门系列二 linux系统下安装和使用docker 前言 前面一章节我们安装了unbuntu虚拟机,这一节我们在虚拟机上安装和使用docker。 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的…...

mysql中4种扫描方式和聚簇索引非聚簇索引【爽文一篇】

目录 一 mysql的聚簇索引&非聚簇索引 1.1 数据表 1.2 聚簇索引 1.3 非聚簇索引 1.4 覆盖索引 二 mysql的4种扫描查询 2.1 全表扫描 2.2 索引扫描 2.3 覆盖索引扫描 2.4 回表扫描 2.5 总结 三 mysql的回表查询详解 3.1 回表查询 一 mysql的聚簇索引&非聚簇…...

贝叶斯优化Transformer融合支持向量机多变量回归预测,附相关性气泡图、散点密度图,Matlab实现

贝叶斯优化Transformer融合支持向量机多变量回归预测&#xff0c;附相关性气泡图、散点密度图&#xff0c;Matlab实现 目录 贝叶斯优化Transformer融合支持向量机多变量回归预测&#xff0c;附相关性气泡图、散点密度图&#xff0c;Matlab实现效果一览基本介绍程序设计参考资料…...

水平可见直线--上凸包(andrew算法

P3194 [HNOI2008] 水平可见直线 - 洛谷 不过只有90% #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair<ll,int> pii; int n; struct no {double k,b;int id; }a[N],an[N]; int k; bool cmp(no a,no b) {if(a.k…...

【mysql】并发 Insert 的死锁问题 第二弹

上次死锁的场景还历历在目&#xff08;【mysql】并发 Insert 的死锁问题&#xff1a;Deadlock found when trying to get lock&#xff1b; try restarting transaction_1213 - deadlock found when trying to get lock; try-CSDN博客&#xff09;&#xff0c;这次又把代码写死…...

Docker配置SRS服务器 ,ffmpeg使用rtmp协议推流+vlc拉流

目录 演示视频 前期配置 Docker配置 ffmpeg配置 vlc配置 下载并运行 SRS 服务 推拉流流程实现 演示视频 2025-05-18 21-48-01 前期配置 Docker配置 运行 SRS 建议使用 Docker 配置 Docker 请移步&#xff1a; 一篇就够&#xff01;Windows上Docker Desktop安装 汉化完整指…...

一个stm32工程从底层上都需要由哪些文件构成

原文链接&#xff1a;https://kashima19960.github.io/2025/05/17/stm32/一个stm32工程从底层上都需要由哪些文件构成/ 前言 我最近因为做课设要用到stm32&#xff0c;所以去找了一些开源的stm32工程来看看&#xff0c;然后发现现在新版的keil mdk对于环境的配置跟以前 相比发…...

[Mac] 开发环境部署工具ServBay 1.12.2

[Mac] 开发环境部署工具ServBay 链接&#xff1a;https://pan.xunlei.com/s/VOQS0LDsC_J6XU4p-R6voF6YA1?pwdnbyg# 非常给力的本地 Web 开发/测试环境工具&#xff1a;ServBay。之前我们本地搭个 PHP MySQL Nginx 环境&#xff0c;或者搞个 PHP web 环境啥的&#xff0c;不…...

商城小程序源码介绍

今天要为大家介绍一款基于ThinkPHP、FastAdmin以及UniApp开发的商城小程序源码&#xff0c;这款源码在设计和功能上都有不俗的表现&#xff0c;非常适合想要搭建线上商城的开发者。 该源码采用了ThinkPHP作为后端框架&#xff0c;利用其强大的性能和灵活性&#xff0c;保障了系…...

鸿蒙OSUniApp 实现图片上传与压缩功能#三方框架 #Uniapp

UniApp 实现图片上传与压缩功能 前言 在移动应用开发中&#xff0c;图片上传是一个非常常见的需求。无论是用户头像、朋友圈图片还是商品图片&#xff0c;都需要上传到服务器。但移动设备拍摄的图片往往尺寸较大&#xff0c;直接上传会导致流量消耗过大、上传时间过长&#x…...

科技项目验收测试对软件产品和企业分别有哪些好处?

科技项目验收测试是指在项目的开发周期结束后&#xff0c;针对项目成果进行的一系列验证和确认活动。其目的是确保终交付的产品或系统符合预先设定的需求和标准。验收测试通常包括功能测试、性能测试、安全测试等多个方面&#xff0c;帮助企业评估软件在实际应用中的表现。 科…...

javascript和vue的不同

1. 数据绑定方式 JavaScript&#xff08;原生&#xff09; 手动操作 DOM&#xff1a;通过document.querySelector()等方法获取 DOM 元素&#xff0c;然后直接修改其属性或内容。 示例&#xff1a; <div id"counter">0</div> <button onclick"i…...

duxapp 2025-01-06更新 CLI新增帮助支持,优化基础模块结构

CLI 新增帮助命令 yarn duxapp -h yarn duxapp --helpyarn duxapp icon -h yarn duxapp icon create -h基础库 完善所有函数和组件的Types移除 Detail 组件移除 checkLocationPermission 方法移除 duxapp/utils/app.js 有关于模块的方法移除 Queue 队列功能移除 recursionSe…...

汽车零部件冲压车间MES一体机解决方案

在当前制造业升级的大背景下&#xff0c;提升生产效率、实现精细化管理已成为企业竞争力的关键。特别是在汽车零部件制造领域&#xff0c;冲压车间作为生产流程中的重要一环&#xff0c;其生产数据的实时采集与分析对于确保产品质量、优化生产节拍、降低运营成本至关重要。今天…...

hysAnalyser 从MPEG-TS导出ES功能说明

摘要 hysAnalyser 是一款特色的 MPEG-TS 数据分析工具。本文主要介绍了 hysAnalyser 从MPEG-TS 中导出选定的 ES 或 PES 功能(版本v1.0.003)&#xff0c;以便用户知悉和掌握这些功能&#xff0c;帮助分析和解决各种遇到ES或PES相关的实际问题。hysAnalyser 支持主流的MP1/MP2/…...

家里wifi不能上网或莫名跳转到赌博及色情网站就是域名被劫持、DNS被污染了

文章目录 定义上网过程域名被劫持可能阶段案例排查工具 解决方法清除系统DNS缓存查看DNS缓存清除DNS缓存 登录路由器&#xff0c;设置DNS可用的DNS地址&#xff1a; 找网络运营商报警 定义 DNS&#xff08;Domain Name System&#xff0c;域名系统&#xff09;劫持&#xff0c…...