当前位置：首页 > article >正文

OpenClaw人人养虾：音频与语音

article 2026/4/20 17:01:37

Audio Node音频节点为 Agent 提供语音输入和输出能力包括语音转文字 STTSpeech-to-Text和文字转语音 TTSText-to-Speech。启动音频节点openclaw node --type audio首次启动系统会要求授予麦克风权限。macOS 用户需要在「系统设置 → 隐私与安全 → 麦克风」中允许终端应用访问。语音识别STTSTT 将用户的语音输入转换为文本再交给 Agent 处理。支持的 STT 提供商提供商延迟中文支持特点Deepgram极低✅实时流式推荐首选OpenAI Whisper中✅精度高支持本地部署Azure Speech低✅企业级稳定性Google Speech低✅多语言混合识别阿里云语音低✅国内访问速度快STT 配置config.yamlWhisper 本地配置audio: stt: provider: deepgram # STT 提供商 api_key: ${DEEPGRAM_API_KEY} # 引用环境变量 language: zh-CN # 识别语言 model: nova-2 # 模型版本 interim_results: true # 是否返回中间结果 punctuate: true # 自动添加标点 encoding: opus # 音频编码格式 sample_rate: 16000 # 采样率 (Hz) 中国用户须知推荐使用阿里云语音识别或本地 Whisper 模型。Deepgram 在国内需要代理访问延迟可能增加。语音合成TTSTTS 将 Agent 的文本回复转换为语音输出。支持的 TTS 提供商提供商中文音色特点OpenAI TTS有限自然度高Azure TTS丰富多音色SSML 支持ElevenLabs有限克隆音色阿里云 TTS丰富国内低延迟TTS 配置audio: tts: provider: azure # TTS 提供商 api_key: ${AZURE_SPEECH_KEY} region: eastasia # 服务区域 voice: zh-CN-XiaoxiaoNeural # 音色名称 speed: 1.0 # 语速 (0.5-2.0) format: audio-24khz-48kbitrate-mono-mp3音频格式OpenClaw 支持以下音频格式格式编码场景Opus有损压缩实时流式传输推荐WAV无损高质量录音存档MP3有损压缩TTS 输出、文件传输实时流式 vs 文件上传OpenClaw 支持两种音频输入模式实时流式推荐audio: mode: streaming chunk_size: 1024 # 每块大小字节 vad: true # 启用 VADVoice Activity Detection语音活动检测延迟低用户说完即开始识别需要 WebSocket 持续连接适合对话场景文件上传audio: mode: file max_duration: 300 # 最大录音时长秒 max_size: 25MB # 最大文件大小录音完成后一次性上传适合长段语音、离线场景高级配置噪声抑制audio: noise_suppression: true noise_level: moderate # low / moderate / aggressive多声道支持audio: channels: 1 # 单声道推荐 # channels: 2 # 立体声音频缓存audio: cache: enabled: true tts_cache_size: 100 # 缓存最近 100 条 TTS 结果 ttl: 3600 # 缓存过期时间秒隐私提示实时流式模式下音频数据会发送到 STT 提供商的服务器。如果涉及敏感对话建议使用本地 Whisper 模型数据不会离开你的设备。常用命令# 测试麦克风输入 openclaw node --type audio --test # 指定音频设备 openclaw node --type audio --device MacBook Pro Microphone # 查看可用音频设备 openclaw node --type audio --list-devices故障排查问题可能原因解决方案无法录音麦克风权限未授予检查系统权限设置识别为空采样率不匹配确认sample_rate与设备匹配TTS 无声音频输出设备问题检查系统默认输出设备延迟过高网络或提供商问题切换提供商或使用本地模型《DeepSeek高效数据分析从数据清洗到行业案例》聚焦DeepSeek在数据分析领域的高效应用是系统讲解其从数据处理到可视化全流程的实用指南。作者结合多年职场实战经验不仅深入拆解DeepSeek数据分析的核心功能——涵盖数据采集、清洗、预处理、探索分析、建模回归、聚类、时间序列等及模型评估更通过金融量化数据分析、电商平台数据分析等真实行业案例搭配报告撰写技巧提供独到见解与落地建议。助力职场人在激烈竞争中凭借先进技能突破瓶颈实现职业进阶开启发展新篇。

OpenClaw人人养虾：音频与语音

相关文章：

OpenClaw人人养虾：音频与语音

如何在5分钟内掌握PPTist：免费开源在线PPT制作工具的终极指南

从UML到SysML：给软件工程师的系统思维升级指南（含实战案例拆解）

【Dify权限管控终极清单】：2024新版v0.12.0中已废弃的3个危险API + 必须迁移的5个替代方案

从MVDR到LCMV再到GSC：一文讲透自适应波束形成的演进与选择（MATLAB对比）

安卓应用开发中 Room 数据库类型转换器未注册问题详解

一键部署Qwen3-ASR-0.6B：轻量级语音识别模型，支持流式推理

HLS流媒体下载器技术实现：并发处理与AES解密优化策略

pkNX：开启宝可梦Switch游戏自定义编辑的三大维度解析

从圆柱绕流到涡街动画：我的第一个FLUENT瞬态仿真全记录（附Mesh文件与结果对比）

BilibiliDown：为什么你的B站内容管理需要这个开源神器？

ComfyUI图像批量处理终极指南：5步快速解决Load Image Batch节点异常问题

MedSAM医疗影像分割终极指南：从零开始微调适配你的专属场景

从POLQA天价授权到ViSQOL开源替代：音频客观评测的平民化实战指南

从考研到面试：线性代数高频术语中英对照速查手册（含易混点解析）

告别迷茫！用Vitis 2023.2工具链，5分钟搞定ZYNQ FSBL工程创建与Boot.bin生成

语音转文字神器AsrTools：零门槛批量处理音频视频文件

告别联网依赖：一份完整的Zsh Oh My Zsh离线安装包制作与部署方案

城通网盘限速破解终极指南：开源工具ctfileGet的创新解决方案

重返未来1999自动化助手M9A：如何轻松解放双手的终极指南

Phi-4-mini-reasoning入门必看：面向推理任务的轻量级大模型快速上手

企业知识库升级：Qwen3-Reranker-0.6B重排序实战案例

别再折腾Win10了！手把手教你用VMware+Win2003搞定Sniffer Pro 4.7.5完整安装

Python列表操作教程

华为OD机试真题新系统-8位LED控制器(C/C++/Py/Java/Js/Go)

终极GMod修复方案：3步解决游戏浏览器与启动问题

革命性魔兽争霸III地图编辑器：HiveWE全面使用指南

FanControl深度解析：Windows平台精准风扇控制实践指南

技术深度解析：OneNote-MD-Exporter 架构设计与无损迁移实战

告别CasADi的慢速：用ACADOS在Python里10倍速搞定移动机器人MPC（附避坑配置）