当前位置：首页 > news >正文

HarmonyOS 原生智能之语音识别实战

news 2026/2/9 0:04:24

HarmonyOS 原生智能之语音识别实战

背景

公司很多业务场景使用到了语音识别功能，当时我们的语音团队自研了语音识别模型，方案是云端模型加端侧SDK交互，端侧负责做语音采集、VAD、opus编码，实时传输给云端，云端识别后返回识别结果。这些业务场景在适配鸿蒙的过程发现HarmonyOS 原生智能中提供了本地语音识别SDK，动手封装一波。

场景介绍

原生语音识别能力支持两种模式：

短语音模式（不超过60s）
长语音模式（不超过8h）

API接口介绍

1. 引擎初始化

speechRecognizer.createEngine

let asrEngine: speechRecognizer.SpeechRecognitionEngine;
// 创建引擎，通过callback形式返回
// 设置创建引擎参数
let extraParam: Record<string, Object> = {"locate": "CN", "recognizerMode": "short"};
let initParamsInfo: speechRecognizer.CreateEngineParams = {language: 'zh-CN',online: 1,extraParams: extraParam
};
// 调用createEngine方法
speechRecognizer.createEngine(initParamsInfo, (err: BusinessError, speechRecognitionEngine: speechRecognizer.SpeechRecognitionEngine) => {if (!err) {console.info('Succeeded in creating engine.');// 接收创建引擎的实例asrEngine = speechRecognitionEngine;} else {// 无法创建引擎时返回错误码1002200008，原因：引擎正在销毁中console.error(`Failed to create engine. Code: ${err.code}, message: ${err.message}.`);}
});

主要是需要构建引擎参数speechRecognizer.CreateEngineParams：

language：语言
online：模式，1为离线，目前只支持离线引擎
extraParams：区域信息等
- locate：区域信息，可选，不设置时默认为“CN”，当前仅支持“CN”
- recognizerMode：识别模式，包含短语音short与场语音long
  回调中可以查看错误信息：

无法创建引擎时返回错误码1002200001，原因：语种不支持、模式不支持、初始化超时、资源不存在等导致创建引擎失败
无法创建引擎时返回错误码1002200006，原因：引擎正在忙碌中，一般多个应用同时调用语音识别引擎时触发
无法创建引擎时返回错误码1002200008，原因：引擎正在销毁中

2、设置RecognitionListener回调

回调主要处理识别过程中的事件，最主要的就是onResult处理识别内容，不同的对话对应不同的sessionId：

// 创建回调对象
let setListener: speechRecognizer.RecognitionListener = {// 开始识别成功回调onStart(sessionId: string, eventMessage: string) {},// 事件回调onEvent(sessionId: string, eventCode: number, eventMessage: string) {},// 识别结果回调，包括中间结果和最终结果onResult(sessionId: string, result: speechRecognizer.SpeechRecognitionResult) {},// 识别完成回调onComplete(sessionId: string, eventMessage: string) {},// 错误回调，错误码通过本方法返回,如：返回错误码1002200006，识别引擎正忙，引擎正在识别中onError(sessionId: string, errorCode: number, errorMessage: string) {}
}
// 设置回调
asrEngine.setListener(setListener);

3、开始识别

let audioParam: speechRecognizer.AudioInfo = {audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16};
let extraParam: Record<string, Object> = {"vadBegin": 2000, "vadEnd": 3000, "maxAudioDuration": 40000};
let recognizerParams: speechRecognizer.StartParams = {sessionId: sessionId,audioInfo: audioParam,extraParams: extraParam
};
// 调用开始识别方法
asrEngine.startListening(recognizerParams);

主要是设置开始识别的相关参数：

sessionId：会话id，与onResult回调中的sessionId要对应
audioInfo：音频配置信息，可选
- audioType：目前只支持PCM，如果要识别MP3文件等需要解码后再传给引擎
- sampleRate：音频的采样率，当前仅支持16000采样率
- sampleBit：音频返回的采样位数，当前仅支持16位
- soundChannel：音频返回的通道数信息，当前仅支持通道1
- extraParams：音频的压缩率，pcm格式音频默认为0
extraParams：额外配置信息，主要包含：
- recognitionMode：实时语音识别模式（不传时默认为1）
  - 0：实时录音识别（需应用开启录音权限：ohos.permission.MICROPHONE），若需结束录音，则调用finish方法
  - 1：实时音频转文字识别，开启此模式时需要额外调用writeAudio方法，传入待识别音频流；
- vadBegin：Voice Activity Detection(VAD)前端点设置，参数范围是[500,10000]，不传参时默认为10000ms
- vadEnd：Voice Activity Detection(VAD)后端点设置。参数范围是[500,10000]，不传参时默认为800ms。
- maxAudioDuration：最大支持音频时长
  - 短语音模式支持范围[20000-60000]ms，不传参时默认20000ms。
  - 长语音模式支持范围[20000 - 8 * 60 * 60 * 1000]ms。
    VAD作用主要是语音活动检测，对静音数据不进行识别

4、传入音频流

asrEngine.writeAudio(sessionId, uint8Array);

向引擎写入音频数据，可以从麦克风或者音频文件中读取音频流。
注意：音频流长度仅支持640或1280。

5、其他接口

listLanguages：查询语音识别服务支持的语种信息
finish：结束识别
取消识别：cancel
shutdown：释放识别引起资源

最佳实践

实时识别的场景需要从麦克风实时读取音频，写入到asrEngine，在onResult回调中获取识别结果。
配置音频采集参数并创建AudioCapturer实例：

 import { audio } from '@kit.AudioKit';let audioStreamInfo: audio.AudioStreamInfo = {samplingRate: audio.AudioSamplingRate.SAMPLE_RATE_16000, // 采样率channels: audio.AudioChannel.CHANNEL_1, // 通道sampleFormat: audio.AudioSampleFormat.SAMPLE_FORMAT_S16LE, // 采样格式encodingType: audio.AudioEncodingType.ENCODING_TYPE_RAW // 编码格式};let audioCapturerInfo: audio.AudioCapturerInfo = {source: audio.SourceType.SOURCE_TYPE_MIC,capturerFlags: 0};let audioCapturerOptions: audio.AudioCapturerOptions = {streamInfo: audioStreamInfo,capturerInfo: audioCapturerInfo};audio.createAudioCapturer(audioCapturerOptions, (err, data) => {if (err) {console.error(`Invoke createAudioCapturer failed, code is ${err.code}, message is ${err.message}`);} else {console.info('Invoke createAudioCapturer succeeded.');let audioCapturer = data;}});

这里注意采样率和声道以及采样位数要符合ASR引擎要求：16k采样、单声道、16位采样位数。
接着调用on(‘readData’)方法，订阅监听音频数据读入回调：

 import { BusinessError } from '@kit.BasicServicesKit';import { fileIo } from '@kit.CoreFileKit';let bufferSize: number = 0;class Options {offset?: number;length?: number;}let readDataCallback = (buffer: ArrayBuffer) => {//将buffer写入asr引擎asrEngine.writeAudio(sessionId, new Uint8Array(buffer));}audioCapturer.on('readData', readDataCallback);

这里注意写入buffer的大小显示，ASR只支持640或1280。

总结

本文介绍了 HarmonyOS 官方提供的语音识别能力，详解介绍了ASR引擎接口，最后基于麦克风采集数据实现了实时麦克风语音识别功能。

HarmonyOS 原生智能之语音识别实战

HarmonyOS 原生智能之语音识别实战背景公司很多业务场景使用到了语音识别功能，当时我们的语音团队自研了语音识别模型，方案是云端模型加端侧SDK交互，端侧负责做语音采集、VAD、opus编码，实时传输给云端，云端识别后…...

编程日记 2024/8/3 13:46:51

基于Gromacs的蛋白质与小分子配体相互作用模拟教程

在生命科学的广阔领域中，蛋白质与小分子配体之间的相互作用扮演着至关重要的角色。这些相互作用不仅影响着生物体内的各种生命活动，如信号传导、代谢调控和药物作用等，同时也是药物设计和开发的核心内容。因此，深入理解并模拟这些…...

编程日记 2024/8/3 13:45:50

Ubuntu下python3.12安装, 分布式 LLM 推理 exo 安装调试过程, 运行自己的 AI 集群

创作不易只因热爱!! 热衷分享，一起成长! “你的鼓励就是我努力付出的动力” —调试有点废,文章有点长,希望大家用心看完,肯定能学废,感谢. 1. Ubuntu下python3.12安装 1.1 导入 Python 的稳定版 PPA,不用编译 sudo add-apt-repository ppa:deadsnakes/ppa sudo…...

编程日记 2024/8/3 13:44:49

pytest-bdd 行为驱动自动化测试

引言 pytest-bdd 是一个专为Python设计的行为驱动开发（BDD）测试框架，它允许开发人员使用自然语言（如Gherkin）来编写测试用例，从而使测试用例更易于理解和维护。安装通过pip安装 pip install pytest-b…...

编程日记 2024/8/3 13:43:48

PostgreSQL11 | 触发器

本文章代码已在pgsql11.22版本上运行且通过，展示页由pgAdmin8.4版本提供上一篇总结了原著的第十章有关pgsql的视图的用法，本篇将总结pgsql的触发器的用法。触发器使用触发器可以自动化完成一些在插入数据或修改数据时，某些需要同期同步的…...

编程日记 2024/8/3 13:42:47

cesium canvas广告牌

在有些业务中，对场景中的广告牌样式要求比较高，需要动态显示一些数据，这个时候，我们可以通过将复杂背景样式制作成图片，通过canvas绘制图片和动态数据，从而达到比较好的显示效果。 1 CanvasMarker 类封装 …...

编程日记 2024/8/3 13:41:46

使用Floyd算法求解两点间最短距离

Floyd算法 Floyd算法又称为Floyd-Warshell算法，其实Warshell算法是离散数学中求传递闭包的算法，两者的思想是一致的。Floyd算法是求解多源最短路时通常选用的算法，经过一次算法即可求出任意两点之间的最短距离，并且可以处理有负权…...

编程日记 2024/8/3 13:39:44

linux“how_paras.sh“ E212: 无法打开并写入文件

经过一番测试和查找， [6localhost bin]$ find / -name "hello.sh" 2>/dev/null /home/6/bin/hello.sh [6localhost bin]$ ls hello.sh ls: 无法访问hello.sh: 没有那个文件或目录，为什么在/bin文件下却不能打开， [6localhost …...

编程日记 2024/8/3 13:38:43

CSS mask-image 实现边缘淡出过渡效果

使用场景在生产环境中，遇到一个需求，需要在一个深色风格的大屏页面中，嵌入 Google Maps。为了减少违和感，希望地图四边能够淡出过渡。这里的“淡出过渡”，关键是淡出，而非降低透明度。基于 Google Ma…...

编程日记 2024/8/3 13:37:42

电子元器件—电容和电感（一篇文章搞懂电路中的电容和电感）（笔记）（面试考试必备知识点）电容和电感作用、用途、使用、注意事项、特点等（面试必备）-笔记（详解）

作者：Whappy 座右铭：不曾拥有，何来失去！ 时间：2024年8月2日08:40:04 一、电容的作用储能： 电容器通过充电储存电荷在电容板上，形成电场储存电能。当需要释放储存的电能时，电荷…...

编程日记 2024/8/3 13:36:42

2024HDU Contest 5 Problem 5

题目链接从大到小枚举gcd的值 d d d，以及编号为 d d d的倍数的点， [ d , 2 d , 3 d , … ] [d,2d,3d,\dots] [d,2d,3d,…]。然后对于任何一条边 ( x , y ) (x,y) (x,y)，如果 x x x的子树和 y y y的子树里都有编号为 d d d倍数的点&#xf…...

编程日记 2024/8/3 13:35:40

nGQL入门

引言 nGQL（NebulaGraph Query Language）是用于操作 NebulaGraph 的查询语言。它的语法类似于 Cypher，但有自己独特的特性。以下是一些 nGQL 的基本语法和操作示例，以帮助你入门。基本概念节点（Vertex）…...

编程日记 2024/8/3 13:34:39

[CP_AUTOSAR]_系统服务_DEM模块（二）功能规范介绍

目录 1、DEM 功能规范描述1.1、Startup behavior1.2、Monitor re-initialization 在前面《[CP_AUTOSAR]_系统服务_DEM模块（一）》文中，简要介绍了 DEM 模块的功能、与其它模块之间的功能交互，本文将接着介绍 DEM 模块的功能规范。…...

编程日记 2024/8/3 13:33:38

Linux中yum、rpm、apt-get、wget的区别，yum、rpm、apt-get常用命令，CentOS、Ubuntu中安装wget

文章目录一、常见Linux发行版本二、Linux中yum、rpm、apt-get、wget的区别2.1 yum2.2 rpm2.3 apt-get2.4 wget2.5 总结三、CentOS中yum的作用3.1 yum清空缓存列表3.2 yum显示信息3.3 yum搜索、查看3.4 yum安装3.5 yum删除、卸载程序3.6 yum包的升级、降级四、Ubuntu中apt-ge…...

编程日记 2024/8/3 13:32:36

IPython的使用技巧2

关注我，持续分享逻辑思维&管理思维&面试题； 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导； 推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的…...

编程日记 2024/8/3 13:31:35

win10打开程序闪退的解决方法,亲测好用

当我们在使用win10系统的时候，可能会遇到安装某些程序后无法正常使用，一打开就闪退，或者点击右下角图标就消失了，而其他程序却可以正常打开使用。下面小编就来和大家分享亲测好用的win10打开程序闪退的解决办法。问题原因分析&a…...

编程日记 2024/8/3 13:30:34

木舟0基础学习Java的第二十一天(数据库,MySQL,SQLyog)

数据库数据库：按照数据结构来组织存储数据的厂库数据管理系统(Database Management System,DBMS)：一套操作和管理数据库的软件用于简历使用维护数据库关系型数据库：采用关系模型作为数据组织方式逻辑结构是一张二维表由行和列组成…...

编程日记 2024/8/3 13:29:33

python-鼠标绘画线条程序

闲来无聊简单编写了一个绘图小程序。主要思路主要是基于Python中的内置模块turtle编写的，简单扩展了一下，通过绑定事件能够达到鼠标绘制、删除、存储已经绘制图案的线条这几个功能。路径结构 -draw- define.py- main.py- myturtle.py使用点住鼠…...

编程日记 2024/8/3 13:28:31

【Python实战】如何优雅地实现 PDF 去水印？

话接上篇，自动化处理 PDF 文档，完美实现 WPS 会员功能小伙伴们更关心的是如何去除 PDF 中的水印~ 今天，就来分享一个超简单的 PDF 去水印方法~ 1. 原理介绍在上一篇中，我们介绍了如何将 PDF 文档转换成图片，图片…...

编程日记 2024/8/3 13:25:29

Keysight(原Agilent) E4980AL 精密 LCR 表特性与技术指标

Keysight(原Agilent) E4980AL 精密 LCR 表为基础 LCR 表树立了行业标准，可在多个频率范围内提供更佳的精度、速度和通用性。E4980AL 结合了种类繁多的附件，适用于一般研发和生产环境中的各种元件和材料测量。也可通过频率升级而提升投资回报率。 Keysig…...

编程日记 2024/8/3 13:24:28

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中，时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志，到供应链系统的物流节点时间戳，时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库，其日期时间类型的…...

编程新知 2025/10/16 13:22:06

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/1/24 14:59:08

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成，核心是利用 HTTP 协议的 Range 请求头指定下载范围： 实现原理 Range 请求头：向服务器请求文件的特定字节范围（如 Range: bytes1024-） 本地文件记录：保存已…...

编程新知 2025/12/12 0:56:22

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2026/2/1 7:31:51

Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包： for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

编程新知 2026/2/4 16:23:56