当前位置：首页 > news >正文

对接阿里asr和Azure asr

news 2026/2/8 18:11:32

1：对接阿里asr

1.1：pom

<dependency><groupId>com.alibaba.nls</groupId><artifactId>nls-sdk-recognizer</artifactId><version>2.2.1</version>
</dependency>

1.2：生成token

package com.dahuyou.ali.asr.generatetoken;import com.alibaba.nls.client.AccessToken;import java.io.IOException;/*** 生成token* program argument参数配置："LTAI5tNg9N*****R28Zazv" "bAgAvjZwc5HVr******ADEAa"** Token: 6599217b19214759*****42ddf0f8016, expire time: 1726774011*/
public class GenerateToken {public static void main(String[] args) {if (args.length < 2) {System.err.println("CreateTokenDemo need params: <accessKeyId> <accessKeySecret>");System.exit(-1);}String accessKeyId = args[0];String accessKeySecret = args[1];System.out.println("accessKeyId="+accessKeyId+"; accessKeySecret="+accessKeySecret);AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);try {accessToken.apply();System.out.println("Token: " + accessToken.getToken() + ", expire time: " + accessToken.getExpireTime());} catch (IOException e) {e.printStackTrace();}}
}

其中accessKeyId和accessKeySecret通过阿里云后台获取：
在这里插入图片描述

1.3：在线asr

package com.dahuyou.ali.asr;import java.io.File;
import java.io.FileInputStream;import com.alibaba.nls.client.protocol.InputFormatEnum;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizer;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerListener;
import com.alibaba.nls.client.protocol.asr.SpeechRecognizerResponse;import org.slf4j.Logger;
import org.slf4j.LoggerFactory;/*** 此示例演示了*      ASR一句话识别API调用*      通过本地文件模拟实时流发送*      识别耗时计算* (仅作演示，需用户根据实际情况实现)*/
public class SpeechRecognizerDemo {private static final Logger logger = LoggerFactory.getLogger(SpeechRecognizerDemo.class);private String appKey;NlsClient client;public SpeechRecognizerDemo(String appKey, String token, String url) {this.appKey = appKey;//TODO 重要提示 创建NlsClient实例,应用全局创建一个即可,生命周期可和整个应用保持一致,默认服务地址为阿里云线上服务地址if(url.isEmpty()) {client = new NlsClient(token);}else {client = new NlsClient(url, token);}}// 传入自定义参数private static SpeechRecognizerListener getRecognizerListener(int myOrder, String userParam) {SpeechRecognizerListener listener = new SpeechRecognizerListener() {//识别出中间结果.服务端识别出一个字或词时会返回此消息.仅当setEnableIntermediateResult(true)时,才会有此类消息返回@Overridepublic void onRecognitionResultChanged(SpeechRecognizerResponse response) {//事件名称 RecognitionResultChanged、 状态码(20000000 表示识别成功)、语音识别文本System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());}//识别完毕@Overridepublic void onRecognitionCompleted(SpeechRecognizerResponse response) {//事件名称 RecognitionCompleted, 状态码 20000000 表示识别成功, getRecognizedText是识别结果文本System.out.println("name: " + response.getName() + ", status: " + response.getStatus() + ", result: " + response.getRecognizedText());}@Overridepublic void onStarted(SpeechRecognizerResponse response) {System.out.println("myOrder: " + myOrder + "; myParam: " + userParam + "; task_id: " + response.getTaskId());}@Overridepublic void onFail(SpeechRecognizerResponse response) {// TODO 重要提示： task_id很重要，是调用方和服务端通信的唯一ID标识，当遇到问题时，需要提供此task_id以便排查System.out.println("task_id: " + response.getTaskId() + ", status: " + response.getStatus() + ", status_text: " + response.getStatusText());}};return listener;}/// 根据二进制数据大小计算对应的同等语音长度/// sampleRate 仅支持8000或16000public static int getSleepDelta(int dataSize, int sampleRate) {// 仅支持16位采样int sampleBytes = 16;// 仅支持单通道int soundChannel = 1;return (dataSize * 10 * 8000) / (160 * sampleRate);}public void process(String filepath, int sampleRate) {SpeechRecognizer recognizer = null;try {// 传递用户自定义参数String myParam = "user-param";int myOrder = 1234;SpeechRecognizerListener listener = getRecognizerListener(myOrder, myParam);recognizer = new SpeechRecognizer(client, listener);recognizer.setAppKey(appKey);//设置音频编码格式 TODO 如果是opus文件，请设置为 InputFormatEnum.OPUSrecognizer.setFormat(InputFormatEnum.PCM);//设置音频采样率if(sampleRate == 16000) {recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);} else if(sampleRate == 8000) {recognizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_8K);}//设置是否返回中间识别结果recognizer.setEnableIntermediateResult(true);//此方法将以上参数设置序列化为json发送给服务端,并等待服务端确认long now = System.currentTimeMillis();recognizer.start();logger.info("ASR start latency : " + (System.currentTimeMillis() - now) + " ms");File file = new File(filepath);FileInputStream fis = new FileInputStream(file);byte[] b = new byte[3200];int len;while ((len = fis.read(b)) > 0) {logger.info("send data pack length: " + len);recognizer.send(b, len);// TODO  重要提示：这里是用读取本地文件的形式模拟实时获取语音流并发送的，因为read很快，所以这里需要sleep// TODO  如果是真正的实时获取语音，则无需sleep, 如果是8k采样率语音，第二个参数改为8000// 8000采样率情况下，3200byte字节建议 sleep 200ms，16000采样率情况下，3200byte字节建议 sleep 100msint deltaSleep = getSleepDelta(len, sampleRate);Thread.sleep(deltaSleep);}//通知服务端语音数据发送完毕,等待服务端处理完成now = System.currentTimeMillis();// TODO 计算实际延迟: stop返回之后一般即是识别结果返回时间logger.info("ASR wait for complete");recognizer.stop();logger.info("ASR stop latency : " + (System.currentTimeMillis() - now) + " ms");fis.close();} catch (Exception e) {System.err.println(e.getMessage());} finally {//关闭连接if (null != recognizer) {recognizer.close();}}}public void shutdown() {client.shutdown();}// "e6hRW********ho" "659*************42ddf0f8016" "wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1"public static void main(String[] args) throws Exception {String appKey = "你的appkey，在asr应用列表获取";String token = "你的token，上一步生成的，也支持在asr后台获取临时的";String url = ""; // 默认即可，默认值：wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1if (args.length == 2) {appKey   = args[0];token       = args[1];} else if (args.length == 3) {appKey   = args[0];token       = args[1];url      = args[2];} else {System.err.println("run error, need params(url is optional): " + "<app-key> <token> [url]");System.exit(-1);}SpeechRecognizerDemo demo = new SpeechRecognizerDemo(appKey, token, url);// TODO 重要提示： 这里用一个本地文件来模拟发送实时流数据，实际使用时，用户可以从某处实时采集或接收语音流并发送到ASR服务端demo.process("./nls-sample-16k.wav", 16000);//demo.process("./nls-sample.opus", 16000);demo.shutdown();}
}

运行：
在这里插入图片描述
nls-sample-16k.wav 。

2：对接azure asr

2.1：pom

<dependency><groupId>com.microsoft.cognitiveservices.speech</groupId><artifactId>client-sdk</artifactId><version>1.40.0</version>
</dependency>

2.2：在线asr

package com.dahuyou.azure.asr.A;import com.microsoft.cognitiveservices.speech.CancellationReason;
import com.microsoft.cognitiveservices.speech.ResultReason;
import com.microsoft.cognitiveservices.speech.SpeechConfig;
import com.microsoft.cognitiveservices.speech.SpeechRecognizer;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
import com.microsoft.cognitiveservices.speech.audio.PushAudioInputStream;import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;public class AzureSpeechRecognition {  public static void main(String[] args) {  try {  // 替换为你的订阅密钥和区域  String speechSubscriptionKey = "你的订阅密钥";String region = "你的区域";SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechSubscriptionKey, region);// 设置中文speechConfig.setSpeechRecognitionLanguage("zh-CN");
//            PushAudioInputStream pushAudioInputStream = new PushAudioInputStream();PushAudioInputStream pushAudioInputStream = PushAudioInputStream.create();// 使用默认麦克风  
//            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();// Recognized: 北京的天气。
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\xiaofuge_sourcecode\\interview-master\\aliasr\\nls-sample-16k.wav");
//            AudioConfig audioConfig = AudioConfig.fromWavFileInput("D:\\test\\ttsmaker-file-2024-9-19-17-35-30.wav");AudioConfig audioConfig = AudioConfig.fromStreamInput(pushAudioInputStream);// 假设你有一个方法可以从网络接收音频流
//            InputStream audioStream = receiveAudioStreamFromNetwork();
//
//            // 准备AudioConfig（这里需要你自己实现转换逻辑）
//            AudioConfig audioConfig = prepareAudioConfig(audioStream);SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioConfig);  // 订阅事件  recognizer.recognized.addEventListener((s, e) -> {  if (e.getResult().getReason() == ResultReason.RecognizedSpeech) {System.out.println("Recognized: " + e.getResult().getText());  }  });recognizer.recognizing.addEventListener((s, e) -> {if (e.getResult().getReason() == ResultReason.RecognizingSpeech) {System.out.println("RecognizingSpeech: " + e.getResult().getText());}});recognizer.canceled.addEventListener((s, e) -> {  System.out.println("Canceled " + e.getReason());  if (e.getReason() == CancellationReason.Error) {System.out.println("Error details: " + e.getErrorDetails());  }  });  // 开始识别  recognizer.startContinuousRecognitionAsync().get();String filepath = "d:\\test\\ttsmaker-file-2024-9-19-18-51-21.wav";File file = new File(filepath);FileInputStream fis = new FileInputStream(file);byte[] b = new byte[3200];int len;while ((len = fis.read(b)) > 0) {
//                recognizer.send(b, len);byte[] usedByte = new byte[len];if (len < 3200) {System.arraycopy(b, 0, usedByte, 0, len);} else {usedByte = b;}System.out.println(" usedByte send data pack length: " + usedByte.length);//                pushAudioInputStream.write(b);pushAudioInputStream.write(usedByte);// TODO  重要提示：这里是用读取本地文件的形式模拟实时获取语音流并发送的，因为read很快，所以这里需要sleep// TODO  如果是真正的实时获取语音，则无需sleep, 如果是8k采样率语音，第二个参数改为8000// 8000采样率情况下，3200byte字节建议 sleep 200ms，16000采样率情况下，3200byte字节建议 sleep 100ms
//                int deltaSleep = getSleepDelta(len, sampleRate);int deltaSleep = 200;Thread.sleep(deltaSleep);usedByte = null;}pushAudioInputStream.close();// 保持程序运行，等待用户输入或其他方式停止  System.in.read();  // 停止识别  recognizer.stopContinuousRecognitionAsync().get();  } catch (Exception ex) {  ex.printStackTrace();  }  }//    // 假设你有一个方法来接收网络上的音频流（这里用伪代码表示）
//    static InputStream receiveAudioStreamFromNetwork() {
//        // 使用HTTP、WebSocket等接收音频流
//        // 这里返回一个InputStream，但实际上你可能需要更复杂的处理
//        return new InputStream() {
//            // 实现InputStream的read等方法来从网络读取数据
//        };
//    }//    // 将InputStream转换为Azure Speech SDK可以处理的格式（这里简化为直接返回）
 在实际中，你可能需要将其写入WAV文件或使用内存中的流
//    static AudioConfig prepareAudioConfig(InputStream inputStream) {
//        // 注意：Azure Speech SDK的Java版本通常不直接从InputStream读取
//        // 你可能需要将inputStream写入到WAV文件，并使用AudioConfig.fromWavFileInput
//        // 但这里我们假设有一个方法可以直接处理
//        // return AudioConfig.fromCustomStream(inputStream); // 这是一个假设的方法
//        return null; // 实际上你需要实现这个转换
//    }}

运行：

RecognizingSpeech: 你好啊我usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200usedByte send data pack length: 3200
RecognizingSpeech: 你好啊我是张三usedByte send data pack length: 2894
Recognized: 你好啊，我是张三。
Recognized: 
Canceled EndOfStream

ttsmaker-file-2024-9-19-18-51-21.wav 。

写在后面

参考文章列表

Java SDK 。

azure 。

在线配音工具。

对接阿里asr和Azure asr

1：对接阿里asr 1.1：pom <dependency><groupId>com.alibaba.nls</groupId><artifactId>nls-sdk-recognizer</artifactId><version>2.2.1</version> </dependency>1.2：生成token package c…...

编程日记 2024/9/27 5:53:52

未来数字世界相关技术、应用：AR/VR/MR；数字人、元宇宙、全息显示

一、AR/VR/MR 增强现实（AR）、虚拟现实（VR）和混合现实（MR）是三种不同的技术，它们都旨在增强用户对现实世界的感知和交互体验。以下是它们的详细介绍：增强现实（AR）增强现实（Augmented Reality, AR）是一种将虚拟信息叠加到现实世界中的技术。通过AR技术，用户可…...

编程日记 2024/9/27 5:52:51

在 Java 中提供接口方法而不是实现接口

问题我正在阅读有关Java中的接口的文章。其中提到我们必须实现compareTo方法才能在ArrayList容器上调用sort，例如Employee类应该实现 Comparable接口。后面解释了为什么Employee类不能简单地提供compareTo方法而不实现Comparable接口？之所以需要接口…...

编程日记 2024/9/27 5:51:50

伪类选择器

一、基本概念伪类选择器以冒号（:）开头，后面跟着伪类名。它不直接对应DOM中的任何元素，而是用于描述元素的特殊状态或位置。通过使用伪类选择器，可以在不修改HTML文档结构的情况下，为元素添加或修改样式。…...

编程日记 2024/9/27 5:49:48

亚信安全天穹5分钟勒索体检免费试用今起上线

对于勒索攻击的认知你是否还停留在“2.0时代”？ 勒索攻击无疑是企业面临的最大威胁，2024年上半年，勒索组织数量同步增长超过50%，勒索攻击数量也持续攀升，平均勒索赎金突破520万美元。当前，勒索攻击治理…...

编程日记 2024/9/27 5:48:47

高校竞赛管理系统的设计与实现

摘要如今社会上各行各业，都喜欢用自己行业的专属软件工作，互联网发展到这个时候，人们已经发现离不开了互联网。新技术的产生，往往能解决一些老技术的弊端问题。因为传统高校竞赛管理系统信息管理难度大，容错率低&am…...

编程日记 2024/9/27 5:45:43

物联网行业中通信断线重连现象介绍以及如何实现

01 概述断线重连是指在计算机网络中，当网络连接遇到异常中断或者断开时，系统会自动尝试重新建立连接，以保证网络通信的连续性和稳定性。这是一种常见的网络通信技术，广泛应用于各种计算机网络场景，包括互联网、局域…...

编程日记 2024/9/27 5:41:39

新手上路：Anaconda虚拟环境创建和配置以使用PyTorch和DGL

文章目录前言步骤 1: 安装 Anaconda步骤 2: 创建新的 Anaconda 环境步骤 3: 安装最新版本的 PyTorch步骤 4: 安装特定版本的 PyTorch步骤 5: 安装最新版本的 DGL步骤 6: 安装特定版本的 DGL步骤 7: Pycharm中使用虚拟环境解释器第一种情况：创建新项目第二种情况&am…...

编程日记 2024/9/27 5:40:38

1、开始安装适用系统 Centos/OpenCloud/Alibaba 稳定版9.0.0 urlhttps://download.bt.cn/install/install_lts.sh;if [ -f /usr/bin/curl ];then curl -sSO $url;else wget -O install_lts.sh $url;fi;bash install_lts.sh ed8484bec等待命令执行，安装完成&#…...

编程日记 2024/9/27 5:39:37

汽车总线之----J1939总线

instruction SAE J1939 是由美国汽车工程协会制定的一种总线通信协议标准，广泛应用于商用车，船舶，农林机械领域中，J1939协议是基于CAN的高层协议，我们来看一下两者之间的关系。在J1939 中，物理层和数据链路…...

编程日记 2024/9/27 5:38:36

基于skopt的贝叶斯优化基础实例学习实践

贝叶斯方法是非常基础且重要的方法，在前文中断断续续也有所介绍，感兴趣的话可以自行移步阅读即可： 《数学之美番外篇：平凡而又神奇的贝叶斯方法》《贝叶斯深度学习——基于PyMC3的变分推理》《模型优化调参利器贝叶斯优化bay…...

编程日记 2024/9/27 5:37:35

OJ在线评测系统后端用策略模式优化判题机架构

判题机架构优化(策略模式) 思考我们的判题策略可能会有很多种比如我们的代码沙箱本身执行程序需要消耗时间这个时间可能不同的编程语言是不同的比如沙箱执行Java要额外花费2秒我们可以采用策略模式针对不同的情况定义不同独立的策略而不是把所有情况全部放在一个i…...

编程日记 2024/9/27 5:36:34

element ui 精确控制日期控件 date-picker

https://github.com/element-plus/element-plus/discussions/17378 -- 某组件 xxx.vue ... <el-date-pickerv-model"timeRange"type"daterange"range-separator"-"start-placeholder"开始日期"end-placeholder"结束日期"…...

编程日记 2024/9/27 5:35:33

centos7安装指定版本php及扩展

安装EPEL仓库（如果尚未安装） sudo yum install epel-release导入REMI仓库的公钥： sudo rpm --import http://rpms.remirepo.net/RPM-GPG-KEY-remi启用REMI仓库（你可以选择PHP 7.0或者7.4，以下以7.0为例）&am…...

编程日记 2024/9/27 5:34:32

后端-对表格数据进行添加、删除和修改

一、添加要求： 按下添加按钮出现一个板块输入添加的数据信息，点击板块的添加按钮，添加；点击取消，板块消失。实现： 1.首先，设计页面输入框格式，表格首行 2.从数据库里调数据 3.添加…...

编程日记 2024/9/27 5:33:24

【学习笔记】手写 Tomcat 七

目录一、优化 Dao 1. 设置 UserDaoImpl 为单例模式 2. 创建 Dao 工厂 3. 在 Service 层获取 UserDao 的实例二、优化 Service 1. 设置 UserServiceImpl 为单例模式 2. 创建 Service 工厂 3. 在 Servlet 层获取 Service 实现类的对象三、优化 Servlet 1. 使用配置…...

编程日记 2024/9/27 5:32:23

QT开发：详解 Qt 多线程编程核心类 QThread：基本概念与使用方法

1. 引言在现代应用程序开发中，多线程编程是一个关键技术，能够显著提高程序的效率和响应速度。Qt 是一个跨平台的 C 框架，其中 QThread 类是实现多线程编程的核心类。本文将深入详解 QThread 的基本概念、使用方法及其在实际应用中的重要性。…...

编程日记 2024/9/27 5:31:22

【芋道源码】gitee很火的开源项目pig——后台管理快速开发框架使用笔记（微服务版之本地开发环境篇）

后台管理快速开发框架使用笔记（微服务版之本地开发环境篇） 后台管理快速开发框架使用笔记（微服务版之本地开发环境篇） 后台管理快速开发框架使用笔记（微服务版之本地开发环境篇）前言一、如何获取项目&#…...

编程日记 2024/9/27 5:30:20

设计模式、系统设计 record part01

技术路线： 工程师》设计师》分析师》架构师管理路线： 项目经理》技术经理工程师： 编程技术、测试技术设计师： 工程师设计技术分析师： 设计师分析技术架构师： 分析师架构技术项目经理： 时间…...

编程日记 2024/9/27 5:29:19

服务器与普通电脑的区别是什么？

服务器作为企业进行线上业务所使用的网络设备，大多数的用户对于服务器都有一定的了解，而普通的电脑则是人们在进行日常娱乐活动中经常会用到的设备，本文就来探讨一下服务器与普通电脑之间的区别是什么吧！ 普通的电脑就是我们通常所…...

编程日记 2024/9/27 5:28:15

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2026/2/8 6:37:39

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/9/10 5:36:56

练习（含atoi的模拟实现,自定义类型等练习）

一、结构体大小的计算及位段 （结构体大小计算及位段详解请看：自定义类型：结构体进阶-CSDN博客） 1.在32位系统环境，编译选项为4字节对齐，那么sizeof(A)和sizeof(B)是多少？ #pragma pack(4)st…...

编程新知 2026/1/30 15:16:30

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架，支持"一次开发，多端部署"，可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务，为旅游应用带来&#xf…...

编程新知 2026/2/5 20:33:43

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2026/2/1 7:31:51

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

升级Dledger高可用集群一、主从架构的不足与Dledger的定位主从架构缺陷数据备份依赖Slave节点，但无自动故障转移能力，Master宕机后需人工切换，期间消息可能无法读取。Slave仅存储数据，无法主动升级为Master响应请求&#xff…...

编程新知 2025/9/2 3:37:40

k8s业务程序联调工具-KtConnect

概述原理工具作用是建立了一个从本地到集群的单向VPN，根据VPN原理，打通两个内网必然需要借助一个公共中继节点，ktconnect工具巧妙的利用k8s原生的portforward能力，简化了建立连接的过程，apiserver间接起到了中继节…...

编程新知 2026/2/1 4:14:14

GruntJS-前端自动化任务运行器从入门到实战

Grunt 完全指南：从入门到实战一、Grunt 是什么？ Grunt是一个基于 Node.js 的前端自动化任务运行器，主要用于自动化执行项目开发中重复性高的任务，例如文件压缩、代码编译、语法检查、单元测试、文件合并等。通过配置简洁的任务…...

编程新知 2026/1/25 11:52:39

代码规范和架构【立芯理论一】（2025.06.08）

1、代码规范的目标代码简洁精炼、美观，可持续性好高效率高复用，可移植性好高内聚，低耦合没有冗余规范性，代码有规可循，可以看出自己当时的思考过程特殊排版，特殊语法，特殊指令，必须…...

编程新知 2026/1/28 11:47:09

Vite中定义@软链接

在webpack中可以直接通过符号表示src路径，但是vite中默认不可以。如何实现： vite中提供了resolve.alias：通过别名在指向一个具体的路径在vite.config.js中 import { join } from pathexport default defineConfig({plugins: [vue()],//…...

编程新知 2026/1/24 13:26:57