当前位置：首页 > article >正文

FireRedASR-AED-L模型Node.js后端调用实战：构建高并发语音处理API

article 2026/4/4 8:50:39

FireRedASR-AED-L模型Node.js后端调用实战构建高并发语音处理API语音转文字的需求现在越来越普遍从会议记录到客服录音分析到处都能用上。如果你手头有一个像FireRedASR-AED-L这样强大的语音识别模型服务怎么把它集成到你的Node.js后端里让它能稳定、高效地处理大量请求呢今天咱们就来聊聊这个。我会带你走一遍完整的流程从零开始创建一个Node.js项目一步步实现调用语音识别API、处理音频文件再到应对高并发场景。整个过程就像搭积木咱们一块块来保证你能跟着做出来。1. 项目初始化与环境搭建万事开头难但咱们这个开头很简单。首先你得有个地方写代码并且把需要的工具准备好。1.1 创建项目与安装核心依赖打开你的终端找个舒服的目录执行下面这几条命令# 创建一个新的项目目录 mkdir fire-red-asr-api cd fire-red-asr-api # 初始化一个新的Node.js项目一路回车用默认配置就行 npm init -y # 安装我们需要的核心依赖包 npm install express axios multer npm install --save-dev nodemon我来解释一下这几个包是干什么的express: 这是Node.js里最流行的Web框架咱们用它来构建API接口。axios: 一个非常好用的HTTP客户端库用来向部署好的FireRedASR模型服务发送请求。multer: 中间件专门处理multipart/form-data格式的数据简单说就是帮我们接收用户上传的音频文件。nodemon: 开发工具它会监视文件变化并自动重启服务让你不用每次改代码都手动重启。1.2 创建基础项目结构接下来给项目一个清晰的结构。在项目根目录下创建这些文件和文件夹fire-red-asr-api/ ├── node_modules/ # 依赖包npm会自动创建 ├── src/ # 源代码目录 │ ├── controllers/ # 控制器处理业务逻辑 │ ├── routes/ # 路由定义API端点 │ ├── utils/ # 工具函数 │ └── app.js # 应用主入口文件 ├── uploads/ # 临时存放上传的音频文件 ├── .gitignore # 忽略文件配置 ├── package.json # 项目配置和依赖 └── README.md # 项目说明你可以用命令行逐个创建也可以在编辑器里直接新建。重点是src和uploads这两个目录。1.3 编写应用入口文件现在我们来创建最核心的src/app.js文件。这是整个后端服务的启动点。// src/app.js const express require(express); const path require(path); // 导入我们即将创建的路由 const asrRoutes require(./routes/asrRoutes); const app express(); const PORT process.env.PORT || 3000; // 中间件解析JSON格式的请求体 app.use(express.json()); // 中间件解析URL编码格式的请求体来自表单提交 app.use(express.urlencoded({ extended: true })); // 静态文件服务可以直接访问uploads目录下的文件仅用于开发调试 app.use(/uploads, express.static(path.join(__dirname, ../uploads))); // 注册语音识别相关路由所有相关API都会以 /api/asr 开头 app.use(/api/asr, asrRoutes); // 基础健康检查端点 app.get(/health, (req, res) { res.json({ status: OK, message: ASR API服务运行正常 }); }); // 启动服务器 app.listen(PORT, () { console.log( 语音识别API服务已启动监听端口: ${PORT}); console.log( 健康检查地址: http://localhost:${PORT}/health); console.log( 语音识别接口: http://localhost:${PORT}/api/asr/transcribe); }); module.exports app;代码写好了怎么运行呢打开package.json文件找到scripts部分修改成下面这样{ scripts: { start: node src/app.js, dev: nodemon src/app.js } }现在在终端里运行npm run dev你应该能看到服务成功启动的日志。打开浏览器访问http://localhost:3000/health会看到一个返回{“status”: “OK”}的JSON页面。好了地基打好了。接下来我们要去和真正的语音识别模型服务打交道了。2. 核心模型调用逻辑实现模型服务已经部署好了假设它的地址是http://your-asr-service:8000它提供了一个/v1/audio/transcriptions接口。我们的任务就是写代码去调用它。2.1 创建模型调用客户端首先在src/utils目录下创建一个asrClient.js文件。这里封装了所有与模型服务通信的细节。// src/utils/asrClient.js const axios require(axios); const FormData require(form-data); const fs require(fs); // 配置你的模型服务地址这里用环境变量更灵活安全 const ASR_SERVICE_BASE_URL process.env.ASR_SERVICE_URL || http://localhost:8000; // 创建一个配置好的axios实例方便统一管理请求设置 const asrApiClient axios.create({ baseURL: ASR_SERVICE_BASE_URL, timeout: 30000, // 30秒超时语音识别可能比较耗时 headers: { Accept: application/json, } }); /** * 调用FireRedASR模型进行语音转文字 * param {string} audioFilePath - 本地音频文件的路径 * param {Object} options - 可选参数如语言、模型类型等 * returns {PromiseObject} - 识别结果 */ async function transcribeAudio(audioFilePath, options {}) { try { // 1. 创建FormData对象模拟表单文件上传 const formData new FormData(); // 2. 添加音频文件 // 这里假设模型服务接收的字段名是 file const audioFileStream fs.createReadStream(audioFilePath); formData.append(file, audioFileStream, { filename: audio.wav, // 可以自定义文件名 contentType: audio/wav // 明确指定音频格式 }); // 3. 添加其他可选参数 // 根据你的模型服务API文档添加例如 if (options.language) { formData.append(language, options.language); } if (options.model) { formData.append(model, options.model); } // 4. 发送POST请求到模型服务 const response await asrApiClient.post(/v1/audio/transcriptions, formData, { headers: { ...formData.getHeaders(), // 这是关键设置正确的Content-Type }, }); // 5. 返回识别结果 // 假设服务返回格式为 { text: 识别出的文字, ... } return { success: true, data: response.data, status: response.status }; } catch (error) { // 详细的错误处理 console.error( 语音识别请求失败:, error.message); let errorMessage 语音识别服务暂时不可用; let statusCode 500; if (error.response) { // 请求已发出但服务返回了错误状态码 (4xx, 5xx) statusCode error.response.status; errorMessage 模型服务错误: ${statusCode}; console.error(服务响应数据:, error.response.data); } else if (error.request) { // 请求已发出但没有收到响应 errorMessage 无法连接到语音识别服务请检查网络或服务状态; console.error(无响应请求详情:, error.request); } else { // 在设置请求时发生了错误 errorMessage 请求配置错误: ${error.message}; } return { success: false, error: errorMessage, status: statusCode }; } } module.exports { transcribeAudio };这个客户端函数做了几件重要的事读取音频文件、组装请求、发送请求、处理响应和错误。把它单独抽出来后面的代码会清爽很多。2.2 处理音频上传与格式转换用户上传的可能是mp3,webm,m4a等各种格式但我们的模型服务可能只认wav或pcm。所以需要一个格式转换的步骤。我们先安装一个处理音频的库。这里用fluent-ffmpeg它功能强大但需要系统安装FFmpeg。你也可以选择其他纯JS的库如audio-decode。npm install fluent-ffmpeg然后在src/utils下创建audioProcessor.js。// src/utils/audioProcessor.js const ffmpeg require(fluent-ffmpeg); const fs require(fs).promises; const path require(path); const { v4: uuidv4 } require(uuid); // 需要安装uuid: npm install uuid /** * 将上传的音频文件转换为模型服务所需的格式如WAV * param {string} inputPath - 原始音频文件路径 * param {string} outputDir - 转换后文件的输出目录 * returns {Promise{success: boolean, outputPath: string, error: string}} */ async function convertAudioForASR(inputPath, outputDir ../uploads/processed) { // 确保输出目录存在 await fs.mkdir(outputDir, { recursive: true }); // 生成一个唯一的输出文件名 const outputFileName asr_ready_${uuidv4()}.wav; const outputPath path.join(outputDir, outputFileName); return new Promise((resolve, reject) { ffmpeg(inputPath) .output(outputPath) .audioCodec(pcm_s16le) // 转换为16位PCM WAV格式兼容性最好 .audioFrequency(16000) // 采样率设为16kHz这是很多ASR模型的常用配置 .audioChannels(1) // 单声道 .on(end, () { console.log(✅ 音频转换完成: ${outputPath}); resolve({ success: true, outputPath }); }) .on(error, (err) { console.error(❌ 音频转换失败: ${err.message}); resolve({ success: false, outputPath: null, error: 音频格式转换失败: ${err.message} }); }) .run(); }); } /** * 清理临时文件可选但建议做 * param {string} filePath - 要删除的文件路径 */ async function cleanupTempFile(filePath) { try { await fs.unlink(filePath); console.log( 已清理临时文件: ${filePath}); } catch (err) { console.warn(⚠️ 清理文件失败 ${filePath}:, err.message); } } module.exports { convertAudioForASR, cleanupTempFile };这个工具函数负责把用户上传的“五花八门”的音频统一转换成模型“爱吃”的WAV格式。转换失败时它也会妥善处理不会让整个服务崩溃。3. 构建API路由与控制器现在我们把客户端和处理器组合起来通过HTTP接口暴露给前端或其他服务调用。3.1 创建路由控制器在src/controllers目录下创建asrController.js。// src/controllers/asrController.js const { transcribeAudio } require(../utils/asrClient); const { convertAudioForASR, cleanupTempFile } require(../utils/audioProcessor); const path require(path); /** * 处理语音转录请求的主控制器函数 */ async function transcribeController(req, res) { // 1. 检查是否有文件上传 if (!req.file) { return res.status(400).json({ success: false, error: 请上传音频文件 }); } const originalAudioPath req.file.path; let convertedAudioPath null; console.log( 收到音频文件: ${originalAudioPath}); try { // 2. 音频格式转换如果需要 const conversionResult await convertAudioForASR(originalAudioPath); if (!conversionResult.success) { // 转换失败返回错误但依然尝试清理原文件 await cleanupTempFile(originalAudioPath); return res.status(400).json({ success: false, error: conversionResult.error }); } convertedAudioPath conversionResult.outputPath; // 3. 调用语音识别模型服务 // 可以从请求体中获取其他参数比如语言 const language req.body.language || zh; // 默认中文 const asrResult await transcribeAudio(convertedAudioPath, { language }); // 4. 处理模型服务返回的结果 if (!asrResult.success) { return res.status(asrResult.status || 500).json({ success: false, error: asrResult.error }); } // 5. 返回成功的识别结果 res.json({ success: true, data: { text: asrResult.data.text, // 假设模型返回结果中有text字段 fullResponse: asrResult.data // 也可以返回完整响应供调试 }, message: 语音识别成功 }); } catch (error) { // 捕获未预期的错误 console.error( 转录控制器发生未知错误:, error); res.status(500).json({ success: false, error: 服务器内部处理错误 }); } finally { // 6. 无论成功失败都尝试清理临时文件 try { await cleanupTempFile(originalAudioPath); if (convertedAudioPath) { await cleanupTempFile(convertedAudioPath); } } catch (cleanupError) { console.warn(清理临时文件时出错:, cleanupError.message); } } } module.exports { transcribeController };控制器就像餐厅的服务员它接收顾客HTTP请求的点单音频文件交给后厨模型服务处理最后把菜品识别结果端回去。这里的错误处理和文件清理finally块很重要能保证服务不会因为残留文件而越来越慢。3.2 配置上传中间件与路由接下来在src/routes目录下创建asrRoutes.js定义API的路由。// src/routes/asrRoutes.js const express require(express); const multer require(multer); const path require(path); const { transcribeController } require(../controllers/asrController); const router express.Router(); // 配置multer用于处理文件上传 const storage multer.diskStorage({ destination: function (req, file, cb) { // 文件临时存放在uploads目录 cb(null, path.join(__dirname, ../../uploads)); }, filename: function (req, file, cb) { // 生成一个唯一文件名防止冲突 const uniqueSuffix Date.now() - Math.round(Math.random() * 1E9); const ext path.extname(file.originalname) || .audio; cb(null, file.fieldname - uniqueSuffix ext); } }); // 文件过滤器只接受音频文件 const fileFilter (req, file, cb) { const allowedMimes [audio/mpeg, audio/wav, audio/webm, audio/ogg, audio/x-m4a]; if (allowedMimes.includes(file.mimetype)) { cb(null, true); } else { cb(new Error(不支持的文件类型请上传音频文件如MP3, WAV, WEBM), false); } }; // 创建multer上传中间件实例 const upload multer({ storage: storage, fileFilter: fileFilter, limits: { fileSize: 50 * 1024 * 1024 // 限制文件大小为50MB } }); // 定义语音转录API路由 // POST /api/asr/transcribe router.post(/transcribe, upload.single(audio), transcribeController); // 一个简单的测试路由用于验证服务是否正常 router.get(/test, (req, res) { res.json({ message: 语音识别API服务运行正常, endpoints: { transcribe: POST /api/asr/transcribe, test: GET /api/asr/test } }); }); module.exports router;这个路由文件做了两件事一是用multer配置了一个安全可靠的文件上传接口二是把上传请求和我们刚才写的控制器函数连接起来。4. 应对高并发实现请求队列如果一下子有几百个用户同时上传音频直接让所有请求都去调用模型服务可能会把服务打垮或者导致请求超时。这时候就需要一个“排队”机制。4.1 实现简单的内存队列我们在src/utils下创建一个requestQueue.js。这里实现一个基于async和Promise的简单队列。// src/utils/requestQueue.js class RequestQueue { constructor(maxConcurrent 3) { this.maxConcurrent maxConcurrent; // 最大并发数 this.activeCount 0; // 当前正在处理的任务数 this.queue []; // 等待队列 } /** * 将任务加入队列 * param {Function} taskFn - 返回Promise的任务函数 * returns {Promise} - 任务完成后的Promise */ enqueue(taskFn) { return new Promise((resolve, reject) { // 把任务和它的resolve/reject包装起来放进队列 this.queue.push({ taskFn, resolve, reject }); // 尝试执行下一个任务 this._processNext(); }); } /** * 尝试处理队列中的下一个任务 */ _processNext() { // 如果队列空或者已达最大并发限制则返回 if (this.queue.length 0 || this.activeCount this.maxConcurrent) { return; } this.activeCount; const item this.queue.shift(); // 从队列头部取出一个任务 // 执行任务 Promise.resolve(item.taskFn()) .then(result { item.resolve(result); // 任务成功通知调用方 }) .catch(error { item.reject(error); // 任务失败通知调用方 }) .finally(() { this.activeCount--; // 任务完成释放一个并发槽位 this._processNext(); // 继续处理下一个任务 }); } /** * 获取队列状态用于监控 */ getStatus() { return { maxConcurrent: this.maxConcurrent, activeCount: this.activeCount, waitingCount: this.queue.length, isAvailable: this.activeCount this.maxConcurrent }; } } // 创建一个全局队列实例最大并发数设为2根据你的模型服务能力调整 const asrRequestQueue new RequestQueue(2); module.exports asrRequestQueue;这个队列类就像一个银行叫号机。新来的请求任务先取个号enqueue排队。窗口并发槽位有空时就叫下一个号_processNext来处理。我们限制了同时处理的请求数比如2个这样模型服务就不会过载。4.2 集成队列到控制器现在修改之前的asrController.js把模型调用部分放到队列里执行。// 在 asrController.js 顶部引入队列 const asrRequestQueue require(../utils/requestQueue); // 然后修改调用模型服务的那部分代码大约在第30行左右 // 替换原来的 const asrResult await transcribeAudio(...); // 改为 const asrResult await asrRequestQueue.enqueue(() transcribeAudio(convertedAudioPath, { language }) );就这样模型调用现在被队列管理起来了。即使瞬间有100个请求也只会同时处理2个其余的安心排队等待服务稳定性大大提升。4.3 添加队列状态监控端点可选但推荐为了方便运维我们可以加一个API来查看队列的当前状态。在asrRoutes.js里添加// 在 asrRoutes.js 中引入队列 const asrRequestQueue require(../utils/requestQueue); // 添加一个新的路由 router.get(/queue-status, (req, res) { const status asrRequestQueue.getStatus(); res.json({ success: true, data: status, message: 队列状态正在处理 ${status.activeCount} 个等待中 ${status.waitingCount} 个 }); });现在访问GET /api/asr/queue-status就能看到队列的实时情况了。5. 错误处理、日志与生产环境建议代码基本功能都有了但要上线还得让它更健壮、更可观测。5.1 增强全局错误处理在src/app.js里最后添加一个全局错误处理中间件// 放在所有路由之后监听端口之前 // src/app.js 的末尾app.listen之前 // 全局404处理 app.use(*, (req, res) { res.status(404).json({ success: false, error: 路由 ${req.originalUrl} 不存在 }); }); // 全局错误处理中间件 app.use((err, req, res, next) { console.error( 全局捕获到未处理的错误:, err.stack); // 如果是multer的文件上传错误 if (err instanceof multer.MulterError) { return res.status(400).json({ success: false, error: 文件上传错误: ${err.message} }); } // 默认错误响应 res.status(500).json({ success: false, error: 服务器内部错误请稍后重试 }); });5.2 添加基础日志记录在生产环境我们通常会用winston或pino这样的专业日志库。这里先实现一个简单的版本在src/utils/logger.js// src/utils/logger.js const fs require(fs).promises; const path require(path); const { format } require(date-fns); // 需要安装: npm install date-fns const LOG_DIR path.join(__dirname, ../../logs); // 确保日志目录存在 async function ensureLogDir() { try { await fs.mkdir(LOG_DIR, { recursive: true }); } catch (err) { console.error(创建日志目录失败:, err); } } // 简单的日志函数 async function logToFile(level, message, data {}) { await ensureLogDir(); const timestamp format(new Date(), yyyy-MM-dd HH:mm:ss); const logEntry [${timestamp}] [${level.toUpperCase()}] ${message} ${Object.keys(data).length 0 ? JSON.stringify(data) : }\n; const logFile path.join(LOG_DIR, app-${format(new Date(), yyyy-MM-dd)}.log); try { await fs.appendFile(logFile, logEntry); } catch (err) { console.error(写入日志文件失败:, err); } // 同时在控制台输出 console.log(logEntry.trim()); } // 导出的日志方法 const logger { info: (message, data) logToFile(info, message, data), warn: (message, data) logToFile(warn, message, data), error: (message, data) logToFile(error, message, data), debug: (message, data) logToFile(debug, message, data) }; module.exports logger;然后在控制器和关键位置用logger.info(‘收到转录请求’, { filePath })这样的方式替换掉console.log。5.3 生产环境配置与优化建议代码写完了如果要部署到真正的服务器还有几件事要考虑环境变量管理像模型服务地址、端口、队列并发数这些不要写死在代码里。用dotenv库从.env文件读取。npm install dotenv在app.js最顶部加一句require(‘dotenv’).config()。进程管理用PM2来管理Node.js进程它支持自动重启、负载均衡、监控。npm install -g pm2 pm2 start src/app.js --name “asr-api”安全加固在Express中使用helmet中间件增加HTTP头安全。对上传文件进行病毒扫描如果有必要。实施API速率限制防止滥用可以用express-rate-limit。性能监控加入健康检查、指标端点如/metrics方便接入Prometheus等监控系统。文件存储对于大量音频文件可以考虑上传到云存储如S3、OSS而不是本地磁盘我们的服务只处理文件URL。6. 总结与回顾走完这一趟咱们从头构建了一个能够调用FireRedASR-AED-L模型服务的Node.js后端API。它不仅能处理单个语音转文字请求还具备了应对高并发的排队能力以及相对完善的错误处理和日志记录。整个过程的关键其实在于“分层”和“解耦”。我们把文件上传、格式转换、模型调用、队列管理、错误处理这些逻辑都拆分开每个模块只负责一件事。这样代码好维护以后想换一个模型服务或者换一个文件存储方式只需要改动其中一个模块不会牵一发而动全身。队列的实现虽然简单但对于平滑突发流量、保护下游模型服务非常有效。你可以根据实际压测结果调整maxConcurrent这个参数找到服务稳定性和响应速度的最佳平衡点。最后要强调的是这只是一个起点。在生产环境中你还需要考虑更多比如API认证鉴权、更精细的监控告警、数据库集成如果需要保存识别记录、以及自动伸缩等。但有了今天搭建的这个坚实框架后续的这些扩展都会变得有章可循。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

FireRedASR-AED-L模型Node.js后端调用实战：构建高并发语音处理API

相关文章：

FireRedASR-AED-L模型Node.js后端调用实战：构建高并发语音处理API

Z-Image-Turbo-rinaiqiao-huiyewunv 数据预处理教程：构建高质量训练与推理数据管道

cat-catch：突破网页资源捕获限制的高效下载解决方案

3步永久解锁IDM：从试用期烦恼到终身免费使用的完整指南

千问3.5-2B视觉理解作品分享：电商商品图识别、医疗报告图解析、工业仪表读数案例

Calibre run LVS 中V2LVS tools （Verilog 转 SPICE 网表工具）（20-2）

基于PLC的五自由度抓取机械手设计

OneAPI API扩展实践：不改源码调用管理API，快速开发额度预警机器人与报表系统

NormalMap-Online终极指南：在浏览器中免费生成专业法线贴图

Gemma-3 Pixel StudioGPU算力优化：24GB显存管理+4-bit量化避坑指南

Kandinsky-5.0-I2V-Lite-5s效果展示：背景变化趋势+主体动作精准还原案例

霜儿-汉服-造相Z-Turbo应用指南：打造你的江南庭院古风AI摄影师

实测霜儿-汉服-造相Z-Turbo：8秒生成高清汉服写真，新手也能轻松出图

FireRedASR Pro开箱即用：基于Streamlit的交互界面，操作超直观

百度网盘直链解析开源工具完全指南：从入门到精通

Hunyuan-MT1.5-1.8B社区生态：HF模型复刻建议

Mac窗口置顶终极指南：用Topit解锁你的多任务超能力 [特殊字符]

弦音墨影在影视鉴赏中的创新应用：自然语言解析千里江山图式影像

Windows热键冲突终极排查指南：3分钟快速定位问题应用

GPU显存友好！Ostrakon-VL-8B Bfloat16加速部署详解

Pixel Couplet Gen 嵌入式设备部署探索：在边缘计算场景的应用

Kook Zimage真实幻想Turbo参数详解：Steps和CFG Scale怎么设效果最好？

CogVideoX-2b作品集：这些流畅自然的视频都是用文字生成的

Hunyuan-OCR-WEBUI效果实测：复杂表格识别与字段抽取案例展示

建造者模式如何解决PHP对象构造参数过多问题？

javaweb学习资料资源分享共享平台的研究和实现

如何用OpenCore Legacy Patcher让老款Mac焕发新生：终极完整教程

【100%通过率】华为OD机试真题2026双机位C卷 C++ 实现【红黑图】

Hunyuan-OCR-WEBUI新手入门：3步搞定复杂文档文字识别

OpenClaw故障排查：千问3.5-9B接口连接问题解决大全