当前位置：首页 > article >正文

测评 ASR 歌词生成模型

article 2026/4/4 21:01:39

1. 测评背景与目标业务需求目前有大批量的 MP3 音频需要匹配歌词。网络公开渠道能爬取到的歌词占比不足 50%因此必须采用 ASR自动语音识别生成模式来补全缺口。核心痛点现有的商业 API 调用成本较高且在带伴奏的音乐场景下准确性一般。需要探索并验证一套低成本、高准确性的替代方案。2. 测评对象与参考标准参测模型whisper-large-v3 (开源本地部署)Qwen3-ASR-1.7B (开源本地部署)whisper-1 (OpenAI 商业 API)参考榜单榜单数据多基于日常讲话测试相对唱歌带复杂背景音来说更容易识别因此榜单标称的 WER词错误率通常会低于本次音乐测评的实际表现。HuggingFace Open ASR Leaderboard:https://huggingface.co/spaces/hf-audio/open_asr_leaderboardVoiceWriter Leaderboard:https://voicewriter.io/speech-recognition-leaderboard13. 测评环境与准备工作硬件与平台云服务商阿里云 DSW (https://pai.console.aliyun.com)实例配置ecs.gn7i-c8g1.2xlarge (8 vCPU, 30 GiB 内存, NVIDIA A10 * 1)基础镜像dsw-registry-vpc.cn-guangzhou.cr.aliyuncs.com/pai/modelscope:1.35.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04基础环境与全局变量配置为了保障国内网络环境下 HuggingFace 的连通性并确保模型与密钥正确保存在 DSW 的永久目录 (/mnt/workspace)需配置以下环境变量及 Git# Git 初始化与 SSH 配置aptupdateaptinstallgit-ygitconfig--globaluser.name你的名字gitconfig--globaluser.emailxxxqq.comgitconfig--globalcolor.uitruemkdir-p/mnt/workspace/.ssh_backup ssh-keygen-ted25519-Cxxxqq.com-f/mnt/workspace/.ssh_backup/id_ed25519mkdir-p~/.sshln-sf/mnt/workspace/.ssh_backup/id_ed25519.pub ~/.ssh/id_ed25519.pubchmod700~/.sshchmod600~/.ssh/id_ed25519chmod644~/.ssh/id_ed25519.pubssh-Tgitgithub.com# 环境变量配置exportHF_ENDPOINThttps://hf-mirror.comexportHF_HOME/mnt/workspace/huggingface_cacheexportTORCH_HOME/mnt/workspace/torch_cacheexportXDG_CACHE_HOME/mnt/workspace/general_cacheexportDEMUCS_REPO/mnt/workspace/demucs_models依赖安装与冲突解决预装镜像缺失部分音频处理模型如 Demucs且存在版本冲突需通过以下脚本进行修正# 1. 安装系统级音频依赖sudoapt-getupdatesudoapt-getinstall-yffmpeg# 2. 安装核心算法库推荐使用阿里云内网源加速pipinstalljiwer demucs-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com pipinstallwhisperx3.1.1-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com# 3. 解决 NumPy 与 SciPy 版本冲突pipinstallnumpy2.0.0scipy1.13.0-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com# 4. 解决 Lightning 与 Transformers 冲突pip uninstall-ylightning pytorch-lightning lightning-fabric pipinstalllightning2.1.4pytorch-lightning2.1.4lightning-fabric2.1.4-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com pipinstalltransformers4.45.2# 5. Qwen3-ASR 依赖安装gitclone https://github.com/QwenLM/Qwen3-ASR.git pipinstall-e./Qwen3-ASR4. 测评执行过程脚本地址https://github.com/hanjg/agent_test/数据准备选用 HuggingFace 的 JamendoLyrics 数据集。执行下载脚本注部分模型需鉴权请务必携带HF_TOKEN以防限流。HF_TOKENxxx python asr_download_jamendolyrics.py开源模型测评 (本地部署)对下载的 WAV 文件进行人声分离、压缩随后调用本地 ASR 模型提取时间戳。将提取出的文本进行归一化后与测试集基准对比计算 MER 等指标。HF_TOKENxxx python asr_eval.py--modelwhisper-large-v3 --vocal-separation--compress--vad-onset0.300--vad-offset0.200闭源模型测评 (API 调用)使用已完成人声分离和压缩的音频请求 OpenAI API获取返回的时间戳与文本执行相同的归一化与对比逻辑。代码示例如下具体脚本请使用asr_compare_words.pyHF_TOKENxxx python asr_eval.py--modelwhisper-large-v3 --vocal-separation--compress--vad-onset0.300--vad-offset0.2005. 测评结论Round 1 初步结论评估维度结果分析模型综合效果Whisper-large-v3表现最优相较于商业版 Whisper-1成本仅为其 12%WER词错误率降低 24%WAE 提高 36%。Qwen3-ASR-1.7B表现欠佳虽在日常交流中表现良好但在音乐领域显存占用大且识别率低。成本估算本地大模型极具性价比。本地部署 Whisper-large-v3 处理单首歌曲约需 8.628 秒按 GPU $1/小时计算成本约0.0167元/首。而调用 Whisper-1 API 处理同等规模数据约21万首总成本需 $5284折合0.1747元/首。预处理影响人声分离能极其显著地降低 WER而将音频压缩至 64k对最终识别结果的影响微乎其微可用于节省存储与传输带宽。Round 2 归一化与对齐优化在排查 Round 1 数据时AI 分析发现原有测评代码在计算 WER 和 MAE 时存在严重的归一化与对齐缺陷如多语言哼唱词漏过滤、连写拟声词拆分导致误判、SequenceMatcher 跨段对齐错位、以及未剥离 Whisper 的幻觉文字等。针对上述问题我们在 Round 2 中进行了如下工程优化引入DTW (Dynamic Time Warping) 对齐替代 SequenceMatcher彻底解决重复副歌导致的跨段错配与 MAE 虚高现象。统一双端Filler / 哼唱词处理规则正则匹配连写拟声词拆分。增加幻觉文字检测与剥离逻辑如自动过滤无中生有的 “Thank you”、“Untertitelung” 等。丰富测评维度新增 S/I/D Rate、Median AE 以及 Word Boundary Tolerance (±0.3s/±0.5s)。最终结论在开启人声分离的前提下Whisper-large-v3 的 WER 和 MAE 均显著优于商业版 Whisper-1且 MAE 指标已完全达到 KTV 滚动歌词的标准要求。补充指标详细数据6. 附业界与打榜平台 ASR 测评标准为了确保测评的严谨性业界标准的 ASR 模型测评通常会严格遵循以下四个维度的考量多维度的数据集矩阵 (Diverse Datasets)测评不会依赖单一测试集通常会组合使用有声书 (LibriSpeech)、电话会议 (Switchboard)、日常对话 (Common Voice)、带噪环境以及多语种 (FLEURS) 数据集以全面压测模型的泛化能力。严谨的文本归一化 (Text Normalization)在对比标签前必须对预测文本和真实标签 (Ground Truth) 进行深度清洗。包括统一转小写、去除标点符号、统一数字形态如 “100” 统一为 “one hundred”、以及简繁体转换等。否则计算出的 WER 将包含大量“假错误”。标准的量化指标 (Standardized Metrics)文本准确率主要使用WER(Word Error Rate针对英文) 或CER(Character Error Rate针对中文)。时间戳准确率则计算预测与真实的MAE(平均绝对误差)或设定一个时间容忍窗口例如 50ms 视为准确进而计算 Precision、Recall 和 F1 Score。工程性能评估 (Performance Metrics)除准确度外模型吞吐量同样关键。业界必然会测量RTF(Real-Time Factor处理 1 秒音频所需的秒数) 以及VRAM(峰值显存占用)以此来评估工程部署的真实成本。

测评 ASR 歌词生成模型

相关文章：

测评 ASR 歌词生成模型

01-第1章-概述与快速开始

TCT亚洲展｜金属3D打印创新产品抢先看

ST7789显示屏驱动实战指南：从基础配置到高级应用

Shell程序

Linux 定时备份 MySQL 数据库（完整教程）

微信小程序使用websocket调用大模型返回逐字显示的结果

ModTheSpire终极指南：解锁《杀戮尖塔》无限可能的模组加载器

剪映API技术解析：如何通过代码驱动实现视频剪辑自动化与效率革命

基于Matlab的Dijkstra算法与蚁群优化算法路径规划

第6章 Mosquitto用户认证与访问控制

TongWeb8.0支持JBoss Weld‌

如何让老旧苹果电脑重获新生：OpenCore Legacy Patcher完全指南

Git从入门到精通：原理、实战与企业级协作全攻略

WarcraftHelper：让经典魔兽争霸3在现代电脑上完美运行的终极解决方案

ComfyUI-VideoHelperSuite视频工作流技术指南：从基础操作到专业应用

面对 AI 热潮，企业最值得优先落地的5个业务场景

如何判断提取的RNA是否可用？

本地AI聊天、交互助手（写给小白的LLM工具选型系列：第三篇）

基于COMSOL的相变模拟：石蜡、熔盐、金属等的奇妙相变之旅

【最新最权威】ArcGIS ArcMap中添加在线地图-天地图（地形、矢量、影像、全球境界）的方法

技术方案：deepseek对话怎么导出PDF

Hollander Techniek借助Visual Components仿真平台，打造自动化食品包装系统

商品详情API的SLA保障体系：监控告警、异常检测与自动化修复

爱邦保险：全国全牌照保险经纪领航者

OpenClaw语音控制扩展：Gemma-3-12b-it实现自然语言任务触发

Ostrakon-VL终端惊艳效果：上传全景图→AI自动生成货架分区热力图

零基础玩转GEMMA-3像素站：手把手教你搭建复古游戏风AI助手

s2-pro开源TTS模型深度解析：Fish Audio专业级架构与训练逻辑

全球工业3D打印标杆：Stratasys全系列产品深度盘点