当前位置: 首页 > article >正文

测评 ASR 歌词生成模型

1. 测评背景与目标业务需求目前有大批量的 MP3 音频需要匹配歌词。网络公开渠道能爬取到的歌词占比不足 50%因此必须采用 ASR自动语音识别生成模式来补全缺口。核心痛点现有的商业 API 调用成本较高且在带伴奏的音乐场景下准确性一般。需要探索并验证一套低成本、高准确性的替代方案。2. 测评对象与参考标准参测模型whisper-large-v3 (开源本地部署)Qwen3-ASR-1.7B (开源本地部署)whisper-1 (OpenAI 商业 API)参考榜单榜单数据多基于日常讲话测试相对唱歌带复杂背景音来说更容易识别因此榜单标称的 WER词错误率通常会低于本次音乐测评的实际表现。HuggingFace Open ASR Leaderboard:https://huggingface.co/spaces/hf-audio/open_asr_leaderboardVoiceWriter Leaderboard:https://voicewriter.io/speech-recognition-leaderboard13. 测评环境与准备工作硬件与平台云服务商阿里云 DSW (https://pai.console.aliyun.com)实例配置ecs.gn7i-c8g1.2xlarge (8 vCPU, 30 GiB 内存, NVIDIA A10 * 1)基础镜像dsw-registry-vpc.cn-guangzhou.cr.aliyuncs.com/pai/modelscope:1.35.0-pytorch2.3.1tensorflow2.16.1-gpu-py311-cu121-ubuntu22.04基础环境与全局变量配置为了保障国内网络环境下 HuggingFace 的连通性并确保模型与密钥正确保存在 DSW 的永久目录 (/mnt/workspace)需配置以下环境变量及 Git# Git 初始化与 SSH 配置aptupdateaptinstallgit-ygitconfig--globaluser.name你的名字gitconfig--globaluser.emailxxxqq.comgitconfig--globalcolor.uitruemkdir-p/mnt/workspace/.ssh_backup ssh-keygen-ted25519-Cxxxqq.com-f/mnt/workspace/.ssh_backup/id_ed25519mkdir-p~/.sshln-sf/mnt/workspace/.ssh_backup/id_ed25519.pub ~/.ssh/id_ed25519.pubchmod700~/.sshchmod600~/.ssh/id_ed25519chmod644~/.ssh/id_ed25519.pubssh-Tgitgithub.com# 环境变量配置exportHF_ENDPOINThttps://hf-mirror.comexportHF_HOME/mnt/workspace/huggingface_cacheexportTORCH_HOME/mnt/workspace/torch_cacheexportXDG_CACHE_HOME/mnt/workspace/general_cacheexportDEMUCS_REPO/mnt/workspace/demucs_models依赖安装与冲突解决预装镜像缺失部分音频处理模型如 Demucs且存在版本冲突需通过以下脚本进行修正# 1. 安装系统级音频依赖sudoapt-getupdatesudoapt-getinstall-yffmpeg# 2. 安装核心算法库推荐使用阿里云内网源加速pipinstalljiwer demucs-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com pipinstallwhisperx3.1.1-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com# 3. 解决 NumPy 与 SciPy 版本冲突pipinstallnumpy2.0.0scipy1.13.0-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com# 4. 解决 Lightning 与 Transformers 冲突pip uninstall-ylightning pytorch-lightning lightning-fabric pipinstalllightning2.1.4pytorch-lightning2.1.4lightning-fabric2.1.4-ihttp://mirrors.cloud.aliyuncs.com/pypi/simple/ --trusted-host mirrors.cloud.aliyuncs.com pipinstalltransformers4.45.2# 5. Qwen3-ASR 依赖安装gitclone https://github.com/QwenLM/Qwen3-ASR.git pipinstall-e./Qwen3-ASR4. 测评执行过程脚本地址https://github.com/hanjg/agent_test/数据准备选用 HuggingFace 的 JamendoLyrics 数据集。执行下载脚本注部分模型需鉴权请务必携带HF_TOKEN以防限流。HF_TOKENxxx python asr_download_jamendolyrics.py开源模型测评 (本地部署)对下载的 WAV 文件进行人声分离、压缩随后调用本地 ASR 模型提取时间戳。将提取出的文本进行归一化后与测试集基准对比计算 MER 等指标。HF_TOKENxxx python asr_eval.py--modelwhisper-large-v3 --vocal-separation--compress--vad-onset0.300--vad-offset0.200闭源模型测评 (API 调用)使用已完成人声分离和压缩的音频请求 OpenAI API获取返回的时间戳与文本执行相同的归一化与对比逻辑。代码示例如下具体脚本请使用asr_compare_words.pyHF_TOKENxxx python asr_eval.py--modelwhisper-large-v3 --vocal-separation--compress--vad-onset0.300--vad-offset0.2005. 测评结论Round 1 初步结论评估维度结果分析模型综合效果Whisper-large-v3表现最优相较于商业版 Whisper-1成本仅为其 12%WER词错误率降低 24%WAE 提高 36%。Qwen3-ASR-1.7B表现欠佳虽在日常交流中表现良好但在音乐领域显存占用大且识别率低。成本估算本地大模型极具性价比。本地部署 Whisper-large-v3 处理单首歌曲约需 8.628 秒按 GPU $1/小时计算成本约0.0167元/首。而调用 Whisper-1 API 处理同等规模数据约21万首总成本需 $5284折合0.1747元/首。预处理影响人声分离能极其显著地降低 WER而将音频压缩至 64k对最终识别结果的影响微乎其微可用于节省存储与传输带宽。Round 2 归一化与对齐优化在排查 Round 1 数据时AI 分析发现原有测评代码在计算 WER 和 MAE 时存在严重的归一化与对齐缺陷如多语言哼唱词漏过滤、连写拟声词拆分导致误判、SequenceMatcher 跨段对齐错位、以及未剥离 Whisper 的幻觉文字等。针对上述问题我们在 Round 2 中进行了如下工程优化引入DTW (Dynamic Time Warping) 对齐替代 SequenceMatcher彻底解决重复副歌导致的跨段错配与 MAE 虚高现象。统一双端Filler / 哼唱词处理规则正则匹配 连写拟声词拆分。增加幻觉文字检测与剥离逻辑如自动过滤无中生有的 “Thank you”、“Untertitelung” 等。丰富测评维度新增 S/I/D Rate、Median AE 以及 Word Boundary Tolerance (±0.3s/±0.5s)。最终结论在开启人声分离的前提下Whisper-large-v3 的 WER 和 MAE 均显著优于商业版 Whisper-1且 MAE 指标已完全达到 KTV 滚动歌词的标准要求。补充指标详细数据6. 附业界与打榜平台 ASR 测评标准为了确保测评的严谨性业界标准的 ASR 模型测评通常会严格遵循以下四个维度的考量多维度的数据集矩阵 (Diverse Datasets)测评不会依赖单一测试集通常会组合使用有声书 (LibriSpeech)、电话会议 (Switchboard)、日常对话 (Common Voice)、带噪环境以及多语种 (FLEURS) 数据集以全面压测模型的泛化能力。严谨的文本归一化 (Text Normalization)在对比标签前必须对预测文本和真实标签 (Ground Truth) 进行深度清洗。包括统一转小写、去除标点符号、统一数字形态如 “100” 统一为 “one hundred”、以及简繁体转换等。否则计算出的 WER 将包含大量“假错误”。标准的量化指标 (Standardized Metrics)文本准确率主要使用WER(Word Error Rate针对英文) 或CER(Character Error Rate针对中文)。时间戳准确率则计算预测与真实的MAE(平均绝对误差)或设定一个时间容忍窗口例如 50ms 视为准确进而计算 Precision、Recall 和 F1 Score。工程性能评估 (Performance Metrics)除准确度外模型吞吐量同样关键。业界必然会测量RTF(Real-Time Factor处理 1 秒音频所需的秒数) 以及VRAM(峰值显存占用)以此来评估工程部署的真实成本。

相关文章:

测评 ASR 歌词生成模型

1. 测评背景与目标 业务需求: 目前有大批量的 MP3 音频需要匹配歌词。网络公开渠道能爬取到的歌词占比不足 50%,因此必须采用 ASR(自动语音识别)生成模式来补全缺口。 核心痛点: 现有的商业 API 调用成本较高&#xf…...

01-第1章-概述与快速开始

第 1 章:概述与快速开始 1.1 sfsDb 简介 sfsDb 是一款专为工业物联网(IIoT)和边缘计算场景设计的纯 Go 语言嵌入式数据库。它基于 LevelDB 构建,提供了无锁事务系统、高效索引管理、时序数据处理和加密存储等功能。 核心特性 纯…...

TCT亚洲展|金属3D打印创新产品抢先看

本届TCT亚洲展有大量创新产品亮相,有的是概念产品,有的则已经被用于最终使用。本期内容,跟随3D打印技术参考,来探索部分创新应用。气液双向散热器概念设计这款产品由漫格科技与中科祥龙联合开发,是一件基于某真实项目的…...

ST7789显示屏驱动实战指南:从基础配置到高级应用

ST7789显示屏驱动实战指南:从基础配置到高级应用 【免费下载链接】st7789py_mpy 项目地址: https://gitcode.com/gh_mirrors/st/st7789py_mpy ST7789显示屏驱动是一款专为嵌入式系统设计的高性能TFT LCD控制器解决方案,支持多种分辨率与丰富显示…...

Shell程序

Shell脚本定义:以.sh结尾的文件,用于执行特定任务脚本参数传递:执行脚本时可在命令后添加参数(如start/stop)Hadoop脚本示例:sbin/hadoop-daemon.sh start namenodeShell编程特点:简单易用,适合自动化常见操作脚本执行方式:直接运行.sh文件即可执行其中命…...

Linux 定时备份 MySQL 数据库(完整教程)

为了防止数据丢失,我们需要定时把数据备份起来。我们使用用 Linux crontab mysqldump 实现定时自动备份,包含备份、压缩、保留历史、自动清理旧文件。一、先准备备份脚本创建一个备份脚本 mysql_backup.sh,放在 /usr/local/bin/ 方便管理。#…...

微信小程序使用websocket调用大模型返回逐字显示的结果

页面展示:小程序代码: aichat.js:const config require(../../utils/config.js); Page({data: {messages: [],inputText: ,isLoading: false,scrollToId: scroll-bottom,currentStreamingId: null,isConnecting: false,isReceiving: false,socketOpen: …...

ModTheSpire终极指南:解锁《杀戮尖塔》无限可能的模组加载器

ModTheSpire终极指南:解锁《杀戮尖塔》无限可能的模组加载器 【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire ModTheSpire是专为《杀戮尖塔》设计的开源模组加载器&#xff…...

剪映API技术解析:如何通过代码驱动实现视频剪辑自动化与效率革命

剪映API技术解析:如何通过代码驱动实现视频剪辑自动化与效率革命 【免费下载链接】JianYingApi Third Party JianYing Api. 第三方剪映Api 项目地址: https://gitcode.com/gh_mirrors/ji/JianYingApi 在视频内容创作进入工业化生产的今天,传统手动…...

基于Matlab的Dijkstra算法与蚁群优化算法路径规划

3基于matlab的Dijkstra和蚁群优化算法路径规划 Dijkstra算法研究的是从初始点到其他每一结点的最短路径,从而得到最短路径 蚂蚁会以较大的概率优先选择信息素浓度较高的路径, 并释放一定量的信息素, 以增强该条路径上的信息素浓度&#xff0c…...

第6章 Mosquitto用户认证与访问控制

第6章 用户认证与访问控制 6.1 认证机制概览 #mermaid-svg-MTeZFweZQcx9XrLR{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:…...

TongWeb8.0支持JBoss Weld‌

JBoss Weld‌ 是 CDI(Contexts and Dependency Injection,JSR 299/346/365)的官方参考实现(RI),用于在 Java EE / Jakarta EE 应用中提供依赖注入和上下文管理功能。它不仅内置于 WildFly、GlassFish 等应用…...

如何让老旧苹果电脑重获新生:OpenCore Legacy Patcher完全指南

如何让老旧苹果电脑重获新生:OpenCore Legacy Patcher完全指南 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你的2008-2017年老款Mac是否因为苹…...

Git从入门到精通:原理、实战与企业级协作全攻略

Git从入门到精通:原理、实战与企业级协作全攻略 文章目录Git从入门到精通:原理、实战与企业级协作全攻略Git从入门到精通:原理、实战与企业级协作全攻略前言:为什么每个开发者都必须掌握Git?第一部分:Git初…...

WarcraftHelper:让经典魔兽争霸3在现代电脑上完美运行的终极解决方案

WarcraftHelper:让经典魔兽争霸3在现代电脑上完美运行的终极解决方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为魔兽争霸…...

ComfyUI-VideoHelperSuite视频工作流技术指南:从基础操作到专业应用

ComfyUI-VideoHelperSuite视频工作流技术指南:从基础操作到专业应用 【免费下载链接】ComfyUI-VideoHelperSuite Nodes related to video workflows 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-VideoHelperSuite 引言:视频处理工作流的…...

面对 AI 热潮,企业最值得优先落地的5个业务场景

这一轮 AI 热潮,很多企业都在关注,也都在问同一个问题:AI 到底该先落在哪?是做大模型应用?是上智能体?还是先做知识库、数据平台、自动化流程?看起来方向很多,但真正落到企业经营和管…...

如何判断提取的RNA是否可用?

在分子生物学实验中,RNA的质量直接决定下游实验的成败。那么,如何科学、系统地评价所提取的RNA是否合格呢?应从浓度、纯度与完整性三个维度综合判断,只有三者均达到标准,才能称为高质量RNA。一、质量评价的三项核心指标…...

本地AI聊天、交互助手(写给小白的LLM工具选型系列:第三篇)

诸神缄默不语-个人技术博文与视频目录 在这一章介绍的是,已经有了AI大模型推理服务(不管是云端API还是本地服务),想要一个像聊天框那样的界面来跟大模型聊天、或者让大模型做更复杂的工作。 本章主要考虑的功能还是AI对话&#x…...

基于COMSOL的相变模拟:石蜡、熔盐、金属等的奇妙相变之旅

基于COMSOL的相变模拟(石蜡、熔盐、金属等) 材料从完全固态转变到液态(或者液态冷却到固态),考虑液相的自然对流对相变过程的影响 材料的参数设定与融化或凝固状态相关,如图中所示最近在研究材料的相变过程…...

【最新最权威】ArcGIS ArcMap中添加在线地图-天地图(地形、矢量、影像、全球境界)的方法

1 图源介绍地理信息公共服务平台(天地图)是县级以上自然资源主管部门向社会提供各类在线地理信息公共服务、推动地理信息数据开放共享的政府网站,由国家级节点、省级(兵团)节点、市县级节点组成。在底图服务方面&#…...

技术方案:deepseek对话怎么导出PDF

在日常使用 DeepSeek 的过程中,一个让人又爱又恨的问题反复出现:回答质量很高,但想把它存下来却非常麻烦。 无论是做技术调研、写方案、做知识沉淀,还是整理学习笔记,DeepSeek 给出的答案往往信息密度大、结构清晰&am…...

Hollander Techniek借助Visual Components仿真平台,打造自动化食品包装系统

荷兰即食餐食供应商Uitgekookt(以下简称Uitgekookt)计划对其餐食包装流程进行自动化改造,亟需一套能高效、精准处理定制订单的系统。荷兰食品包装自动化集成商HT(以下简称HT)在实际搭建前,运用Visual Compo…...

商品详情API的SLA保障体系:监控告警、异常检测与自动化修复

在电商业务中,商品详情API是连接前端展示与后端数据的核心枢纽,其稳定性、可用性直接决定用户体验与业务转化——用户点击商品卡片后,若API响应延迟、数据异常或服务中断,会直接导致用户流失、订单损失。SLA(服务等级协…...

爱邦保险:全国全牌照保险经纪领航者

爱邦保险经纪有限公司(以下简称“爱邦保险”)作为一家全国性保险经纪公司,据公开的工商信息及金融监管备案显示,爱邦保险是是经江苏省人民政府同意、中国保险监督管理委员会批准设立的一家全国性全牌照保险经纪公司,具…...

OpenClaw语音控制扩展:Gemma-3-12b-it实现自然语言任务触发

OpenClaw语音控制扩展:Gemma-3-12b-it实现自然语言任务触发 1. 为什么需要语音控制自动化助手 上周五下班路上,我遇到一个典型场景:开车时收到客户紧急邮件需要立即回复,但双手离不开方向盘。这种场景让我开始思考——能否用语音…...

Ostrakon-VL终端惊艳效果:上传全景图→AI自动生成货架分区热力图

Ostrakon-VL终端惊艳效果:上传全景图→AI自动生成货架分区热力图 1. 像素特工:零售场景的AI扫描专家 在零售行业,货架陈列分析一直是个耗时费力的工作。传统方法需要人工巡视记录,不仅效率低下,还容易遗漏细节。现在…...

零基础玩转GEMMA-3像素站:手把手教你搭建复古游戏风AI助手

零基础玩转GEMMA-3像素站:手把手教你搭建复古游戏风AI助手 1. 项目概览:当AI遇上复古游戏美学 GEMMA-3像素站是一个将Google最新多模态大模型Gemma-3与90年代JRPG游戏风格完美融合的创新项目。这个独特的组合让强大的AI能力披上了一层怀旧的像素外衣&a…...

s2-pro开源TTS模型深度解析:Fish Audio专业级架构与训练逻辑

s2-pro开源TTS模型深度解析:Fish Audio专业级架构与训练逻辑 1. 专业级语音合成模型概述 s2-pro是Fish Audio团队开源的一款专业级文本转语音(TTS)模型镜像,代表了当前开源语音合成技术的先进水平。与普通TTS系统不同,s2-pro不仅支持常规的…...

全球工业3D打印标杆:Stratasys全系列产品深度盘点

作为全球工业级3D打印与增材制造解决方案的领导者,Stratasys凭借FDM、PolyJet、SAF等核心专利技术,构建了覆盖入门级、工业级、生产级的全品类设备矩阵,以极致精度、超大尺寸、稳定可靠、材料多元的核心优势,成为航空航天、汽车、…...