当前位置: 首页 > article >正文

An-Labeler:AudioLabellerV3 AI 辅助标注工具详解(自研Qt + FFT/模型自动标注)

An-Labeler V3:AudioLabeller AI 辅助标注工具详解(自研Qt + FFT/模型自动标注)Author:Code-keys (qq_37445230)Version:V3 (2026-03)系列文章:An-Labeler:AudioLabeller 高效音视频标注工具[AAn-Labeler:AudioLabellerV3 AI 辅助标注工具详解]一、V3 版本更新概览在 V1(基础标注)和 V2(手工标注优化)的基础上,V3 引入了AI 辅助自动标注能力,核心升级如下:特性V1/V2V3音频播放pyaudio+ Threadsounddevice(PyPlayer.AudioPlayer)标注模式纯手动FFT 自动检测 + 模型推理(可切换)频谱图参数FFT=1024, hop=512, mels=128FFT=512, hop=256, mels=256(更高分辨率)线程池max 2max 10类别快捷键Ctrl+1~91~9(直接按键)新增菜单—自动化标注(FFT / 模型切换)模块化单文件引入AudioAlgos、PyPlayer外部模块DEBUG 开关无全局DEBUG标志,条件日志二、架构概览V3 采用模块化拆分,将播放器和算法逻辑从主脚本中解耦:PyAudioLabelerV3FFT.py ← 主程序(UI + 标注逻辑) ├── PyPlayer.py ← 独立音频播放模块(sounddevice) ├── AudioAlgos ← 自动检测算法库(FFT/余弦相似度/零填充/跳变检测) └── classes.txt ← 类别配置文件文件依赖关系PyAudioLabelerV3FFT.py │ ├── AudioAlgos.* # 自动标注算法(detect_repeated_by_cos_similarity 等) │ ├── PyPlayer.AudioPlayer # 音频播放(替代 V1 的 AudioPlayCanStop) │ └── sounddevice # 底层音频 I/O │ └── librosa # 音频加载与重采样 │ ├── PyQt5 / pyqtgraph # GUI 框架 ├── soundfile / librosa # 音频读取与频谱计算 └── classes.txt # 标注类别定义三、核心类与模块详解3.1PyPlayer.AudioPlayer— 独立播放器模块V3 用全新的AudioPlayer替换了 V1 的AudioPlayCanStop,底层从pyaudio切换到sounddevice。PyPlayer.py核心实现:classAudioPlayer:"""基于 sounddevice 的音频播放器,支持加载 WAV、截取片段播放,子线程播放"""def__init__(self,files=None,datas=None,sr=16000,blocksize=160):self.sr=sr self.blocksize=sr//50# 每块 20msself.datas=self.load_raw(datas,sr)ifdatasisnotNoneelseself.load(files,sr)self._stop_event=threading.Event()defload(self,path,sr=None):datas,_=librosa.load(path,mono=True,sr=sr)self.datas=datas.astype(np.float32)returnself.datasdefplay(self,start_sec=0.0,end_sec=None,async_=True):"""播放音频片段,支持非阻塞子线程播放"""start=int(start_sec*self.sr)end=int(end_sec*self.sr)ifend_secisnotNoneelselen(self.datas)clip=self.datas[start:end]ifasync_:self._thread=threading.Thread(target=self._play_clip,args=(clip,),daemon=False)self._thread.start()def_play_clip(self,clip):self._stream=sd.OutputStream(samplerate=self.sr,channels=1,blocksize=self.blocksize,dtype='float32',latency='low')self._stream.start()foriin

相关文章:

An-Labeler:AudioLabellerV3 AI 辅助标注工具详解(自研Qt + FFT/模型自动标注)

An-Labeler V3:AudioLabeller AI 辅助标注工具详解(自研Qt + FFT/模型自动标注) Author: Code-keys (qq_37445230) Version: V3 (2026-03) 系列文章: An-Labeler:AudioLabeller 高效音视频标注工具 [AAn-Labeler:AudioLabellerV3 AI 辅助标注工具详解] 一、V3 版本更新概…...

多车环境下车载毫米波雷达是否会相互干扰?

在汽车工业迈向智能化与自动化的进程中,毫米波雷达已然成为了车辆感知体系中不可或缺的一部分。这种波长介于1毫米至10毫米之间的电磁波进行探测的装置,凭借其能够穿透雨雪、浓雾及强光直射的全天候工作能力,为高级驾驶辅助系统提供了关键的距…...

2.4.快速排序——先分区再递归,为什么它平均这么快却可能退化?

2.4.快速排序——先分区再递归,为什么它平均这么快却可能退化? 系列:搜索与排序 | 第 4 篇,共 16 篇 难度:⭐⭐⭐☆☆ 中等 标签:排序 快速排序 分治 随机化 三路快排 上一篇:2.3.插入排序——像…...

自注意力:句子里的词互相“看“对方——信息交流的艺术

自注意力:句子里的词互相"看"对方——信息交流的艺术(Version B) 📚 《从零到一造大脑:AI架构入门之旅》专栏 专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块: 📖 模块一【A…...

注意力机制:AI 也会“走神“和“专注“——信息选择的智慧

注意力机制:AI 也会"走神"和"专注"——信息选择的智慧(Version B) 📚 《从零到一造大脑:AI架构入门之旅》专栏 专栏定位:面向中学生、大学生和 AI 初学者的科普专栏,用大白话和生活化比喻带你从零理解人工智能 本系列共 42 篇,分为八大模块: 📖…...

【ABAP】客转供 客户转供应商 cl_md_bp_maintain=>maintain 创建供应商

报错:未分配客户/供应商,您无法传输客户/供应商数据 这是因为如果创建的时候是作为客户的, 后面想要创建为供应商,所以调用的供应商创建/修改接口。 但是这时候,LFA1里面是没有供应商编号的,只有BUT000里面…...

破解厂区防控难题:远程控制联网报警器的技术优势与应用实践

一、厂区安全防控的时代挑战与技术革新在工业生产规模化、厂区安全管理标准化的发展趋势下,厂区安全防控已成为企业生产运营的核心工作。我国正处于厂区安防从 "人工巡检为主" 向 "技防联动" 转型的关键阶段,据行业数据显示&#xf…...

终极指南:如何免费解锁Cursor Pro功能,彻底解决API限制问题

终极指南:如何免费解锁Cursor Pro功能,彻底解决API限制问题 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve …...

30美元实现AI视觉革命:OpenGlass开源智能眼镜的平民化方案

30美元实现AI视觉革命:OpenGlass开源智能眼镜的平民化方案 【免费下载链接】OpenGlass Turn any glasses into AI-powered smart glasses 项目地址: https://gitcode.com/GitHub_Trending/op/OpenGlass 当商业智能眼镜以数千元价格将普通用户拒之门外时&…...

本科论文AI率高不高影响答辩?这个问题要搞清楚

很多同学AI率超标之后第一个问题就是:这会不会影响我参加答辩? 这个问题的答案取决于你的学校是怎么规定的,也和你超标的程度有关。我来帮你分析清楚。 各高校对AI率的处理方式 目前各高校的处理方式大致分三类: 第一类&#…...

2026年Magento独立站中国商家收单支付平台综合评估

2026年,全球收单市场持续分化。监管门槛抬升使支付牌照成为稀缺资源,资金周转效率从“加分项”变为“必选项”。对于使用Magento搭建独立站的中国商家,收单平台的选择已从单一的费率比较,升级为对合规深度、资金效率、本地化能力的…...

C++ 动态内存管理深度解析:new/delete 完全指南

引言在 C 语言中,我们使用 malloc()、calloc()、realloc() 和 free() 来管理动态内存。而 C 引入了全新的动态内存管理方式——new 和 delete。这不仅带来了语法上的简化,更重要的是引入了类型安全和初始化的概念。在学习过程中,我对 new 的理…...

文书妙笔专为公文写作打造,让写材料效率翻倍

不同于市面上通用型写作工具,文书妙笔每一项功能都为公文写作量身定制,真正实现“写材料效率翻倍”。作为专为公文写作打造的平台,平台内置40W优质公文范文库,每日持续更新,更整合了最新政策表述、基层工作案例和规范金…...

Oracle数据库进程体系结构概述

Oracle数据库进程体系结构概述 Oracle属于多进程体系架构,它由多个后台进程组成,每个后台进程完成特定的维护任务,进程之间互相协助,最终共同完成数据库所需的维护任务。 本文讲述的内容: 1、进程类型 2、Oracle两种服…...

苍穹外卖day10(黑马程序员)

苍穹外卖 day10 笔记 WebSocket 什么是 WebSocket WebSocket 是一种全双工的网络通信方式:客户端和服务器建立连接之后,双方都可以随时主动给对方发消息,不必像传统网页那样「每次都要重新发起一次请求」。 可以把它理解成: HTTP&…...

2026经管大洗牌!只会记账/理论已死,再不考这10个证,迟早被AI取代!

2026经管行业变革与核心证书指南随着AI技术的快速发展,传统经管岗位面临巨大挑战。单纯掌握记账或理论知识的从业者可能面临淘汰风险。以下为未来五年内最具价值的10项认证,帮助从业者保持竞争力。CDA数据分析师证书的核心优势CDA数据分析师证书由国际数…...

WaveTools:解决鸣潮玩家性能优化与数据管理痛点的开源工具

WaveTools:解决鸣潮玩家性能优化与数据管理痛点的开源工具 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools WaveTools是一款专为《鸣潮》PC玩家设计的开源辅助工具,集成性能优化、账…...

Linux内核设计哲学:你我承载力的艺术(续)

第七部:设备驱动——与不完美的世界和解7.1 你不是主人,你是仆人设备驱动是内核中最“卑微”的组件。它不和用户直接打交道,不参与核心决策,甚至不拥有任何资源。它只是硬件的翻译官——把内核的标准请求翻译成硬件能懂的指令&…...

Thorium浏览器:为什么这个基于Chromium的优化版本能解决你90%的性能痛点?

Thorium浏览器:为什么这个基于Chromium的优化版本能解决你90%的性能痛点? 【免费下载链接】thorium Chromium fork named after radioactive element No. 90. Source code and Linux releases. Windows/MacOS/ARM builds served in different repos, lin…...

5个维度教你掌握游戏自动化与效率工具开发

5个维度教你掌握游戏自动化与效率工具开发 【免费下载链接】JX3Toy 一个自动化测试DPS的小工具 项目地址: https://gitcode.com/GitHub_Trending/jx/JX3Toy 在游戏开发与玩家体验优化领域,游戏脚本开发正成为提升效率的关键技术。本文将系统介绍一款开源项目…...

水箱水位监测控制电路 Multisim 仿真探索

Multisim仿真文件 水箱水位监测控制电路报告 包含:说明书,Multisim10电路源文件,仿真电路等 仿真效果: 1.在水箱内的不同高度安装3根金属棒,以感知水位变化情况, 液位分1,2,3档&…...

山西口碑好的实体店获客公司哪家可靠

在山西,实体店主们都在为如何有效获客而烦恼。随着市场竞争的加剧,选择一家可靠的获客公司至关重要。今天,我们就来探讨一下山西口碑好的实体店获客公司,重点介绍中谷云(厦门)大数据科技有限公司&#xff0…...

覆盖更远、组网更稳:基于 EFR32BG21 的智能家居与物联网 BLE Mesh 无线模块方案

智能家居与物联网设备越来越多,但真正决定体验上限的往往不是“有没有连上网”,而是信号能不能到、掉线后能不能自愈、多设备同时在线是否还稳定。单靠点对点蓝牙,很容易在隔墙、远距离、多节点场景里碰到瓶颈;而把低功耗蓝牙与 M…...

5分钟掌握ImStudio:免费高效的实时GUI布局设计终极方案

5分钟掌握ImStudio:免费高效的实时GUI布局设计终极方案 【免费下载链接】ImStudio Real-time GUI layout designer for Dear ImGui 项目地址: https://gitcode.com/gh_mirrors/im/ImStudio 你是否曾经为调试用户界面而反复编译代码?是否厌倦了在代…...

不只是“生成一张图“:2026年6款真正改变设计工作流的AI界面工具深度测评

AI界面生成工具正在经历从"生成单张界面"到"生成完整产品体验"的代际跃迁。本文深度拆解 UXbot、Figma Make、Google Stitch、Flowstep、Visily AI 和 Moonchild 共6款2026年代表性工具——从设计稿生成到原生代码输出,覆盖完整的产品交付能力谱…...

如何快速修复ROG游戏本色彩配置文件丢失问题:G-Helper终极指南

如何快速修复ROG游戏本色彩配置文件丢失问题:G-Helper终极指南 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, S…...

AI生成教材新玩法,低查重让你的教材更有竞争力!

教材的格式问题常常让编写者感到困惑。比如,标题应该选择多大字号?参考文献是依据GB/T7714还是按照某些出版机构的标准?习题的排版又应选择单栏还是双栏?各种不同的要求让人感到眼花缭乱,而手动调整不仅耗时费力&#…...

做对这三步,拥有一个聪明的智能问数与分析Agent

这两年,智能问数与分析,几乎已经成了 ToB Agent 里最容易出圈的“爆款场景”。原因不难理解。相比很多还停留在演示层、流程层的 AI 应用,智能问数更接近企业管理者最直接的需求:我有问题,系统能不能立刻给我答案&…...

本科论文知网AI率高的原因和解决方法全在这里

知网AIGC检测出来AI率高,很多同学第一反应是"我没有全程用AI写啊,为什么这么高?"这个问题确实需要好好解释一下——知网检测到的AI率高,未必是因为你完全靠AI写的。 知网AIGC检测是怎么工作的 知网的AIGC检测系统会分…...

本科论文降AI率花多少钱合适?各档工具对比

每年毕业季都有同学问:降AI率要花多少钱?买个工具值不值?这篇把费用账算清楚,让你心里有数。 先算清楚你实际需要处理多少字 很多人有个误区,以为论文AI率30%就要处理30%的字数。实际上不是的。 实际需要处理的字数…...