当前位置：首页 > news >正文

【音频识别】数据集合集！

news 2026/5/19 17:21:13

本文将为您介绍经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

Chenyme-AAVT

更新时间：2024-08-23
访问地址: GitHub
描述：

这是一个全自动（音频）视频翻译项目。利用Whisper识别声音，AI大模型翻译字幕，最后合并字幕视频，生成翻译后的视频。还可以自动化生成营销图文、对字幕单独翻译。
数据集网址：

https://github.com/Chenyme/Chenyme-AAVT

Seal-UniPlugin-Demo

更新时间：2024-10-28
访问地址: GitHub
描述：

跨平台Office文档、图片在线预览，音视频播放原生插件Seal-OfficeOnline【非X5离线、组件嵌入、水印、WPS预览编辑】。百度OCR文字识别、证卡识别、票据识别原生插件Seal-OCR。百度语音在线识别原生插件Seal-VoiceASR。
数据集网址：

https://github.com/silianpan/Seal-UniPlugin-Demo

Minerva

更新时间：2024-05-23
访问地址: GitHub
描述：

Minerva是一个便捷的音频工具，支持快速进行录音（PCM/MP3/WAV）和VAD端点检测识别，并保存活动语音。
数据集网址：

https://github.com/LZ9/Minerva

voice_translation

更新时间：2024-06-06
访问地址: GitHub
描述：

该开源项目旨在提供一个能够自动检测并识别中文语音的模型，支持wav、mp4、m4a等格式的音频文件上传。无论是从录音设备中获取的wav文件，还是从视频中提取的mp4、m4a文件，我们的模型可以准确识别其中的中文文字内容。通过集成最先进的语音识别技术和深度学习算法，我们的模型能够快速、准确地将声音转换为文字，为用户提供便捷的语音识别体验。
数据集网址：

https://github.com/zxx1218/voice_translation

LLM-Ceping

更新时间：2024-11-20
访问地址: GitHub
描述：

全方位大模型评测知识库 | 提示词工程（Prompt Engineer）、各渠道大模型榜单（LeaderBoard）、标杆数据集、安全检测、对抗攻击、智能体、优质数据、文本分类、关系抽取、语音识别、语音合成、多模态、文本生成图片、文本生成视频、点云、智能对话、摘要总结、问答、字词释义、知识问答、学科考试、医学、信息学、心理学、指代消解、常识推理、知识问答...
数据集网址：

https://github.com/AI-Ceping/LLM-Ceping

ModuleDevelop

更新时间：2024-05-22
访问地址: GitHub
描述：

Android原生开发apicloud的自定义模块。其中包含：NFC高频模块对15.6mhz的读取，单次可读单块或四块；UHF超高频模块可读可写，也可startActivity开启测试页面。新增语音唤醒+识别模块，进程守护模块，消息通知模块。
数据集网址：

https://github.com/yuanbao15/ModuleDevelop

meeting_system_backend

更新时间：2024-05-09
访问地址: GitHub
描述：

一个基于Vue3&Springboot&Tensorflow的音视频会议系统（毕业设计），音视频框架采用WebRTC。通过人脸识别实现拍照登录和入会身份检验。
数据集网址：

https://github.com/xyongfeng/meeting_system_backend

SubGenie

更新时间：2024-06-29
访问地址: GitHub
描述：

SubGenie是一个开源工具，整合了YouTube视频下载，语音识别，字幕翻译等功能，主要用于为视频生成双语字幕。
数据集网址：

https://github.com/1e0nhardt/SubGenie

upai

更新时间：2024-06-03
访问地址: GitHub
描述：

ymupai 是一款 Windows 平台的语音识别和字幕生成以及音频/视频处理软件。

主要特性：

语音识别：支持从种视频文件、音频文件中提取语音信息并进行语音识别；支持实时从系统麦克风中接收语音数据并进行语音识别

语音转录：支持实时语音转录，基于麦克风实时输入的音频数据转录为文本字幕信息

字幕生成：支持将语音识别生成的文本数据，基于第三方API进行文本翻译，生成双语字幕数据，并进行同步播放展示

音视频处理：支持对音视频文件进行播放、格式转换、视频截图等操作

一键自动化处理：导入音视频文件，配置字幕参数，即可一键生成双语字幕数据

批量任务处理：支持批量进行字幕生成，可一次导入多个音视频文件，批量进行语音识别、字幕生成操作

硬件加速：数据处理支持CPU加速和GPU加速。对于安装有Nvidia系列GPU的Windows PC，支持基于Nvidia CUDA的GPU加速；对于未安装Nvidia GPU的Windows PC，支持基于OpenVINO的CPU加速
数据集网址：

https://github.com/ymtagi/upai

qtasr_demo

更新时间：2024-11-16
访问地址: GitHub
描述：

一个采集麦克风音频，并进行波形图显示与实时语音识别的demo。
数据集网址：

https://github.com/echcz/qtasr_demo

END

温馨小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

【音频识别】数据集合集！

本文将为您介绍经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。 1 Chenyme-AAVT 更新时间：2024-08-23 访问地址: GitHub 描述： 这是一个全自动（音频）视频翻译项目。利用Whisper识别声音，AI…...

编程日记 2024/12/7 12:32:03

Nginx核心配置详解

一、配置文件说明 nginx官方帮助文档：nginx documentation nginx的配置文件的组成部分： 主配置文件：nginx.conf子配置文件: include conf.d/*.conffastcgi， uwsgi，scgi 等协议相关的配置文件mime.types：…...

编程日记 2024/12/7 12:31:02

智能工厂的设计软件用“力force”的性质构造智能体原型

本文要点在“智能工厂的设计软件”中我将对力的研究分为三个领域：经典力学，相对论力学和量子力学，每个研究领域都涉及到force自身性质所具有两个侧面： 明示高度内聚的不可观测的内部表征-“互相性”（哲学性质/哲学…...

编程日记 2024/12/7 12:29:56

Apache AGE：基于PostgreSQL的图数据库

Apache AGE（A Graph Extension）是一个基于 PostgreSQL 的图数据库。它以扩展插件的形式提供，可以在利用 PostgreSQL 先进的 SQL 查询功能和事务支持的同时，享受图数据库的灵活性和可扩展性。 Apache AGE 最初由 Bitnine Global In…...

编程日记 2024/12/7 12:28:52

RabbitMQ延迟消息的实现

RabbitMQ延迟队列的实现延迟消息是什么延迟消息的实现死信交换机代码实现延迟消息插件延迟消息是什么延迟消息是将消息发送到MQ中，消费者不会立即收到消息，而是过一段时间之后才会收到消息，进行处理。在一些业务中，可以用到延…...

编程日记 2024/12/7 12:25:47

SAP在中国：助力企业跨越成长的新篇章

在当今这个数字化转型风起云涌的时代，每一个企业都在寻求更高效、更智能的管理方式，以期在激烈的市场竞争中脱颖而出。在这场变革中，SAP作为全球领先的企业管理软件解决方案提供商，正以其卓越的产品与服务，在中国这片充…...

编程日记 2024/12/7 12:23:45

线性表线性表的顺序表示定义与初始化 typedef struct SqList{ElemType data[MaxSize];//ElemType *data 开动态数组 int length; }Sqlist; void InitList(SqList &L){L.length0;//若静态数组//若动态数组 //L.data(ElemType*)malloc(sizeof(ElemType)*MaxSize); } …...

编程日记 2024/12/7 12:20:42

数仓技术hive与oracle对比（一）

准备包括软硬件环境、数据、测试数据三方面的准备内容。环境虚拟机软件virtualbox7，同样的虚拟机配置：内存2G、cpu一核，物理主机同一台macbookpro（13-2020款），所以硬盘IO读写速度一致。综上&#x…...

编程日记 2024/12/7 12:13:34

筑起厂区安全--叉车安全防护装置全解析

在繁忙的工业生产领域中，叉车作为搬运工，穿梭于仓储与生产线之间。然而，叉车的高效运作背后，也隐藏着诸多安全风险，尤其是在那些空间狭小、物流繁忙的环境中。为了降低这些潜在的危险，叉车安全防护装置便成…...

编程日记 2024/12/7 12:11:32

深入浅出云计算 ---笔记

这是博主工作闲时的一些日常学习记录，有些之前很熟悉的，但工作中不常用，慢慢就遗忘了，在这里记录，也是为了激励自己坚持复习，如果有能帮到你，那我将感到非常的荣幸~ 快速到达↓↓↓ IaaS篇>&…...

编程日记 2024/12/7 12:10:31

ARINC 标准全解析：航空电子领域多系列标准的核心内容、应用与重要意义

ARINC标准概述 ARINC标准是航空电子领域一系列重要的标准规范，由航空电子工程委员会（AEEC）编制，众多航空公司等参与支持。这些标准涵盖了从飞机设备安装、数据传输到航空电子设备功能等众多方面，确保航空电子系统的兼…...

编程日记 2024/12/7 12:08:29

SNMP 协议介绍

SNMP 协议详细介绍 SNMP（Simple Network Management Protocol，简单网络管理协议）是一个用于管理和监控计算机网络设备（如路由器、交换机、服务器等）的协议。它允许网络管理员通过网络查看和控制这些设备的状态、配置和性能。 SNMP 协议定义了网络设备如何与管理系统进行通…...

编程日记 2024/12/7 12:06:26

Python中的数据结构深入解析：从列表到字典的优化技巧

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！ Python是一门以易用性和可读性著称的高级编程语言，其内置的数据结构为开发者提供了强大的工具，但了解其底层实现及性能优化策略却常被忽略。本文深入探讨Python中的核心数据结构，包括列表（list）、元组…...

编程日记 2024/12/7 12:04:23

如何利用Java爬虫获得商品类目

在当今数字化时代，数据已成为企业最宝贵的资产之一。获取和分析数据的能力对于任何希望在市场上保持竞争力的企业来说都是至关重要的。对于电子商务平台和市场研究公司而言，获取商品类目数据尤为重要，因为这些数据可以帮助他们更好地理解市场…...

编程日记 2024/12/7 12:03:23

力扣面试题 32 - 检查平衡性 C语言解法

题目： 实现一个函数，检查二叉树是否平衡。在这个问题中，平衡树的定义如下：任意一个节点，其两棵子树的高度差不超过 1。示例 1： 给定二叉树 [3,9,20,null,null,15,7]3/ \9 20/ \15 7 返回 true 。 …...

编程日记 2024/12/7 12:01:21

【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

ID3（Iterative Dichotomiser 3）是决策树的一种构造算法，由 Ross Quinlan 在 1986 年提出。它主要用于分类问题，通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征，且不支持连续型数据。 1. 核心思想划分标…...

编程日记 2024/12/7 12:00:18

Implicit style-content separation using lora

1.Introduction 图像风格化，这个任务涉及根据某些风格参考改编图像的风格，这些参考可以是基于文本或基于图像的，同时保持其内容不变，内容指的是图像的语义信息和结构，而风格通常指的是视觉特征和模式，例如颜色和纹理。这是一个有挑战的任务，因为风格和内容之间的强关联…...

编程日记 2024/12/7 11:59:17

ROS[aruco_ros+easy_handeye]手眼标定(眼在手外+UR10e+realsense-d435i)

参考链接： https://zhuanlan.zhihu.com/p/576861119 https://blog.csdn.net/qq_32618327/article/details/120730198 本次在Docker中使用打印Aruco码：https://chev.me/arucogen/ 选择Dictionary为 Original ArUco(aruco_ros默认这个，如果…...

编程日记 2024/12/7 11:58:14

第九篇：k8s 通过helm发布应用

什么是helm？ Helm 是 Kubernetes 的包管理器。Helm 是查找、分享和使用软件构建 Kubernetes 的最优方式。在红帽系的Linux中我们使用yum来管理RPM包，类似的，在K8s中我们可以使用helm来管理资源对象（Deployment、Service、Ingress…...

编程日记 2024/12/7 11:57:13

dataTable

在 C# 中，DataTable 是 .NET Framework 中用于处理数据表格的一个类，属于 System.Data 命名空间。它是一种内存中表示数据表的结构，通常用于临时存储和操作数据，类似于数据库中的表。DataTable 的主要特点是行列结构，其…...

编程日记 2024/12/7 11:56:12

别再被Windows权限卡脖子！用`--user`参数搞定pip安装报错（附详细排查步骤）

彻底解决Windows下Python包安装权限问题：从--user参数到环境配置全攻略在Windows系统上进行Python开发时，许多开发者都曾遭遇过这样的尴尬时刻：当你满怀期待地输入pip install package_name准备安装一个新工具时，屏幕上却突然跳出…...

编程新知 2026/5/19 16:30:45

【必记】2026年 {论文题} ｜范文记忆提纲-A

第一篇：规划绩效域《论信息系统项目的规划绩效域》一、项目背景段落1：平台立项背景目的：推进智能制造建筑工业化，达成高效、高质、低耗、低排发起方：市住建局平台模块：十大功能模块（市场监管、安…...

编程新知 2026/5/19 14:07:32

无王无帝定乾坤，来自田间第一人海棠藏圣定山河

无王无帝定乾坤，来自田间第一人。自古山河安定，世人皆归功于帝王镇守、朝堂统御， 仿佛万里乾坤唯有王权可镇、唯有霸业可安。然则山河气运自有天道，世间安定自有公理， 强权只能维系一时疆域，正道方能稳固…...

编程新知 2026/5/19 13:46:08

5分钟快速上手NewGAN-Manager：为足球经理打造个性化脸型包

5分钟快速上手NewGAN-Manager：为足球经理打造个性化脸型包【免费下载链接】NewGAN-Manager A tool to generate and manage xml configs for the Newgen Facepack. 项目地址: https://gitcode.com/gh_mirrors/ne/NewGAN-Manager NewGAN-Manager 是一款专门为…...

编程新知 2026/5/19 13:19:24

终极图片转3D模型解决方案：ImageToSTL完整指南与性能优化

终极图片转3D模型解决方案：ImageToSTL完整指南与性能优化【免费下载链接】ImageToSTL This tool allows you to easily convert any image into a 3D print-ready STL model. The surface of the model will display the image when illuminated from the left sid…...

编程新知 2026/5/19 12:40:09

拷贝漫画第三方客户端完全解析：解锁高效漫画阅读新体验

拷贝漫画第三方客户端完全解析：解锁高效漫画阅读新体验【免费下载链接】copymanga 拷贝漫画的第三方APP，仅提供基础功能，更多丰富功能请移步官方版本项目地址: https://gitcode.com/gh_mirrors/co/copymanga 在数字阅读日益普及的今…...

编程新知 2026/5/19 12:03:57

CentOS 8.5最小化安装实战：为什么我只选Minimal Install，以及后续必装的10个软件包

CentOS 8.5最小化安装实战：为什么我只选Minimal Install，以及后续必装的10个软件包当你面对CentOS 8.5安装界面中那个看似简单的"Software Selection"选项时，是否曾犹豫过该选择哪个？作为一个经历过无数次系统安装的老…...

编程新知 2026/5/19 11:53:09

PHPWord替换word模板内容时，存在表格，且不确定表格行数的处理方式

PHPWord替换word模板内容时，存在表格，且不确定表格行数的处理方式想得到的目标表格表格可能存在若干行，需要循环生成，插入到word模板中 word模板实现过程 1、Composer安装 phpword composer require phpoffice/phpword2、实现代码 //模拟数据 $data = [[...

编程新知 2026/5/19 11:26:53

【亲测免费】普冉PY32F002A移植FreeRTOS资源文件

普冉PY32F002A移植FreeRTOS资源文件【下载地址】普冉PY32F002A移植FreeRTOS资源文件本资源文件提供了将FreeRTOS V9.0移植到普冉M0芯片PY32F002A的完整示例。开发环境基于KEIL，并使用了LL库进行移植。该示例展示了如何在PY32F002A芯片上运行四个任务，并…...

编程新知 2026/5/19 11:05:27

从Windows迁移者的视角：中兴新支点NewStartOS上手初体验与软件兼容性实测

从Windows迁移者的视角：中兴新支点NewStartOS上手初体验与软件兼容性实测作为一名长期使用Windows系统的普通用户，第一次接触国产操作系统时难免会有诸多疑虑：界面是否熟悉？常用软件能否运行？外设驱动是否完善&#…...

编程新知 2026/5/19 11:03:18

【音频识别】数据集合集！

相关文章：

【音频识别】数据集合集！

Nginx核心配置详解

智能工厂的设计软件用“力force”的性质构造智能体原型

Apache AGE：基于PostgreSQL的图数据库

RabbitMQ延迟消息的实现

SAP在中国：助力企业跨越成长的新篇章

数据结构代码归纳

数仓技术hive与oracle对比（一）

筑起厂区安全--叉车安全防护装置全解析

深入浅出云计算 ---笔记

ARINC 标准全解析：航空电子领域多系列标准的核心内容、应用与重要意义

SNMP 协议介绍

Python中的数据结构深入解析：从列表到字典的优化技巧

如何利用Java爬虫获得商品类目

力扣面试题 32 - 检查平衡性 C语言解法

【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

Implicit style-content separation using lora

ROS[aruco_ros+easy_handeye]手眼标定(眼在手外+UR10e+realsense-d435i)

第九篇：k8s 通过helm发布应用

dataTable

别再被Windows权限卡脖子！用`--user`参数搞定pip安装报错（附详细排查步骤）

【必记】2026年 {论文题} ｜范文记忆提纲-A

无王无帝定乾坤，来自田间第一人海棠藏圣定山河

5分钟快速上手NewGAN-Manager：为足球经理打造个性化脸型包

终极图片转3D模型解决方案：ImageToSTL完整指南与性能优化

拷贝漫画第三方客户端完全解析：解锁高效漫画阅读新体验

CentOS 8.5最小化安装实战：为什么我只选Minimal Install，以及后续必装的10个软件包

PHPWord替换word模板内容时，存在表格，且不确定表格行数的处理方式

【亲测免费】普冉PY32F002A移植FreeRTOS资源文件

从Windows迁移者的视角：中兴新支点NewStartOS上手初体验与软件兼容性实测