当前位置：首页 > news >正文

AI搞钱——工具篇之视频、音频转文字

news 2026/4/7 17:36:14

AI搞钱

工具篇之视频、音频转文字
- Memo AI ：本地的语音转文字工具
- Whisper
- pyvideotrans
- notta
- Accurate AI
- 万兴优转视频转换压缩工具v14.1.19.20

工具篇之视频、音频转文字

哈喽各位小伙伴们！今天我要给大家推荐几款视频、音频转文字的好用工具。

Memo AI ：本地的语音转文字工具

多语言支持：支持将九十种语言进行转换，包括中文、日语、英语、韩语、德语、法语、西班牙语、葡萄牙语以及其他小语种；
AI 总结翻译：提供优秀的 Open AI 技术，可用于总结视频内容并翻译字幕，是目前最出色的 AI 字幕翻译工具之一；
实时字幕显示：以流转录方式运作，可实时显示字幕，让您在观看视频的同时获取字幕文本；
多种格式导出：支持将转录结果导出为 Markdown 文本、SRT 字幕格式，方便在各类平台和工具上使用，包括 Notion；
GPU 加速支持：支持在 Windows 设备上利用 GPU 加速，使得转录时间大大缩短，例如仅需2分钟即可完成30分钟的播客视频转录；
悬浮视频笔记：支持根据视频时间戳进行截图和添加书签，使得您的笔记和视频形成互相关联，方便日后回顾和复习；
英文智能断句：根据所选长度，自动生成完整的句子，提供智能化的英文断句功能。

官网链接：https://memo.ac（111）

Whisper

开源语音转文字工具，基于 OpenAI 的 Whisper 语音识别模型，支持 GPU、实时语音转换，在英语语音识别方面的稳健性和准确性接近人类水平。

高度准确：Whisper采用了先进的自然语言处理和语音识别技术，能够以很高的准确性将语音视频转换为文字。
实时性：Whisper具备实时转换功能，可以在语音或视频传输时立即将其转换为文字，提供即时信息获取的能力。
多语言支持：Whisper支持多种语言的转换，这对于处理不同语言的语音视频内容非常有用。
高度可定制：Whisper提供了丰富的配置选项，可以根据需求进行自定义设置，以实现最佳的转换效果。

官网链接：https://github.com/Const-me/Whisper

pyvideotrans

PyVideoTrans是一个用Python编写的开源视频翻译和配音工具，可将一种语言的视频翻译为另一种语言和配音的视频，语音识别基于 openai-whisper 离线模型、文字翻译使用google、baidu、chatGPT翻译接口，文字合成语音使用 Microsoft Edge tts，支持Windows系统

多格式支持：PyVideoTrans支持常见的视频文件格式，如MP4、AVI、MKV、MOV等。用户可以根据需要选择输入和输出格式。
批量转换：PyVideoTrans提供了批量转换的功能，可以一次性转换多个视频文件，提高工作效率。
视频参数设置：用户可以自定义转换过程中的视频参数，如分辨率、帧率、视频质量等。这使得用户能够根据自己的需求对视频进行精细调整。
剪辑和裁剪功能：PyVideoTrans支持视频的剪辑和裁剪，用户可以选择需要保留的视频片段，或者裁剪掉不需要的部分。这可用于制作视频片段、截取有用的内容等。
添加字幕和水印：PyVideoTrans还提供了添加字幕和水印的功能，用户可以在视频中添加文字、时间戳等元素，以个性化视频内容。
简单易用：PyVideoTrans的使用方法简单直观，用户只需提供输入文件路径和设置转换参数即可开始转换。它还提供了友好的用户界面，使得操作更加方便。

总的来说，PyVideoTrans是一个功能强大、易于使用的视频转换工具，适用于各种视频转换需求。

官网链接：https://github.com/jianchang512/pyvideotrans

notta

Notta 是一款音频转文字的工具，它能够将你的音频录音转换为文字。无论是会议记录、采访转录还是学习笔记，Notta都能帮助你快速而准确地将音频内容转化为文字。使用Notta，你可以轻松地编辑、搜索和分享转录好的文字内容，提高工作效率和信息管理能力。

官网链接：https://www.notta.ai/en

Accurate AI

一款通过AI技术将音视频转文字的工具。可准确转录采访、会议、演讲等语音内容。支持多种语言,错误率低。平均每小时音频12分钟可以交付。

官网链接：https://riverside.fm/transcription

万兴优转视频转换压缩工具v14.1.19.20

1.视频转换器,视频压缩器，无损压缩视频/音频文件。
2.视频合并将多个视频合并成一个视频。
3.电脑录屏/录音自定义电脑录屏尺寸.播放器免费播放4K/8K高清视频。
4.语音转文字将视频和音频转换为文字
5.GIF动画制作用视频或照片制作Gif。
6.变声器将人的声音转换成男人.女人、孩子、机器人和其他声音。
7.人声分离，自动将人声从音乐中分离。

移动云盘下载：https://caiyun.139.com/m/i?145CGJSVUVY8V

AI搞钱——工具篇之视频、音频转文字

AI搞钱工具篇之视频、音频转文字Memo AI ：本地的语音转文字工具WhisperpyvideotransnottaAccurate AI万兴优转视频转换压缩工具v14.1.19.20 工具篇之视频、音频转文字哈喽各位小伙伴们！今天我要给大家推荐几款视频、音频转文字的好用工具。 Memo A…...

编程日记 2023/11/13 17:41:07

基于Qt 多线程（继承自QThread篇）

# 简介我们写的一个应用程序，应用程序跑起来后一般情况下只有一个线程，但是可能也有特殊情况。比如我们前面章节写的例程都跑起来后只有一个线程，就是程序的主线程。线程内的操作都是顺序执行的。恩，顺序执行？试着想一下，我们的程序顺序执行，假设我们的用户界面点击有某…...

编程日记 2023/11/13 17:40:06

oled显示器程序（IIC）从stm32f103移植到stm32f429出现bug不显示-解决移植失败问题

出现问题处： 刚开始更换了这两行代码，然后更换位置后，oled正常显示，如下为正确顺序 I2C_Configuration();//配置CPU的硬件I2COLED_Init();//OLED初始化在这段代码中，I2C_Configuration() 函数用于配置CPU的硬件 I2C…...

编程日记 2023/11/13 17:39:05

【论文阅读】FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning

论文下载 GitHub bib: INPROCEEDINGS{wang2023freematch,title {FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning},author {Wang, Yidong and Chen, Hao and Heng, Qiang and Hou, Wenxin and Fan, Yue and and Wu, Zhen and Wang, Jindong and Savv…...

编程日记 2023/11/13 17:38:04

工业网关贴牌厂家有哪些？工业网关OEM厂家怎么选？

随着物联网技术的不断发展，市面上不断涌现出各种工业物联网厂商。中小型物联网企业苦于有技术，但是生产能力受限，需要寻找OEM代工厂家。但是在如何选择OEM代工厂家时又犯了难。工业网关类产品属于技术密集型产品，对厂家的生产能力…...

编程日记 2023/11/13 17:37:03

NetSuite 固定资产报表自定义原理及应用

NetSuite固定资产模块一直处于功能迭代更新中，目前23.2的版本能够支持报表的局部自定义，比如增加原值或已折旧期间，甚至固定资产自定义字段等。但是当我们在实际项目中，会遇到一些挑战，例如： 固定资产原值…...

编程日记 2023/11/13 17:36:03

【复杂网络建模】——基于关联矩阵构建超图网络

目录一、复杂网络介绍二、常规的构建方法三、基于关联矩阵构建超图一、复杂网络介绍复杂网络是指由大量相互连接的元素或节点构成的网络，这些节点之间的连接关系通常是非常复杂和多样化的。这种网络结构通常用图论来表示，其中节点表示网络中的个体或元素，边表示它们…...

编程日记 2023/11/13 17:35:02

学习c#的第八天

目录 C# 方法 C# 中定义方法 C# 中调用方法递归方法调用参数传递值参数引用参数输出参数常见题 ref 和 out 的区别方法中参数的类型有几种扩展方法对于复杂引用类型参数传递的控制 C# 方法 C# 中定义方法在C#中定义方法时，需要遵循以下结构…...

编程日记 2023/11/13 17:34:01

我心目中的分布式操作系统

这是一位网友发给我的文字，我原样复制粘贴发出来给大家，他的观点我不过多评论，也不代表公司和研发团队的立场，但是最后一段本人不同意，因为Laxcus分布式操作系统已经发布了六个版本，在很多领域广泛部署使用…...

编程日记 2023/11/13 17:32:59

新型的铁塔基站“能源管家”

安科瑞崔丽洁引言：随着5G基站的迅猛发展，基站的能耗问题也越来越突出，高效可靠的基站配电系统方案，是提高基站能耗使用效率，实现基站节能降耗的重要保证，通过多回路仪表监测每个配电回路的用电负载情况&a…...

编程日记 2023/11/13 17:31:59

数字孪生智慧园区：大数据驱动下的运营管理革新

随着物联网、大数据、云计算等技术的飞速发展，数字孪生技术应运而生，它将物理世界与数字世界紧密连接起来，为各行各业提供了前所未有的解决方案。智慧园区作为城市的重要组成部分，通过数字孪生技术，可以实现更加高效、…...

编程日记 2023/11/13 17:30:58

sqli-labs关卡12(基于post提交的双引号闭合的字符型注入)通关思路

文章目录前言一、回顾第十一关知识点二、靶场第十二关通关思路1、判断注入点2、爆显位个数3、爆显位位置4、爆数据库名5、爆数据库表名6、爆数据库列名7、爆数据库数据总结前言此文章只用于学习和反思巩固sql注入知识，禁止用于做非法攻击。注意靶场是可以练习的…...

编程日记 2023/11/13 17:29:57

开放领域问答机器人2——开发流程和方案

开放领域问答机器人是指在任何领域都能够回答用户提问的智能机器人。与特定领域问答机器人不同，开放领域问答机器人需要具备更广泛的知识和更灵活的语义理解能力，以便能够回答各种不同类型的问题。开发开放领域问答机器人的流程和方案可以包括以下步骤…...

编程日记 2023/11/13 17:28:56

pandas 常用45个操作方法（详解）

1、query函数进行数据筛选相当于 bool 索引 data.query("Graduate_year==2020 & Language==Java")df.query("Language in [CPP,C,C#]") pandas.DataFrame.query(self, expr, inplace = False, **kwargs)Expr 评估查询字符inplace=False 修改数…...

编程日记 2023/11/13 17:27:55

PHP判断扫码支付扫码条码支付宝微信区分

微信：用户付款码规则：18位纯数字，前缀以10、11、12、13、14、15开头支付宝：25~30开头的长度为16~24位的数字，实际字符串长度以开发者获取的付款码长度为准 <?php /*** 判断扫码支付的方式* param string $code 扫…...

编程日记 2023/11/13 17:26:54

一文了解芯片测试项目和检测方法 -纳米软件

芯片检测是芯片设计、生产、制造成过程中的关键环节，检测芯片的质量、性能、功能等，以满足设计要求和市场需求，确保芯片可以长期稳定运行。芯片测试内容众多，检测方法多样，今天纳米软件将为您介绍芯片的检测项目都有哪…...

编程日记 2023/11/13 17:25:54

【npm 错误】：npm ERR! code ERESOLVE、npm ERR! ERESOLVE could not resolve问题

用过npm的小伙伴都会有这么一个情况出现，就是npm install /npm install xxxx 会出现改一连串的错误，如下： 解决办法： 只要在npm install后面加上--legacy-peer-deps就可以解决问题,安装插件也一样 npm install --legacy-peer-dep…...

编程日记 2023/11/13 17:24:52

【FastCAE源码阅读8】调用gmsh生成网格

FastCAE使用gmsh进行网格划分，划分的时候直接启动一个新的gmsh进程，个人猜测这么设计是为了规避gmsh的GPL协议风险。进行网格划分时，其大体运行如下图： 一、Python到gmshModule模块 GUI操作到Python这步不再分析，比…...

编程日记 2023/11/13 17:23:52

使用LLM-Tuning实现百川和清华ChatGLM的Lora微调

LLM-Tuning项目源码： GitHub - beyondguo/LLM-Tuning: Tuning LLMs with no tears💦, sharing LLM-tools with love❤️.Tuning LLMs with no tears💦, sharing LLM-tools with love❤️. - GitHub - beyondguo/LLM-Tuning: Tuning LLMs wit…...

编程日记 2023/11/13 17:22:51

浏览器标签页之间的通信

前言在开发管理后台页面的时候，会遇到这样一种需求：有一个列表页面，一个新增按钮，一个新增页面，点击新增按钮，在一个新的标签页中打开新增页面。并且，新增后要自动实时的更新列表页面的数据。…...

编程日记 2023/11/13 17:21:49

MVP.css暗黑模式终极指南：如何完美适配用户偏好与系统设置

MVP.css暗黑模式终极指南：如何完美适配用户偏好与系统设置【免费下载链接】mvp MVP.css — Minimalist classless CSS stylesheet for HTML elements 项目地址: https://gitcode.com/gh_mirrors/mv/mvp MVP.css是一款极简主义的无类CSS样式表，为…...

编程新知 2026/4/7 17:18:50

新手友好：5步完成Llama3-8B对话系统的本地部署

新手友好：5步完成Llama3-8B对话系统的本地部署 1. 引言：为什么选择Llama3-8B？ 如果你对AI对话模型感兴趣，想自己动手搭建一个，但又担心过程太复杂、电脑配置不够，那今天这篇文章就是为你准备的。 Meta-L…...

编程新知 2026/4/7 16:26:31

为什么92%的FastAPI AI服务在流式响应阶段丢失OAuth2 scope校验？——基于200+生产环境trace数据的权威归因分析

第一章：FastAPI 2.0异步AI流式响应安全性最佳方案总览在 FastAPI 2.0 中，原生支持 async/await 与 StreamingResponse 的深度集成，使大语言模型（LLM）推理结果可实现低延迟、内存友好的逐 token 流式返回。但流式响应天…...

编程新知 2026/4/7 15:11:00

CentOS 7.6 下 OpenGauss 6.0 极简版安装踩坑实录：从用户权限到远程连接的全流程避坑

CentOS 7.6 下 OpenGauss 6.0 极简版安装实战：从权限配置到远程访问的深度排坑指南国产数据库的崛起让OpenGauss逐渐成为企业级应用的新选择。但初次部署时，从用户权限到环境变量配置的每个环节都可能成为"拦路虎"。本文将带你穿越安装全流程…...

编程新知 2026/4/7 13:57:29

解锁3大维度：Helix Toolkit如何重构.NET开发者的3D开发体验

解锁3大维度：Helix Toolkit如何重构.NET开发者的3D开发体验【免费下载链接】helix-toolkit Helix Toolkit is a collection of 3D components for .NET. 项目地址: https://gitcode.com/gh_mirrors/he/helix-toolkit Helix Toolkit是一套功能完备的.NET 3D组…...

编程新知 2026/4/7 13:53:26

保姆级教程：在Ubuntu 20.04上用ROS1和Python搞定PX4飞控IMU标定（附完整脚本）

从零到精通的PX4飞控IMU标定实战指南第一次接触PX4飞控的IMU标定，就像拿到一台新相机却不知道如何调焦——明明硬件很强大，却因为参数不准而发挥不出全部性能。IMU作为飞行控制的核心传感器，其标定质量直接决定了无人机能否稳定悬停、精准转…...

编程新知 2026/4/7 13:08:48

3步搞定Windows卡顿：Win11Debloat系统优化工具使用全攻略

3步搞定Windows卡顿：Win11Debloat系统优化工具使用全攻略【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and…...

编程新知 2026/4/7 12:38:10

万象视界灵坛从零开始：开源多模态平台GPU算力适配与显存调优指南

万象视界灵坛从零开始：开源多模态平台GPU算力适配与显存调优指南 1. 平台概述与核心价值万象视界灵坛是一款基于OpenAI CLIP模型的高级多模态智能感知平台，它将复杂的语义对齐任务转化为直观的像素风格交互体验。平台采用CLIP-ViT-L/14作为核心模型&a…...

编程新知 2026/4/7 11:55:41

内网开发不求人：保姆级教程搞定Visual Studio 2022与QT 5.12.12离线环境搭建

内网开发不求人：保姆级教程搞定Visual Studio 2022与QT 5.12.12离线环境搭建在企业内网开发环境中，由于安全规定或网络限制，开发者常常面临无法连接互联网的困境。这种情况下，如何一次性、完整地部署C与QT开发环境成为许多IT支持…...

编程新知 2026/4/7 11:06:59

Qwen3-TTS-Tokenizer-12Hz优化技巧：如何提升语音压缩与重建速度？

Qwen3-TTS-Tokenizer-12Hz优化技巧：如何提升语音压缩与重建速度？ 1. 理解Qwen3-TTS-Tokenizer-12Hz的核心优势 1.1 超低采样率带来的效率革命 Qwen3-TTS-Tokenizer-12Hz最显著的特点是12Hz的超低采样率。这意味着： 传统音频处理通常使用1…...

编程新知 2026/4/7 11:02:58