当前位置: 首页 > news >正文

【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结合潜力,开始尝试将它们应用于影视字幕的翻译工作中。

在这个创新的翻译流程中,Whisper扮演着至关重要的角色。它能够将音频或视频文件中的语音内容精准地转录成字幕文本,为后续的翻译工作奠定了坚实的基础。而一旦字幕文本生成完毕,字幕组便会调用ChatGPT、Google Translate等翻译软件,将字幕文本翻译成观众所需的语言。

这种结合Whisper与ChatGPT的翻译方式,不仅提高了字幕翻译的准确性,还极大地提升了工作效率。它让字幕制作团队能够更加轻松、高效地完成影视字幕的翻译工作,为观众带来更加优质的观影体验。

目录

实现流程

SubtitleEdit Online​​​​​​​

Buzz

N46Whisper

Subs AI

PyAutoSRT

caption2text


实现流程

  1. 调用Whsiper转录音频/视频文件,得到带时间轴的文本字幕 。
  2. 人工校对审核相应的文本字幕
  3. 使用ChatGPT、Google Translate、DeepL等将文本字幕翻译为指定语言

SubtitleEdit Online​​​​​​​

Nikse.dkicon-default.png?t=O83Ahttps://www.nikse.dk/subtitleedit/onlineSubtitleEdit Online是一个功能全面的在线字幕编辑工具,专为视频制作者、翻译者和字幕爱好者设计。SubtitleEdit Online支持包括SubRip (SRT)、MicroDVD、Advanced Sub Station Alpha (ASS)、Sub Station Alpha (SSA)、D-Cinema等在内的多种字幕格式,几乎涵盖了市面上所有常见的字幕格式。用户可以轻松创建新的字幕行,并对现有字幕行的内容和时间进行调整,以满足不同的字幕编辑需求。

SubtitleEdit Online集成了DirectShow、VLC媒体播放器或MPlayer,方便用户在编辑字幕时预览视频,实现字幕与视频的完美匹配。通过提供波形和/或频谱图显示,用户可以更准确地同步字幕与音频内容,确保字幕的准确性和流畅性。编辑完成后,用户可以将字幕导出为所需的格式,以便在其他平台或设备上使用。

 

Buzz

https://github.com/chidiwilliams/buzzicon-default.png?t=O83Ahttps://github.com/chidiwilliams/buzz

  • ​​​​​​​导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT
  • 从计算机的麦克风转录和翻译为文本(资源密集型,可能不是实时的,演示)
  • 支持 Whisper、Whisper.cpp、Faster Whisper、Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
  • 命令行界面
  • 适用于 Mac、Windows 和 Linux

Buzz 在 App Store 上表现更好。获取 Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。

​​​​​​​

N46Whisper

https://github.com/Ayanaminn/N46Whispericon-default.png?t=O83Ahttps://github.com/Ayanaminn/N46Whisper

N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46字幕组的工作效率,适于许多日语视频的字幕制作。此应用基于AI语音识别模型 Whisper的优化部署 faster-whisper.

在输出方面,N46Whisper生成的字幕文件采用了ass格式,并内置了特定字幕组的字幕格式规范,用户只需将生成的字幕文件直接导入Aegisub软件,即可轻松进行后续的翻译及时间轴校正工作,极大地简化了字幕制作的流程。

应用现在可以使用AI翻译工具对转录的文本进行逐行翻译。用户也可以单独上传srt或ass文件来使用翻译模块。目前支持chatGPT 的翻译。

翻译后的文本将于原文合并在一行,以 /N分割,生成双语对照字幕。

例如:

QQ截图20230312155700

双语字幕效果为:

QQ截图20230312160015​​​​​​​

Subs AI

​​​​​​​https://github.com/abdeladim-s/subsaiicon-default.png?t=O83Ahttps://github.com/abdeladim-s/subsai

Subs AI是一个强大的开源工具,它结合了OpenAI的Whisper模型及其变体,提供了网页界面(Web-UI)、命令行接口(CLI)以及Python包,致力于自动化字幕生成。Subs AI由abdeladim-s发起和维护,是一个基于GitHub的开源项目。

​​​​​​​Subs AI集成了whisper.cpp和faster-whisper等高效率的推理引擎,实现了更快更节省资源的模型运行。除了基础的字幕生成外,Subs AI还具备字幕修改、翻译、同步调整等多种辅助功能,一站式解决字幕处理问题。

PyAutoSRT

GitHub - botbahlul/PyAutoSRT: PySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio filePySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio file - botbahlul/PyAutoSRTicon-default.png?t=O83Ahttps://github.com/botbahlul/PyAutoSRT

PyAutoSRT是一个基于PySimpleGUI的桌面应用程序,它利用免费的Google Speech Recognition API自动生成字幕文件,并可使用非官方的在线Google Translate API将字幕文件翻译成其他语言。

​​​​​​​

caption2text

https://github.com/F-loat/caption2texticon-default.png?t=O83Ahttps://github.com/F-loat/caption2text​​​​​​​PWA 版字幕转换为文本工具,支持 ass 及 srt 格式,可批量导出为 word 及 text 文件​​​​​​​

 

相关文章:

【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结…...

学成在线——关于nacos配置优先级的坑

出错: 本地要起两个微服务,一个是content-api,另一个是gateway网关服务。 发现通过网关服务请求content微服务时,怎么请求都请求不到。 配置如下: content-api-dev.yaml的配置: server:servlet:context-p…...

Nginx在Windows Server下的启动脚本

Nginx在Windows Server下的快捷运行脚本 使用时记得修改NGINX_DIR路径 ECHO OFF CHCP 65001 SET NGINX_DIRD:\software\Nginx\ color 0a TITLE Nginx Management GOTO MENU :MENU CLS ECHO. ECHO. * * * * Nginx Management * * * * * * * * * * * ECHO. * * EC…...

【国科大】C++程序设计秋季——五子棋

【国科大】C程序设计秋季 —— 五子棋程序 下载地址:https://mbd.pub/o/bread/Zp2Ukptx...

Docker 环境下多节点服务器监控实战:从 Prometheus 到 Grafana 的完整部署指南

Docker 环境下多节点服务器监控实战:从 Prometheus 到 Grafana 的完整部署指南 文章目录 Docker 环境下多节点服务器监控实战:从 Prometheus 到 Grafana 的完整部署指南一 多节点部署1 节点一2 节点二3 节点三 二 监控节点部署三 配置 prometheus.yml四 …...

【动手学深度学习】6.3 填充与步幅(个人向笔记)

卷积的输出形状取决于输入形状和卷积核的形状在应用连续的卷积后,我们最终得到的输出大小远小于输入大小,这是由于卷积核的宽度和高度通常大于1导致的比如,一个 240 240 240240 240240像素的图像,经过10层 5 5 55 55的卷积后&am…...

【宝可梦】游戏

pokemmo https://pokemmo.com/zh/ 写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶...

docker启动的rabbitmq如何启动其SSL功能

docker run --hostname my-rabbit --name my-rabbit -p 5671:5671 -p 15671:15671 -p 15672:15672 -e RABBITMQ_DEFAULT_USERabc -e RABBITMQ_DEFAULT_PASSabc -d rabbitmq:4.0-management 使用docker的复制命令将ca.crt、server.crt和server.key文件复制到容器的/etc/server_s…...

易基因: cfMeDIP-seq揭示cfDNA甲基化高效区分原发性和转移性前列腺|Nat Commun

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 前列腺癌(Prostate cancer,PCa)是男性中第二常见的恶性肿瘤,也是全球癌症相关死亡的第三大原因。虽然大多数原发性前列腺癌可以治愈&#…...

CMake 教程跟做与翻译 4

目录 添加一个option! 添加一个option! option,正如其意,就是选项的意思。我们这里需要演示一下option的做法。 option对于大型的工程必然是非常常见的:一些模块会被要求编译,另一些客户不准备需要这些模块。option就是将这种需…...

MySQL面试题分享

慢日志(了解) 慢日志开启的变量:slow_query_logON; 如果值为 OFF ,那就是没有开启慢日志 耗时: long_query_time,默认是10秒 redis 和 mysql 慢日志的区别 redis 慢日志默认是没有开启的 mysql 慢日志默认是开启的…...

vue路由缓存问题

什么是路由缓存问题 解决方案&#xff1a; 让组件实例不再复用&#xff0c;强制销毁重建监听路由变化&#xff0c;变化之后执行数据更新操作 方法一 给 routerv-view 添加key属性&#xff0c;强制不添加缓存&#xff0c;破坏缓存&#xff0c;所以这个方法性能会比较差 <Ro…...

RabbitMQ中如何解决消息堆积问题,如何保证消息有序性

RabbitMQ中如何解决消息堆积问题 如何保证消息有序性 只需要让一个消息队列只对应一个消费者即可...

python爬虫案例——selenium爬取淘宝商品信息,实现翻页抓取(14)

文章目录 1、任务目标2、网页分析3、代码编写3.1 代码分析3.2 完整代码1、任务目标 目标网站:淘宝(https://www.taobao.com/) 任务要求:通过selenium实现自动化抓取 淘宝美食 板块下的所有商品信息,并实现翻页抓取,最后以csv格式将数据保存至本地;如: 2、网页分析 首先…...

在VSCode中使用Excalidraw

概述 Excalidraw是一款非常不错的示意图绘制软件&#xff0c;没想到在VSCode中有其扩展&#xff0c;可以在VScode中直接使用。 安装扩展 使用 需要创建.excalidraw.svg、.excalidraw或.excalidraw.png等名称的文件。 搭配手写版使用 自由画笔工具可以配合手写板&#xff0c…...

25中国投资中投笔试测评秋招校招SHL笔试题型分享

✅中投公司不必过多介绍&#xff0c;和建总都位于金融央企第一档&#xff0c;但是招人更少&#xff0c;竞争更为激烈&#xff0c;看公示录用名单都是清北的金融硕士&#xff0c;投资岗难度更大。 ✅中投公司的笔试往年都是shl系统&#xff0c;但考察范围非常广&#xff0c;包含…...

【LeetCode热题100】分治-快排

本篇博客记录分治快排的4道题目&#xff1a;颜色分类、排序数组、数组中的第K个最大元素、数组中最小的N个元素&#xff08;库存管理&#xff09;。 class Solution { public:void sortColors(vector<int>& nums) {int n nums.size();int left -1,right n;for(int…...

Docker 教程四 (Docker 镜像加速)

Docker 镜像加速 国内从 DockerHub 拉取镜像有时会遇到困难&#xff0c;此时可以配置镜像加速器。 目前国内 Docker 镜像源出现了一些问题&#xff0c;基本不能用了&#xff0c;后期能用我再更新下。* Docker 官方和国内很多云服务商都提供了国内加速器服务&#xff0c;例如…...

各类排序详解

前言 本篇博客将为大家介绍各类排序算法&#xff0c;大家知道&#xff0c;在我们生活中&#xff0c;排序其实是一件很重要的事&#xff0c;我们在网上购物&#xff0c;需要根据不同的需求进行排序&#xff0c;异或是我们在高考完报志愿时&#xff0c;需要看看院校的排名&#…...

【c语言——指针详解(4)】

文章目录 一、回调函数是什么&#xff1f;二、qsort的使⽤1、使⽤qsort函数排序整型数据2、使⽤qsort排序结构数据 三、qsort函数的模拟实现 作者主页 一、回调函数是什么&#xff1f; 回调函数就是⼀个通过函数指针调⽤的函数。 如果你把函数的指针&#xff08;地址&#xf…...

微信小程序 - 手机震动

一、界面 <button type"primary" bindtap"shortVibrate">短震动</button> <button type"primary" bindtap"longVibrate">长震动</button> 二、js逻辑代码 注&#xff1a;文档 https://developers.weixin.qq…...

P3 QT项目----记事本(3.8)

3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

Mac软件卸载指南,简单易懂!

刚和Adobe分手&#xff0c;它却总在Library里给你写"回忆录"&#xff1f;卸载的Final Cut Pro像电子幽灵般阴魂不散&#xff1f;总是会有残留文件&#xff0c;别慌&#xff01;这份Mac软件卸载指南&#xff0c;将用最硬核的方式教你"数字分手术"&#xff0…...

2025盘古石杯决赛【手机取证】

前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来&#xff0c;实在找不到&#xff0c;希望有大佬教一下我。 还有就会议时间&#xff0c;我感觉不是图片时间&#xff0c;因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上&#xff0c;所以报错&#xff0c;到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本&#xff0c;cu、torch、cp 的版本一定要对…...

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI&#xff08;https://spring.io/projects/spring-ai&#xff09;作为Spring生态中的AI集成框架&#xff0c;其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似&#xff0c;但特别为多语…...

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件&#xff0c;所以得把软件用docker打包起来&#xff0c;大部分功能都没问题&#xff0c;出了一个奇怪的事情。同样的代码&#xff0c;在本机上用vscode可以运行起来&#xff0c;但是打包之后在docker里出现了问题。使用的是dialog组件&#xff0c;…...

sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求&#xff0c;并检查收到的响应。它以以下模式之一…...

面向无人机海岸带生态系统监测的语义分割基准数据集

描述&#xff1a;海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而&#xff0c;目前该领域仍面临一个挑战&#xff0c;即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

Proxmox Mail Gateway安装指南:从零开始配置高效邮件过滤系统

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storms…...