当前位置: 首页 > news >正文

【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结合潜力,开始尝试将它们应用于影视字幕的翻译工作中。

在这个创新的翻译流程中,Whisper扮演着至关重要的角色。它能够将音频或视频文件中的语音内容精准地转录成字幕文本,为后续的翻译工作奠定了坚实的基础。而一旦字幕文本生成完毕,字幕组便会调用ChatGPT、Google Translate等翻译软件,将字幕文本翻译成观众所需的语言。

这种结合Whisper与ChatGPT的翻译方式,不仅提高了字幕翻译的准确性,还极大地提升了工作效率。它让字幕制作团队能够更加轻松、高效地完成影视字幕的翻译工作,为观众带来更加优质的观影体验。

目录

实现流程

SubtitleEdit Online​​​​​​​

Buzz

N46Whisper

Subs AI

PyAutoSRT

caption2text


实现流程

  1. 调用Whsiper转录音频/视频文件,得到带时间轴的文本字幕 。
  2. 人工校对审核相应的文本字幕
  3. 使用ChatGPT、Google Translate、DeepL等将文本字幕翻译为指定语言

SubtitleEdit Online​​​​​​​

Nikse.dkicon-default.png?t=O83Ahttps://www.nikse.dk/subtitleedit/onlineSubtitleEdit Online是一个功能全面的在线字幕编辑工具,专为视频制作者、翻译者和字幕爱好者设计。SubtitleEdit Online支持包括SubRip (SRT)、MicroDVD、Advanced Sub Station Alpha (ASS)、Sub Station Alpha (SSA)、D-Cinema等在内的多种字幕格式,几乎涵盖了市面上所有常见的字幕格式。用户可以轻松创建新的字幕行,并对现有字幕行的内容和时间进行调整,以满足不同的字幕编辑需求。

SubtitleEdit Online集成了DirectShow、VLC媒体播放器或MPlayer,方便用户在编辑字幕时预览视频,实现字幕与视频的完美匹配。通过提供波形和/或频谱图显示,用户可以更准确地同步字幕与音频内容,确保字幕的准确性和流畅性。编辑完成后,用户可以将字幕导出为所需的格式,以便在其他平台或设备上使用。

 

Buzz

https://github.com/chidiwilliams/buzzicon-default.png?t=O83Ahttps://github.com/chidiwilliams/buzz

  • ​​​​​​​导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT
  • 从计算机的麦克风转录和翻译为文本(资源密集型,可能不是实时的,演示)
  • 支持 Whisper、Whisper.cpp、Faster Whisper、Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
  • 命令行界面
  • 适用于 Mac、Windows 和 Linux

Buzz 在 App Store 上表现更好。获取 Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。

​​​​​​​

N46Whisper

https://github.com/Ayanaminn/N46Whispericon-default.png?t=O83Ahttps://github.com/Ayanaminn/N46Whisper

N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46字幕组的工作效率,适于许多日语视频的字幕制作。此应用基于AI语音识别模型 Whisper的优化部署 faster-whisper.

在输出方面,N46Whisper生成的字幕文件采用了ass格式,并内置了特定字幕组的字幕格式规范,用户只需将生成的字幕文件直接导入Aegisub软件,即可轻松进行后续的翻译及时间轴校正工作,极大地简化了字幕制作的流程。

应用现在可以使用AI翻译工具对转录的文本进行逐行翻译。用户也可以单独上传srt或ass文件来使用翻译模块。目前支持chatGPT 的翻译。

翻译后的文本将于原文合并在一行,以 /N分割,生成双语对照字幕。

例如:

QQ截图20230312155700

双语字幕效果为:

QQ截图20230312160015​​​​​​​

Subs AI

​​​​​​​https://github.com/abdeladim-s/subsaiicon-default.png?t=O83Ahttps://github.com/abdeladim-s/subsai

Subs AI是一个强大的开源工具,它结合了OpenAI的Whisper模型及其变体,提供了网页界面(Web-UI)、命令行接口(CLI)以及Python包,致力于自动化字幕生成。Subs AI由abdeladim-s发起和维护,是一个基于GitHub的开源项目。

​​​​​​​Subs AI集成了whisper.cpp和faster-whisper等高效率的推理引擎,实现了更快更节省资源的模型运行。除了基础的字幕生成外,Subs AI还具备字幕修改、翻译、同步调整等多种辅助功能,一站式解决字幕处理问题。

PyAutoSRT

GitHub - botbahlul/PyAutoSRT: PySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio filePySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio file - botbahlul/PyAutoSRTicon-default.png?t=O83Ahttps://github.com/botbahlul/PyAutoSRT

PyAutoSRT是一个基于PySimpleGUI的桌面应用程序,它利用免费的Google Speech Recognition API自动生成字幕文件,并可使用非官方的在线Google Translate API将字幕文件翻译成其他语言。

​​​​​​​

caption2text

https://github.com/F-loat/caption2texticon-default.png?t=O83Ahttps://github.com/F-loat/caption2text​​​​​​​PWA 版字幕转换为文本工具,支持 ass 及 srt 格式,可批量导出为 word 及 text 文件​​​​​​​

 

相关文章:

【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结…...

学成在线——关于nacos配置优先级的坑

出错: 本地要起两个微服务,一个是content-api,另一个是gateway网关服务。 发现通过网关服务请求content微服务时,怎么请求都请求不到。 配置如下: content-api-dev.yaml的配置: server:servlet:context-p…...

Nginx在Windows Server下的启动脚本

Nginx在Windows Server下的快捷运行脚本 使用时记得修改NGINX_DIR路径 ECHO OFF CHCP 65001 SET NGINX_DIRD:\software\Nginx\ color 0a TITLE Nginx Management GOTO MENU :MENU CLS ECHO. ECHO. * * * * Nginx Management * * * * * * * * * * * ECHO. * * EC…...

【国科大】C++程序设计秋季——五子棋

【国科大】C程序设计秋季 —— 五子棋程序 下载地址:https://mbd.pub/o/bread/Zp2Ukptx...

Docker 环境下多节点服务器监控实战:从 Prometheus 到 Grafana 的完整部署指南

Docker 环境下多节点服务器监控实战:从 Prometheus 到 Grafana 的完整部署指南 文章目录 Docker 环境下多节点服务器监控实战:从 Prometheus 到 Grafana 的完整部署指南一 多节点部署1 节点一2 节点二3 节点三 二 监控节点部署三 配置 prometheus.yml四 …...

【动手学深度学习】6.3 填充与步幅(个人向笔记)

卷积的输出形状取决于输入形状和卷积核的形状在应用连续的卷积后,我们最终得到的输出大小远小于输入大小,这是由于卷积核的宽度和高度通常大于1导致的比如,一个 240 240 240240 240240像素的图像,经过10层 5 5 55 55的卷积后&am…...

【宝可梦】游戏

pokemmo https://pokemmo.com/zh/ 写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶...

docker启动的rabbitmq如何启动其SSL功能

docker run --hostname my-rabbit --name my-rabbit -p 5671:5671 -p 15671:15671 -p 15672:15672 -e RABBITMQ_DEFAULT_USERabc -e RABBITMQ_DEFAULT_PASSabc -d rabbitmq:4.0-management 使用docker的复制命令将ca.crt、server.crt和server.key文件复制到容器的/etc/server_s…...

易基因: cfMeDIP-seq揭示cfDNA甲基化高效区分原发性和转移性前列腺|Nat Commun

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 前列腺癌(Prostate cancer,PCa)是男性中第二常见的恶性肿瘤,也是全球癌症相关死亡的第三大原因。虽然大多数原发性前列腺癌可以治愈&#…...

CMake 教程跟做与翻译 4

目录 添加一个option! 添加一个option! option,正如其意,就是选项的意思。我们这里需要演示一下option的做法。 option对于大型的工程必然是非常常见的:一些模块会被要求编译,另一些客户不准备需要这些模块。option就是将这种需…...

MySQL面试题分享

慢日志(了解) 慢日志开启的变量:slow_query_logON; 如果值为 OFF ,那就是没有开启慢日志 耗时: long_query_time,默认是10秒 redis 和 mysql 慢日志的区别 redis 慢日志默认是没有开启的 mysql 慢日志默认是开启的…...

vue路由缓存问题

什么是路由缓存问题 解决方案&#xff1a; 让组件实例不再复用&#xff0c;强制销毁重建监听路由变化&#xff0c;变化之后执行数据更新操作 方法一 给 routerv-view 添加key属性&#xff0c;强制不添加缓存&#xff0c;破坏缓存&#xff0c;所以这个方法性能会比较差 <Ro…...

RabbitMQ中如何解决消息堆积问题,如何保证消息有序性

RabbitMQ中如何解决消息堆积问题 如何保证消息有序性 只需要让一个消息队列只对应一个消费者即可...

python爬虫案例——selenium爬取淘宝商品信息,实现翻页抓取(14)

文章目录 1、任务目标2、网页分析3、代码编写3.1 代码分析3.2 完整代码1、任务目标 目标网站:淘宝(https://www.taobao.com/) 任务要求:通过selenium实现自动化抓取 淘宝美食 板块下的所有商品信息,并实现翻页抓取,最后以csv格式将数据保存至本地;如: 2、网页分析 首先…...

在VSCode中使用Excalidraw

概述 Excalidraw是一款非常不错的示意图绘制软件&#xff0c;没想到在VSCode中有其扩展&#xff0c;可以在VScode中直接使用。 安装扩展 使用 需要创建.excalidraw.svg、.excalidraw或.excalidraw.png等名称的文件。 搭配手写版使用 自由画笔工具可以配合手写板&#xff0c…...

25中国投资中投笔试测评秋招校招SHL笔试题型分享

✅中投公司不必过多介绍&#xff0c;和建总都位于金融央企第一档&#xff0c;但是招人更少&#xff0c;竞争更为激烈&#xff0c;看公示录用名单都是清北的金融硕士&#xff0c;投资岗难度更大。 ✅中投公司的笔试往年都是shl系统&#xff0c;但考察范围非常广&#xff0c;包含…...

【LeetCode热题100】分治-快排

本篇博客记录分治快排的4道题目&#xff1a;颜色分类、排序数组、数组中的第K个最大元素、数组中最小的N个元素&#xff08;库存管理&#xff09;。 class Solution { public:void sortColors(vector<int>& nums) {int n nums.size();int left -1,right n;for(int…...

Docker 教程四 (Docker 镜像加速)

Docker 镜像加速 国内从 DockerHub 拉取镜像有时会遇到困难&#xff0c;此时可以配置镜像加速器。 目前国内 Docker 镜像源出现了一些问题&#xff0c;基本不能用了&#xff0c;后期能用我再更新下。* Docker 官方和国内很多云服务商都提供了国内加速器服务&#xff0c;例如…...

各类排序详解

前言 本篇博客将为大家介绍各类排序算法&#xff0c;大家知道&#xff0c;在我们生活中&#xff0c;排序其实是一件很重要的事&#xff0c;我们在网上购物&#xff0c;需要根据不同的需求进行排序&#xff0c;异或是我们在高考完报志愿时&#xff0c;需要看看院校的排名&#…...

【c语言——指针详解(4)】

文章目录 一、回调函数是什么&#xff1f;二、qsort的使⽤1、使⽤qsort函数排序整型数据2、使⽤qsort排序结构数据 三、qsort函数的模拟实现 作者主页 一、回调函数是什么&#xff1f; 回调函数就是⼀个通过函数指针调⽤的函数。 如果你把函数的指针&#xff08;地址&#xf…...

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中&#xff0c;时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志&#xff0c;到供应链系统的物流节点时间戳&#xff0c;时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库&#xff0c;其日期时间类型的…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下&#xff0c;越来越多的求职者将目光投向了日本及中日双语岗位。但是&#xff0c;一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧&#xff1f;面对生疏的日语交流环境&#xff0c;即便提前恶补了…...

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录 第一章 概述 第二章 弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制 第三章 主要定义 …...

解锁数据库简洁之道:FastAPI与SQLModel实战指南

在构建现代Web应用程序时&#xff0c;与数据库的交互无疑是核心环节。虽然传统的数据库操作方式&#xff08;如直接编写SQL语句与psycopg2交互&#xff09;赋予了我们精细的控制权&#xff0c;但在面对日益复杂的业务逻辑和快速迭代的需求时&#xff0c;这种方式的开发效率和可…...

C++.OpenGL (10/64)基础光照(Basic Lighting)

基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

Spring AI 入门:Java 开发者的生成式 AI 实践之路

一、Spring AI 简介 在人工智能技术快速迭代的今天&#xff0c;Spring AI 作为 Spring 生态系统的新生力量&#xff0c;正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务&#xff08;如 OpenAI、Anthropic&#xff09;的无缝对接&…...

MySQL用户和授权

开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务&#xff1a; test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法&#xff0c;当前调用一个医疗行业的AI识别算法后返回…...

Springboot社区养老保险系统小程序

一、前言 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;社区养老保险系统小程序被用户普遍使用&#xff0c;为方…...

return this;返回的是谁

一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请&#xff0c;不同级别的经理有不同的审批权限&#xff1a; // 抽象处理者&#xff1a;审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...