当前位置: 首页 > article >正文

【GitHub项目推荐--video-use:用自然语言剪辑视频,Claude Code 的“AI 剪辑师”】⭐⭐⭐

GitHub 地址https://github.com/browser-use/video-use简介video-use​ 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单把原始素材扔进文件夹用自然语言告诉 Claude Code或 Codex、Hermes 等 Agent你想要什么直接拿回final.mp4。它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog只需一句指令AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧而是通过巧妙的“文本按需视觉”架构实现了极低 Token 消耗下的专业级剪辑。主要功能1. 全自动剪辑流水线智能粗剪自动识别多段素材根据语义而非单纯的时间码进行拼接。精准去“filler”自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白保留自然语流。音频美化在每个剪切点自动添加 30ms 的音频淡入淡出消除爆音和突兀感。视觉统一支持对每段素材进行独立的色彩调级如电影感暖色、中性冲击感统一画面风格。2. “读”视频而非“看”视频的架构这是 video-use 最核心的技术创新。它通过两层结构将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”Layer 1音频转录主视图利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的takes_packed.md文件作为 LLM 推理的主要依据。Layer 2视觉合成按需仅在决策模糊时如判断停顿是否该剪、对比重拍镜头调用timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 几张图”实现了真正的实用化。3. 质量自闭环自评估机制渲染完成后Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户否则会自动修复并重渲染最多 3 轮。会话记忆通过project.md文件持久化剪辑上下文支持下次打开 Claude Code 时从上次的进度继续编辑非常适合长课程或播客的连载剪辑。安装与配置前置要求Claude Code / OpenClaw 等 Agent 环境需支持 Shell 访问和技能加载。FFmpeg必须安装用于视频处理。ElevenLabs API Key用于高精度语音转录获取地址https://elevenlabs.io/app/settings/api-keys。安装步骤Agent 自动模式推荐方式直接在 Claude Code 中粘贴以下指令Agent 会自动完成克隆、依赖安装和技能注册“请安装 video-use 技能。这是我的 ElevenLabs API Key:sk_xxxx。素材目录是~/Videos/my_project。”安装步骤手动模式如果你倾向于手动控制或在其他 Agent 中使用克隆仓库git clone https://github.com/browser-use/video-use cd video-use安装依赖pip install -e . brew install ffmpeg yt-dlp # yt-dlp 用于下载在线素材可选配置 API Keycp .env.example .env # 在 .env 文件中填入ELEVENLABS_API_KEYsk_your_key_here注册技能以 Claude Code 为例# 创建软链接将当前目录链接到 Claude 技能目录 ln -s $(pwd) ~/.claude/skills/video-use如何使用基础工作流准备素材将所有拍摄的原始视频文件MP4/MOV放入一个文件夹如raw_footage。启动 Agent在终端进入素材目录启动 Claude Code。下达指令输入自然语言指令例如“把这些素材剪辑成一个 3 分钟的产品发布视频去掉所有‘呃’和停顿加上白色字幕风格要偏科技感。”确认与交付Agent 会先扫描素材生成一份剪辑策略包括时长预估、片段顺序并征求你的同意。确认后Agent 开始全自动转录、剪辑和渲染。成品视频保存在edit/final.mp4中间文件如字幕文件、EDL 剪辑清单也均在edit/目录下技能目录本身保持干净。进阶指令示例风格控制“给这段访谈加一个电影感的暖色滤镜片头加 5 秒的标题动画。”精细修剪“保留所有带‘笑’的片段但剪掉超过 2 秒的沉默。”批量处理“遍历videos/下的每个子文件夹分别把每个文件夹里的素材剪成独立的成品。”应用场景实例无代码场景一知识博主的内容量产痛点知识博主每周需录制多节课程。手动剪辑去口癖、加字幕耗时极长且重复劳动令人疲惫。video-use 方案录制完成后将视频文件拖入以“课程名”命名的文件夹。在 Claude Code 中输入指令“按讲课顺序剪辑去掉所有口头禅保留知识点连贯性生成 1080P 带字幕视频。”价值将数小时的剪辑工作压缩为“一句话等待渲染”的被动过程博主可同时处理多个课程文件夹实现内容量产。场景二企业产品更新视频的 CI/CD痛点每次 App 迭代产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频流程繁琐。video-use 方案将 Release NotesMarkdown、新版 App 截图和配音脚本放入指定目录。在 CI 流水线中集成 video-use自动触发指令“用素材生成 45 秒的竖版更新介绍视频风格与官网一致。”价值实现了“提交代码即生成宣传视频”的全自动化流程确保每次发布视频的风格统一且及时。场景三播客节目的“精剪”服务痛点播客节目通常长达 1-2 小时包含大量闲聊和停顿后期剪辑需要人工反复听校成本极高。video-use 方案将录制的多轨音频或视频文件放入文件夹。指令“识别两位主播剪掉所有非对话的空白和口水词保留节目核心内容输出 60 分钟的精剪版。”价值利用其强大的说话人分离和语义理解能力将剪辑师从枯燥的“听全片”工作中解放出来只需做最后的艺术性审核即可。总结video-use 不仅仅是一个工具它代表了一种“Intent-based Editing”基于意图的剪辑新范式。它通过将视频抽象为“文本时间线”让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说它是降低视频制作门槛、实现规模化生产的终极利器。GitHub 地址https://github.com/browser-use/video-use核心依赖ElevenLabs Scribe API用于高精度转录

相关文章:

【GitHub项目推荐--video-use:用自然语言剪辑视频,Claude Code 的“AI 剪辑师”】⭐⭐⭐

GitHub 地址:https://github.com/browser-use/video-use 简介 video-use​ 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单:把原始素材扔进文件夹,用自然语言告诉 Claude Code(或 Codex、Hermes 等 Age…...

**发散创新:基于共享内存的高性能进程间通信机制实战解析**在现代多核系统中,**高效、低延迟的进程间通信(IPC)** 是构建

发散创新:基于共享内存的高性能进程间通信机制实战解析 在现代多核系统中,高效、低延迟的进程间通信(IPC) 是构建高性能服务的关键。传统方式如管道、消息队列虽然稳定,但在高吞吐场景下性能受限。而共享内存&#xf…...

YOLO26实战教程:利用预装镜像快速搭建目标检测开发环境

YOLO26实战教程:利用预装镜像快速搭建目标检测开发环境 1. 环境准备与快速部署 目标检测作为计算机视觉的核心任务之一,在工业质检、自动驾驶、安防监控等领域有着广泛应用。YOLO系列模型以其卓越的速度-精度平衡著称,最新发布的YOLO26在保…...

Arm架构SIMD与矩阵运算优化实战指南

1. A64指令集架构中的向量与矩阵数据处理概述在Armv8-A和Armv9-A架构中,向量和矩阵数据处理能力经历了显著演进。作为现代计算的核心加速手段,这些技术通过单指令多数据(SIMD)范式大幅提升了多媒体处理、科学计算和机器学习等场景的性能表现。传统标量处…...

量子机器学习中的浅层电路监督学习实践

1. 量子机器学习中的浅层电路监督学习实践量子计算与机器学习的交叉领域近年来发展迅猛,但实际应用仍面临两大核心挑战:经典数据的高效量子编码和浅层量子电路的可训练性。作为一名长期跟踪量子计算发展的从业者,我将分享一种基于线性哈密顿量…...

DS4Windows终极指南:免费让PlayStation手柄在Windows电脑上完美运行

DS4Windows终极指南:免费让PlayStation手柄在Windows电脑上完美运行 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 你是否曾经为Windows游戏无法识别你的PlayStation手柄而烦…...

别再踩坑了!Windows 10 下 MobSF 3.6.0 保姆级安装指南(含Frida版本避雷)

Windows 10下MobSF 3.6.0终极避坑指南:从环境配置到Frida版本全解析 移动应用安全测试已成为开发流程中不可或缺的环节,而MobSF作为一款开源的安全测试框架,凭借其全面的静态和动态分析能力,赢得了众多安全研究人员的青睐。然而&a…...

NCM解密终极指南:5分钟解锁网易云音乐加密文件

NCM解密终极指南:5分钟解锁网易云音乐加密文件 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾经从网易云音乐下载了心爱的歌曲,却发现它们被加密成NCM格式,只能在官方客户端播放&#xf…...

Windows 11终极优化指南:用Win11Debloat一键清理系统垃圾,提升51%性能

Windows 11终极优化指南:用Win11Debloat一键清理系统垃圾,提升51%性能 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other c…...

Python+OpenCV 计算机视觉:从零入门 AI 视觉开发

📝 本章学习目标:从零掌握 PythonOpenCV 计算机视觉基础,从环境搭建到实战项目,覆盖图像处理、特征检测、目标识别、视频分析全流程,可直接落地 AI 视觉开发项目。一、引言:为什么计算机视觉是 AI 核心赛道…...

Flutter动画高级技巧:创建流畅的用户体验

Flutter动画高级技巧:创建流畅的用户体验 引言 动画是现代移动应用中不可或缺的一部分,它可以提升用户体验,使应用更加生动和富有吸引力。Flutter提供了强大的动画系统,从基本的补间动画到复杂的物理动画,都可以轻松…...

云音乐歌词提取:一站式歌词获取与管理解决方案

云音乐歌词提取:一站式歌词获取与管理解决方案 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为音乐播放器找不到歌词而烦恼吗?163MusicLyri…...

LM大模型ChatGPT式对话系统搭建:从模型部署到前端交互全流程

LM大模型ChatGPT式对话系统搭建:从模型部署到前端交互全流程 1. 前言:为什么要自己搭建对话系统 最近两年,大语言模型的发展让对话式AI变得触手可及。你可能已经用过不少现成的聊天应用,但有没有想过自己搭建一个?通…...

Nunchaku FLUX.1 CustomV3优化技巧:调整Steps和CFG,让图片更符合预期

Nunchaku FLUX.1 CustomV3优化技巧:调整Steps和CFG,让图片更符合预期 你是不是也遇到过这样的情况:用AI生成图片时,脑子里想的是阳光明媚的森林小屋,结果出来的却是阴森森的废弃木屋;明明想要一个微笑的少…...

Real Anime Z 网络通信优化:提升模型API响应速度实战

Real Anime Z 网络通信优化:提升模型API响应速度实战 1. 引言:为什么需要优化网络通信 在部署Real Anime Z这类AI模型服务时,很多开发者往往把注意力集中在模型本身的性能优化上,却忽略了网络通信这个关键环节。实际上&#xff…...

SQL嵌套查询中常见报错排查_语法与权限处理

MySQL嵌套查询常见错误包括:子查询多行报错(需用IN/LIMIT/聚合函数)、列作用域混淆(须显式加表别名)、权限不足(需逐表授权)、相关子查询性能差(缺索引或应改JOIN)。子查…...

终极指南:如何利用checkm8漏洞解锁iOS设备的无限可能

终极指南:如何利用checkm8漏洞解锁iOS设备的无限可能 【免费下载链接】ipwndfu open-source jailbreaking tool for many iOS devices 项目地址: https://gitcode.com/gh_mirrors/ip/ipwndfu ipwndfu 是一款基于Python开发的开源越狱工具,专门针对…...

图像生成提示词工程

这个系列将集合各种优秀图像或视频生成的提示词:1. 毕业照生成效果:提示词:根据我的人物肖像自动生成一张收藏版史诗叙事海报(毕业照:巨大的我的侧脸剪影作为外轮廓,剪影内部自动生长出最契合该主题的完整世…...

我把设备指纹生成逻辑拆开了:它到底凭什么区分不同设备?

大家好,我是舒一笑不秃头,喜欢分享和写作,更多精彩内容~ 很多人一提到“设备指纹”,第一反应就是: 这是不是某种黑盒算法?是不是偷偷拿到了设备唯一 ID? 其实不是。 在真实项目里…...

Windows和Office激活终极指南:KMS_VL_ALL_AIO一站式智能解决方案

Windows和Office激活终极指南:KMS_VL_ALL_AIO一站式智能解决方案 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 你是否曾经面对Windows激活弹窗感到束手无策?或者为Offi…...

【flutter for open harmony】第三方库Flutter 鸿蒙版 音量调节器 实战指南(适配 1.0.0)✨

Flutter实战:开源鸿蒙音量调节器组件 Flutter 三方库 cached_network_image 的鸿蒙化适配与实战指南 欢迎加入开源鸿蒙跨平台社区: https://openharmonycrossplatform.csdn.net 本文详细介绍如何在Flutter鸿蒙应用中实现一个音量调节器组件,…...

Windows Internals 10.2.27 服务标签(Service tags):在共享进程中精准识别具体服务

🔥个人主页:杨利杰YJlio❄️个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》 《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...

Cogito 3B应用场景:程序员必备的本地AI编程伙伴

Cogito 3B应用场景:程序员必备的本地AI编程伙伴 1. 为什么程序员需要本地AI编程助手 在当今快节奏的开发环境中,程序员面临着诸多挑战:需要快速理解复杂代码、解决棘手bug、学习新技术栈,同时还要保持高效产出。传统的解决方案包…...

基于环境自适应架构的降低AIGC检测率系统

基于环境自适应架构的降低AIGC检测率系统——及其背后工程设计 一套代码,两个灵魂。Linux 服务器跑 Docker,Windows 双击 EXE,后端逻辑零修改。 项目地址:https://github.com/math89423-star/AI-Academic-Polisher License: MIT D…...

企业宣传视频制作:Sonic数字人实战案例,低成本生成专业内容

企业宣传视频制作:Sonic数字人实战案例,低成本生成专业内容 1. 数字人视频制作的新选择 想象一下这样的场景:你需要为公司制作一批宣传视频,但预算有限,专业演员费用高昂,拍摄周期又长。传统视频制作的高…...

一套键鼠操作两台电脑

解决了什么问题? 当我们需要在台电脑上进行文件传输,工作使用键盘和鼠标时,频繁的切换鼠标和键盘异常繁琐,并且会占用过多的空间,这是我们不想看到的。今天的分享是提出两套解决方案,来解决多套键鼠占用空…...

#P4538.第2题-基于混淆矩阵,推导分类模型的核心评估指标

第2题-基于混淆矩阵,推导分类模型的核心评估指标 - problem_ide - CodeFun2000 import sys import numpy as npdef solve():pred list(map(int,input().split()))trueY list(map(int,input().split()))weights list(map(float,input().split()))n len(weights)m…...

CVPR 2022 TransMVSNet实战解析:Transformer如何解决多视图立体匹配中的‘模糊区域’难题?

TransMVSNet深度实战:用Transformer攻克三维重建中的"模糊地带"难题 在三维重建领域,弱纹理区域和反光表面就像地图上的"未知领域",让传统算法频频"迷路"。想象一下,当您用无人机扫描一座玻璃幕墙的…...

Ray 分布式计算:Actor 模型与任务调度

# Ray 分布式计算:Actor 模型与任务调度> **标签:** Ray | 分布式计算 | Actor | 任务调度 | 并行计算 > > **版本:** 基于 Ray 2.55.0 源码分析## 目录- [一、Ray 架构概览](#一ray-架构概览) - [二、Actor 模型深度解析](#二actor…...

Qwen3-ForcedAligner-0.6B字幕生成:会议记录神器,自动对齐音频文字

Qwen3-ForcedAligner-0.6B字幕生成:会议记录神器,自动对齐音频文字 1. 工具简介与核心价值 在日常工作中,会议记录和视频字幕制作是两项耗时费力的任务。传统方法需要人工反复听录音、手动打时间轴,效率低下且容易出错。Qwen3-F…...