当前位置：首页 > article >正文

【GitHub项目推荐--video-use：用自然语言剪辑视频，Claude Code 的“AI 剪辑师”】⭐⭐⭐

article 2026/5/3 13:07:12

GitHub 地址https://github.com/browser-use/video-use简介video-use 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单把原始素材扔进文件夹用自然语言告诉 Claude Code或 Codex、Hermes 等 Agent你想要什么直接拿回final.mp4。它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog只需一句指令AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧而是通过巧妙的“文本按需视觉”架构实现了极低 Token 消耗下的专业级剪辑。主要功能1. 全自动剪辑流水线智能粗剪自动识别多段素材根据语义而非单纯的时间码进行拼接。精准去“filler”自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白保留自然语流。音频美化在每个剪切点自动添加 30ms 的音频淡入淡出消除爆音和突兀感。视觉统一支持对每段素材进行独立的色彩调级如电影感暖色、中性冲击感统一画面风格。2. “读”视频而非“看”视频的架构这是 video-use 最核心的技术创新。它通过两层结构将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”Layer 1音频转录主视图利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的takes_packed.md文件作为 LLM 推理的主要依据。Layer 2视觉合成按需仅在决策模糊时如判断停顿是否该剪、对比重拍镜头调用timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本几张图”实现了真正的实用化。3. 质量自闭环自评估机制渲染完成后Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户否则会自动修复并重渲染最多 3 轮。会话记忆通过project.md文件持久化剪辑上下文支持下次打开 Claude Code 时从上次的进度继续编辑非常适合长课程或播客的连载剪辑。安装与配置前置要求Claude Code / OpenClaw 等 Agent 环境需支持 Shell 访问和技能加载。FFmpeg必须安装用于视频处理。ElevenLabs API Key用于高精度语音转录获取地址https://elevenlabs.io/app/settings/api-keys。安装步骤Agent 自动模式推荐方式直接在 Claude Code 中粘贴以下指令Agent 会自动完成克隆、依赖安装和技能注册“请安装 video-use 技能。这是我的 ElevenLabs API Key:sk_xxxx。素材目录是~/Videos/my_project。”安装步骤手动模式如果你倾向于手动控制或在其他 Agent 中使用克隆仓库git clone https://github.com/browser-use/video-use cd video-use安装依赖pip install -e . brew install ffmpeg yt-dlp # yt-dlp 用于下载在线素材可选配置 API Keycp .env.example .env # 在 .env 文件中填入ELEVENLABS_API_KEYsk_your_key_here注册技能以 Claude Code 为例# 创建软链接将当前目录链接到 Claude 技能目录 ln -s $(pwd) ~/.claude/skills/video-use如何使用基础工作流准备素材将所有拍摄的原始视频文件MP4/MOV放入一个文件夹如raw_footage。启动 Agent在终端进入素材目录启动 Claude Code。下达指令输入自然语言指令例如“把这些素材剪辑成一个 3 分钟的产品发布视频去掉所有‘呃’和停顿加上白色字幕风格要偏科技感。”确认与交付Agent 会先扫描素材生成一份剪辑策略包括时长预估、片段顺序并征求你的同意。确认后Agent 开始全自动转录、剪辑和渲染。成品视频保存在edit/final.mp4中间文件如字幕文件、EDL 剪辑清单也均在edit/目录下技能目录本身保持干净。进阶指令示例风格控制“给这段访谈加一个电影感的暖色滤镜片头加 5 秒的标题动画。”精细修剪“保留所有带‘笑’的片段但剪掉超过 2 秒的沉默。”批量处理“遍历videos/下的每个子文件夹分别把每个文件夹里的素材剪成独立的成品。”应用场景实例无代码场景一知识博主的内容量产痛点知识博主每周需录制多节课程。手动剪辑去口癖、加字幕耗时极长且重复劳动令人疲惫。video-use 方案录制完成后将视频文件拖入以“课程名”命名的文件夹。在 Claude Code 中输入指令“按讲课顺序剪辑去掉所有口头禅保留知识点连贯性生成 1080P 带字幕视频。”价值将数小时的剪辑工作压缩为“一句话等待渲染”的被动过程博主可同时处理多个课程文件夹实现内容量产。场景二企业产品更新视频的 CI/CD痛点每次 App 迭代产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频流程繁琐。video-use 方案将 Release NotesMarkdown、新版 App 截图和配音脚本放入指定目录。在 CI 流水线中集成 video-use自动触发指令“用素材生成 45 秒的竖版更新介绍视频风格与官网一致。”价值实现了“提交代码即生成宣传视频”的全自动化流程确保每次发布视频的风格统一且及时。场景三播客节目的“精剪”服务痛点播客节目通常长达 1-2 小时包含大量闲聊和停顿后期剪辑需要人工反复听校成本极高。video-use 方案将录制的多轨音频或视频文件放入文件夹。指令“识别两位主播剪掉所有非对话的空白和口水词保留节目核心内容输出 60 分钟的精剪版。”价值利用其强大的说话人分离和语义理解能力将剪辑师从枯燥的“听全片”工作中解放出来只需做最后的艺术性审核即可。总结video-use 不仅仅是一个工具它代表了一种“Intent-based Editing”基于意图的剪辑新范式。它通过将视频抽象为“文本时间线”让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说它是降低视频制作门槛、实现规模化生产的终极利器。GitHub 地址https://github.com/browser-use/video-use核心依赖ElevenLabs Scribe API用于高精度转录

【GitHub项目推荐--video-use：用自然语言剪辑视频，Claude Code 的“AI 剪辑师”】⭐⭐⭐

相关文章：

【GitHub项目推荐--video-use：用自然语言剪辑视频，Claude Code 的“AI 剪辑师”】⭐⭐⭐

发散创新：基于共享内存的高性能进程间通信机制实战解析在现代多核系统中，高效、低延迟的进程间通信（IPC）是构建

YOLO26实战教程：利用预装镜像快速搭建目标检测开发环境

Arm架构SIMD与矩阵运算优化实战指南

量子机器学习中的浅层电路监督学习实践

DS4Windows终极指南：免费让PlayStation手柄在Windows电脑上完美运行

别再踩坑了！Windows 10 下 MobSF 3.6.0 保姆级安装指南（含Frida版本避雷）

NCM解密终极指南：5分钟解锁网易云音乐加密文件

Windows 11终极优化指南：用Win11Debloat一键清理系统垃圾，提升51%性能

Python+OpenCV 计算机视觉：从零入门 AI 视觉开发

Flutter动画高级技巧：创建流畅的用户体验

云音乐歌词提取：一站式歌词获取与管理解决方案

LM大模型ChatGPT式对话系统搭建：从模型部署到前端交互全流程

Nunchaku FLUX.1 CustomV3优化技巧：调整Steps和CFG，让图片更符合预期

Real Anime Z 网络通信优化：提升模型API响应速度实战

SQL嵌套查询中常见报错排查_语法与权限处理

终极指南：如何利用checkm8漏洞解锁iOS设备的无限可能

图像生成提示词工程

我把设备指纹生成逻辑拆开了：它到底凭什么区分不同设备？

Windows和Office激活终极指南：KMS_VL_ALL_AIO一站式智能解决方案

【flutter for open harmony】第三方库Flutter 鸿蒙版音量调节器实战指南（适配 1.0.0）✨

Windows Internals 10.2.27 服务标签（Service tags）：在共享进程中精准识别具体服务

Cogito 3B应用场景：程序员必备的本地AI编程伙伴

基于环境自适应架构的降低AIGC检测率系统

企业宣传视频制作：Sonic数字人实战案例，低成本生成专业内容

一套键鼠操作两台电脑

#P4538.第2题-基于混淆矩阵，推导分类模型的核心评估指标

CVPR 2022 TransMVSNet实战解析：Transformer如何解决多视图立体匹配中的‘模糊区域’难题？

Ray 分布式计算：Actor 模型与任务调度

Qwen3-ForcedAligner-0.6B字幕生成：会议记录神器，自动对齐音频文字