video-use:用对话剪辑视频,AI 当你的剪辑副驾驶 | Github Daily

📅 2026/6/30 7:27:51
video-use:用对话剪辑视频,AI 当你的剪辑副驾驶 | Github Daily
**⚠️ 免责声明**本工具依赖境外公开数据源部分平台在中国大陆需合规网络环境。把素材丢进文件夹告诉 Claude Code “剪成一个发布视频”然后等着拿final.mp4。这就是video-use在做的事——browser-use 团队没错就是那个 93K Stars 的 AI 浏览器自动化明星团队开源的对话式视频编辑工具。今日 GitHub Trending [#13](javascript:11K Stars。 项目速览名称video-use团队browser-useAI 浏览器自动化 93K Stars定位对话式 AI 视频编辑工具协议MIT100% 开源Stars11,048今日 196 语言Python地址github.com/browser-use/video-use11KGitHub Stars12条硬性规则12KB替代 45M tokens痛点视频剪辑的三座大山传统视频编辑有三座大山软件门槛高Premiere/DaVinci/FCP 动辄数月学习、重复劳动多去口误、剪静默、加字幕、调色每一步都是体力活、创意被技术拖累你想专注内容却被迫和 timeline 、关键帧搏斗。video-use 翻转了这个模型LLM 成为你的剪辑师你成为创意总监。你不需要学复杂软件不需要拖拽时间线不需要记快捷键——你只需要用自然语言描述你想要什么。 **核心洞察**video-use 的设计哲学和 browser-use 一脉相承——给 Agent 结构化数据而非原始像素。browser-use 给 LLM 结构化 DOM 而非截图video-use 给 LLM 12KB 转录文本而非 4500 万 tokens 的帧数据。核心亮点让 LLM 高效阅读视频① 双层读取系统video-use 的精髓在于让 LLM高效阅读视频而非盲目处理每一帧。它通过两个层次实现Layer 1 — 音频转录始终加载使用 ElevenLabs Scribe 进行单次调用获取词级时间戳、说话人分离和音频事件标记如(laughter)、(applause)。所有素材打包成单个约12KB 的takes_packed.md——这就是 LLM 的主要阅读视图。## C0103 (duration: 43.0s, 8 phrases) [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted. [006.08-006.74] S0 We fixed this.Layer 2 — 视觉合成按需调用timeline_view生成胶片条 波形 词标签的 PNG仅在决策点调用模糊停顿处、重拍对比时、剪辑点合理性检查。从不在扫描循环中使用。 **对比**朴素方法 30,000 帧 × 1,500 tokens 4500 万 tokens 的噪声video-use 12KB 文本 少量 PNG。精度从帧级提升到词边界级。② 12 条硬性规则——制作正确性这些不是风格偏好而是技术正确性——违反会导致静默失败或损坏输出。这是 video-use 区别于玩具级 AI 剪辑的关键01字幕在滤镜链最后应用否则叠加层遮挡字幕02分段提取后无损-c copy拼接避免双重编码03每段边界 30ms 音频淡入淡出消除剪辑点爆音04叠加层使用setptsPTS-STARTPTST/TB帧 0 对齐窗口起始05主 SRT 使用输出时间线偏移否则拼接后字幕错位06绝不在词中间剪辑必须对齐词边界07每处剪辑边缘填充 30-200ms吸收时间戳漂移08仅词级逐字 ASRSRT/短语模式会丢失亚秒级间隙数据09缓存每个源的转录源文件不变则不重新转录10多个动画并行子代理绝不顺序执行11执行前策略确认未经用户确认不动剪刀12所有输出在videos_dir/edit/绝不写入项目目录③ 自评估循环——AI 先自己检查再给你看在向你展示预览之前video-use 会对渲染输出运行自评估在每个剪辑边界±1.5 秒调用timeline_view检查✅ 剪切处的视觉不连续或闪烁✅ 波形尖峰30ms 淡入淡出未阻止的音频爆音✅ 叠加层后的隐藏字幕违反硬性规则 1✅ 叠加层显示错误帧违反硬性规则 4发现问题就修复 → 重新渲染 → 重新评估循环上限3 次。3 次后仍有问题则标记给你不会无限循环。你看到的 preview.mp4是 AI 已经自检通过的版本。④ 动画系统 ASC CDL 调色动画系统支持三种工具按需选择PIL PNG 序列简单叠加卡、Manim数学/技术可视化、RemotionReact/CSS 驱动的排版布局。每个动画是一个独立子代理通过Agent工具并行生成——总耗时 ≈ 最慢的那个而非所有动画时长之和。调色系统基于 ASC CDL 模型out (in * slope offset) ** power提供三种预设warm_cinematic复古/技术感、neutral_punch最小校正、none直出。也支持自定义任意 ffmpeg 滤镜链。调色在逐段提取期间应用避免拼接后双重编码。实战场景展示 产品发布视频多段拍摄素材AI 自动选出最佳 take去除口误和死寂添加字幕和代码动画输出 launch video。browser-use 团队自己的发布视频就是用 video-use 剪的。 教程/知识分享去除填充词和停顿添加字幕和 Manim 动画解释代码原理自动调色让画面更干净。适合技术博主批量产出教程内容。 访谈/播客多机位/多 take 选择说话人分离自动识别不同嘉宾节奏优化保留笑声和包袱的反应时间400-600ms 说话人交接留气。 技术演示Manim 动画 代码高亮 字幕烧录用自然语言描述在第 15 秒加一个状态机动画AI 自动生成并合成到对应位置。上手指南三步开始对话式剪辑**前提条件**Python 3.10、ffmpeg/ffprobe 在 PATH 中、ElevenLabs API 密钥用于 Scribe 转录方法一一键安装推荐把下面这段话粘贴给 Claude Code / Codex / Hermes / Openclaw 等 AgentSet up https://github.com/browser-use/video-useforme. Read install.md first toinstallthis repo, wire up ffmpeg, register the skill with whichever agent youre running under, and set up the ElevenLabs API key --- ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because thats where the editing scripts live. After install, dont transcribe anything on your own --- just tell me its ready andwaitforme to drop footage into a folder.方法二手动安装# 1. 克隆并注册到 Agent 技能目录 git clone https://github.com/browser-use/video-use ~/Developer/video-use ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # 2. 安装依赖 cd ~/Developer/video-use uv sync # 或 pip install -e . brew install ffmpeg # 必需 brew install yt-dlp # 可选下载在线源 # 3. 配置 ElevenLabs API key cp .env.example .env # 编辑 .env: ELEVENLABS_API_KEYyour_key_here日常使用一句话开始剪辑cd/path/to/your/videos claude# 或 codex, hermes 等 # 在会话中输入 edit these into a launch videoAgent 会自动① 清点素材 → ② 提出剪辑策略 → ③ 等待你确认 → ④ 执行剪辑/调色/动画/字幕 → ⑤ 自我评估 → ⑥ 输出edit/final.mp4 8 步标准流水线① 清点— ffprobe 每个源批量转录生成 takes_packed.md② 预扫描— 标记口误、明显错误③ 对话— 描述所见提问收集需求④ 提出策略— 4-8 句话描述剪辑方案等待确认⑤ 执行— 生成 EDL并行动画分段调色渲染⑥ 预览— 生成 720p 快速预览⑦ 自评估— 检查剪辑边界最多 3 轮修复⑧ 迭代持久化— 根据反馈调整追加到 project.md客观评价它适合谁✅ 优势• 极低门槛——自然语言描述即可无需学复杂软件• 词边界级精度——远超传统手动操作• 12 条硬性规则确保无爆音、无错位字幕、无双重编码• 自评估机制——最多 3 轮迭代修复• 高效上下文利用——12KB 文本替代 45M tokens• 开源生态——支持 Claude Code/Codex/Hermes/Openclaw⚠️ 注意• 依赖 ElevenLabs Scribe API需付费密钥• 安装示例仅展示 macOS其他平台需自行适配• 需要熟悉命令行、Python 环境、ffmpeg 基础• 自评估最多 3 轮复杂问题可能无法自动解决• 以音频转录为主要切割依据纯视觉叙事视频不太适用今日总结video-use 代表了 AI 视频编辑的一个新方向不是让 AI 替代剪辑师而是让 AI 成为剪辑师的智能助手。它不是 Premiere Pro 的替代品而是和 Premiere Pro 互补的 AI 预处理层——让 AI 完成粗剪、调色、字幕的 dirty work人类专注于创意决策。四大核心创新① 双层读取系统让 LLM 高效阅读视频② 12 条硬性规则确保技术正确性③ 对话驱动工作流——策略确认→执行→自评估→迭代④ 专业级工艺——词级剪辑精度、30ms 音频淡入淡出、ASC CDL 调色。 项目链接GitHubgithub.com/browser-use/video-useSKILL.mdgithub.com/browser-use/video-use/blob/main/SKILL.mdDemoTikTok browser_use你觉得对话式视频编辑会取代传统剪辑软件吗欢迎在评论区分享你的看法 每日开源 · 第 078 期© 2026 每日开源栏目