当前位置：首页 > article >正文

HKUDS开源项目：DeepTutor、Paper2Slides、ViMax、FastCode

article 2026/3/17 5:42:37

之前写过HKUDS港大实验室介绍。DeepTutor官网HKUDS开源GitHub10.5K Star1.4K Fork集成文档问答、可视化讲解、智能出题、深度研究于一体的个人学习助手。核心能力文档知识问答多Agent问题求解能力交互式可视化讲解智能出题与模拟深度研究模式部署dockerrun-d--namedeeptutor\-p8001:8001-p3782:3782\-eLLM_MODELgpt-4o\-eLLM_API_KEYyour-api-key\-eLLM_HOSThttps://api.openai.com/v1\-eEMBEDDING_MODELtext-embedding-3-large\-eEMBEDDING_API_KEYyour-api-key\-eEMBEDDING_HOSThttps://api.openai.com/v1\-v$(pwd)/data:/app/data\-v$(pwd)/config:/app/config:ro\ghcr.io/hkuds/deeptutor:latest浏览器打开http://localhost:3782开始体验API文档在http://localhost:8001/docs。Python示例importasynciofromsrc.agents.solveimportMainSolverfromsrc.agents.questionimportAgentCoordinatorasyncdefmain():solverMainSolver(kb_nameai_textbook)resultawaitsolver.solve(question计算 x[1,2,3] 和 h[4,5] 的线性卷积,modeauto)print(result[formatted_solution])asyncio.run(main())asyncdefmain():coordinatorAgentCoordinator(kb_nameai_textbook,output_dirdata/user/question)# 从文本需求生成多个题目resultawaitcoordinator.generate_questions_custom(requirement_text生成3道关于向量数据库的中等难度题目,difficultymedium,question_typechoice,count3)print(f✅生成{result[completed]}/{result[requested]}道题目)forqinresult[results]:print(f- 相关性:{q[validation][relevance]})Paper2SlidesGitHub3.1K Star418 Fork。把生成PPT这件事做得更专业一些基于专业论文生成PPT。功能通用文档支持可同时无缝处理PDF、三件套、Markdown等多种文件格式全面的内容提取RAG驱动机制确保每个关键见解、数字和数据点都能被精确捕获来源链接准确性保持生成内容与原始来源之间的直接可追溯性消除信息漂移自定义样式自由从专业的内置主题中选择或用自然语言描述您的想法以进行自定义样式设计闪电般快速的生成即时预览模式可实现快速实验和实时改进无缝会话管理高级检查点系统可保留所有进度立即暂停、恢复或切换主题而不会丢失任何进度专业级视觉效果提供符合出版质量标准的精美、可直接用于演示的幻灯片和海报优势支持多worker并行生成对长文档非常友好。提供命令行工具包括Docker、Conda部署适合科研人员网页使用方式可降低使用门槛适合学生群体实战gitclone https://github.com/HKUDS/Paper2Slides.gitcdPaper2Slides conda create-npaper2slidespython3.12-yconda activate paper2slides pipinstall-rrequirements.txt启动Web界面./scripts/start.sh同时启动后端和前端服务浏览器访问http://localhost:5173开始体验。命令行示例python-mpaper2slides--inputpaper.pdf--outputslides--lengthmedium python-mpaper2slides--inputpaper.pdf--outputposter--styleminimalist with blue theme--densitymedium python-mpaper2slides--inputpaper.pdf--outputslides--fastpython-mpaper2slides--inputpaper.pdf--outputslides--parallel2# 启用并行生成默认2个工作进程python-mpaper2slides--list# 列出所有已处理的输出支持的命令行参数选项描述默认值--input,-i输入文件夹目录必填--output输出类型支持slidesorposterposter--content内容类型paperorgeneralpaper--style风格academic,doraemon,orcustomdoraemon--length页数长度short,medium,longshort--densityPosterdensity:sparse,medium,densemedium--fast快速模式跳过RAG检索false--parallel是否开启并行生成--parallel表示使用2个worker--parallel N表示使用N个worker1(sequential without this option)--from-stageForce restart from stage:rag,summary,plan,generateAuto-detect--debug是否开启调试日志falseViMaxGitHub2.5K Star445 Fork.。AI视频领域长期存在的“三秒魔咒”长视频画面崩坏、角色不一致仍未完全破解香港大学数据智能实验室开源的ViMax(Agentic Video Generation)框架给出工程化答案以多智能体协作架构复刻文本到视频的自动化创作逻辑通过RAG、VLM视觉校验等技术直击长视频核心痛点支持创意、小说、剧本生成及角色无缝植入四大模式且开源可定制、支持本地部署。提出一种区别于“训练更大模型”的工程化解法。不再试图用一个模型解决所有问题而是构建一个多智能体协作系统。ViMax扮演“制片人”和“导演”的角色调度LLM负责剧本调度图像模型负责分镜调度视频模型负责动态生成并通过一致性校验机制将它们串联起来。核心价值在于长程叙事控制将模糊创意转化为精确的执行指令并通过代理工作流Agentic Workflow解决长视频生成中的一致性难题。四大核心应用模式创意到视频(Idea-to-Video)全自动化的叙事构建。自动化程度最高的模式旨在将“一句话灵感”转化为“完整视频”。用户只需输入一个简单的脑洞ViMax内置的编剧智能体Screenwriter Agent会自动扩写故事线补充情节冲突导演智能体会将其转化为分镜脚本并自动调度图像和视频生成器完成制作。适用于快速原型验证、儿童故事生成或短视频创意测试屏蔽复杂的提示词工程让用户专注于创意本身。小说到视频(Novel-to-Video)基于RAG的长文本改编。视频生成模型通常无法处理小说级别的长文本输入Context Window限制。系统分析长篇小说识别关键情节与核心对话将其转化为标准的分集视频脚本。通过RAG建立视觉资产索引在生成第50个镜头时系统能检索第1个镜头中主角的视觉特征确保角色在长篇幅中不“换脸”。这是小说推文、有声书视觉化改编的杀手级功能。剧本到视频(Script-to-Video)导演级的精准控制。对于专业创作者允许直接输入行业标准的剧本格式。系统能解析专业剧本标记如EXT. SCHOOL GYM - DAY。不仅仅是理解文本还能根据剧本中的镜头描述如“特写”、“广角”来指导视频模型的运镜生成。适用于影视预演Pre-viz和专业广告分镜制作创作者可以精确控制每一个镜头的调度。智能客串(Smart Cameo)用户角色的无缝植入。一个极具互动性的功能解决了“如何让自己进入AI电影”的问题。ViMax采用身份保持Identity Consistency技术。用户上传一张照片系统会在生成过程中将该人物的视觉特征注入到每一个分镜中。与简单的后期换脸不同这种方式能确保人物在不同光影、角度下与环境的融合更加自然。这适用于个性化视频贺卡、沉浸式互动视频、虚拟形象内容生产。技术架构与运行原理ViMax的本质是一个调度框架而非单一生成模型理解其架构有助于在部署时进行配置。多智能体协作系统ViMax模拟一个影视制作团队中央调度Central Dispatch负责资源分配和流程控制编剧智能体调用LLM如Gemini进行文本理解和剧本拆解视觉智能体调用Image Generator如Nano Banana生成分镜首帧视频智能体调用Video Generator如Veo基于首帧生成动态视频。一致性保障机制为了防止长视频崩坏引入双重校验视觉资产索引系统会维护一个Asset Bank存储已生成的角色和场景图。生成新镜头时会强制检索相关联的旧镜头作为参考Reference Image。VLM校验官在生成关键帧时系统会并行生成多张备选图并调用多模态大模型VLM像人类导演一样进行打分剔除构图错误或角色不一致的画面。对比在AI视频生成工作流领域除ViMax市场上还有Oiioii、Seko、Moki等产品。将从产品形态、控制力及一致性方案三个维度进行客观对比。对比项目产品形态一致性方案可控性部署难度生成质量适用人群ViMax开源代码框架不含底模需自行配置API侧重架构与调度代码级检索VLM校验通过逻辑强制检索历史帧并用模型自动筛选提供极高(White-box)控制开发者可修改调度逻辑更换底层模型(如换成GPT-4)高需懂Python需配置环境与API Key取决于接入的模型上限由接入的API(如Veo)决定适合开发者、管线工程师需要搭建私有化、可定制的视频生产流水线Oiioii故事创作工具侧重文本到视频流的转化体验侧重叙事连贯侧重于文本层面的剧情衔接提供中等控制依赖预设模版与参数或文本指令精度低注册账号或网页/App操作即可流畅侧重生成速度适合网文/故事作者SekoAI视频工具侧重特定风格流与社区分享采用风格迁移通过强风格化滤镜掩盖细节瑕疵提供中等控制依赖预设模版与参数或文本指令精度低注册账号或网页/App操作即可风格化强特定风格表现好适合C端娱乐用户Moki网页端SaaS高度集成的在线工作台开箱即用使用角色库(Character Bank)用户预设角色系统在生成时强制约束LoRA/Ref提供高(UI-based)控制提供图形化的分镜调整、重绘功能低注册账号或网页/App操作即可稳定平台调优过的模型参数有底线保证适合产品经理、内容创作者需要快速产出成品视频分析结论Moki/Seko/Oiioii是封装好的商业产品体验好但黑盒化。ViMax是一个技术脚手架。它不提供算力但提供了逻辑。对于希望拥有“源代码级”控制权或者希望将最新的模型如DeepSeek、Flux整合进视频流的开发者来说ViMax是不错的选择。实战本地部署指在本地运行智能体调度代码实际的图像和视频渲染依赖于配置文件中指定的API默认为Google Gemini/Veo。支持Linux和Windows系统官方推荐使用uv进行包管理以避免Python依赖冲突。gitclone https://github.com/HKUDS/ViMax.gitcdViMax uvsyncViMax的运行完全依赖于configs/idea2video.yaml配置文件需配置聊天模型大脑用于剧本生成和逻辑调度、图像生成器画师用于生成分镜首帧和视频生成器摄影师用于生成动态视频。chat_model:init_args:model:google/gemini-2.5-flash-lite-preview-09-2025model_provider:openaiapi_key:base_url:https://openrouter.ai/api/v1# Rate limits for chat model API calls# Set to null to disable rate limiting for this servicemax_requests_per_minute:500max_requests_per_day:2000image_generator:class_path:tools.ImageGeneratorNanobananaGoogleAPIinit_args:api_key:max_requests_per_minute:10max_requests_per_day:500video_generator:class_path:tools.VideoGeneratorVeoGoogleAPIinit_args:api_key:max_requests_per_minute:2max_requests_per_day:10working_dir:.working_dir/idea2video运行模式创意生成视频(Idea-to-Video)配置好YAML文件后编辑项目根目录下的main_idea2video.py脚本填入创意# 定义创意idea\If a cat and a dog are best friends, what would happen when they meet a new cat?# 定义约束条件user_requirement\For children, do not exceed 3 scenes.# 定义风格styleCartoon执行生成python main_idea2video.py。程序运行后会看到控制台输出智能体的思考过程最终生成的视频将保存在.working_dir/idea2video目录下。剧本生成视频 (Script-to-Video)如果有具体剧本配置configs/script2video.yaml编辑main_script2video.pyscript\EXT. SCHOOL GYM - DAYA group of students are practicing basketball in the gym. The gym is large and open, with a basketball hoop at one end and a large crowd of spectators at the other end. John (18, male, tall, athletic) is the star player, and he is practicing his dribble and shot. Jane (17, female, short, athletic) is the assistant coach, and she is helping John with his practice. The other students are watching the practice and cheering for John.John: (dribbling the ball) Im going to score a basket!Jane: (smiling) Good job, John!John: (shooting the ball) Yes!...user_requirement\Fast-paced with no more than 20 shots.styleAnimate Style执行生成python main_script2video.pyViMax的发布为AI视频生成提供一个工业化样本。证明在底层模型能力尚未达到完美的今天通过工程化的手段Agentic Workflow依然能构建出可用的长视频生产管线。不仅仅是一个工具更是一个开源的多模态调度协议。对于企业和开发者而言最大价值在于其架构的可复用性。完全可以保留ViMax的调度逻辑将底层的大脑换成DeepSeek将画师换成Flux将摄影师换成CogVideoX从而搭建一套完全私有化、零API成本的自动化视频工厂。FastCode港大开源GitHub2K Star220 Fork的代码提速推理框架效率是Cursor和Claude Code的三倍但使用成本却比他们低50%。核心三段式框架让大模型读懂整个项目代码的骨架根据指令精准定位与当前问题最相关的代码片段成本感知在有限的上下文窗口里筛选出含金量最高的上下文交给大模型进行推理和回答让大模型在面对庞大复杂项目时依然能找得准、跑得快还省钱。

HKUDS开源项目：DeepTutor、Paper2Slides、ViMax、FastCode

相关文章：

HKUDS开源项目：DeepTutor、Paper2Slides、ViMax、FastCode

Automatic Mixed Precision (AMP) - Gradient Scaling (梯度缩放)

单目测距+车辆识别+行人车辆距离检测+深度估计识别+车辆距离识别

个人网络安全自查之-如何判断一个未知程序是否是有害-类比/解混淆/检测分析

【动手学深度学习】第五课 softmax回归

Kimi LeetCode 552.学生出勒记录|| public int checkRecord(int n)

如何解决 CAS 的 ABA 问题：从版本号机制到 AtomicStampedReference 深度解析

...........

Linux基础操作——学习记录

AI 时代的程序员生存指南：我是如何用 AI 提升 10 倍开发效率的

vim使用verible插件进行verilog语法检查

2025_NIPS_Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

OpenClaw 超级 AI 实战专栏【模型推理与实战】（五）推理参数调优：精度、速度、显存平衡

2025_NIPS_IR-OptSet: An Optimization-Sensitive Dataset for Advancing LLM-Based IR Optimizer

Java对象头：深入理解对象存储的核心机制

Swift构造过程介绍

Pytorch之torch.nn.Conv2d详解

ROS2 -03-工作空间与功能包

MTP管理培训

OBS怎么调美颜？OBS怎么打开美颜功能？

计算机毕业设计springboot中药材仓储管理系统的分析与实现基于SpringBoot框架的中药饮片智能库存与质量追溯平台中医药材冷链物流与数字化仓储运营管理系统

LeetCode 11：盛最多水的容器（C语言实现）

Unreal Engine5 笔记（持续更新）

基于航空影像的道路异常状态识别无人机道路阻断巡检道路减速带识别无人机道路施工巡检无人机斑马线监测道路场景计算机视觉数据集Yolo第10552期

计算机毕业设计springboot社区便民服务平台基于SpringBoot框架的智慧社区综合服务运营平台城市社区数字化生活与多元服务集成管理系统

基于STC8H8K64U的光学仪器协同采集平台设计

ROS2功能包构建与文件结构解析：从colcon编译到项目部署

Nacos 3.0新特性解析：为什么控制台端口独立为8080？

新媒体内容创作：使用DeOldify为历史题材短视频生成彩色素材

WuliArt Qwen-Image Turbo避坑指南：解决黑图、显存不足等常见问题