当前位置: 首页 > article >正文

HKUDS开源项目:DeepTutor、Paper2Slides、ViMax、FastCode

之前写过HKUDS港大实验室介绍。DeepTutor官网HKUDS开源GitHub10.5K Star1.4K Fork集成文档问答、可视化讲解、智能出题、深度研究于一体的个人学习助手。核心能力文档知识问答多Agent问题求解能力交互式可视化讲解智能出题与模拟深度研究模式部署dockerrun-d--namedeeptutor\-p8001:8001-p3782:3782\-eLLM_MODELgpt-4o\-eLLM_API_KEYyour-api-key\-eLLM_HOSThttps://api.openai.com/v1\-eEMBEDDING_MODELtext-embedding-3-large\-eEMBEDDING_API_KEYyour-api-key\-eEMBEDDING_HOSThttps://api.openai.com/v1\-v$(pwd)/data:/app/data\-v$(pwd)/config:/app/config:ro\ghcr.io/hkuds/deeptutor:latest浏览器打开http://localhost:3782开始体验API文档在http://localhost:8001/docs。Python示例importasynciofromsrc.agents.solveimportMainSolverfromsrc.agents.questionimportAgentCoordinatorasyncdefmain():solverMainSolver(kb_nameai_textbook)resultawaitsolver.solve(question计算 x[1,2,3] 和 h[4,5] 的线性卷积,modeauto)print(result[formatted_solution])asyncio.run(main())asyncdefmain():coordinatorAgentCoordinator(kb_nameai_textbook,output_dirdata/user/question)# 从文本需求生成多个题目resultawaitcoordinator.generate_questions_custom(requirement_text生成3道关于向量数据库的中等难度题目,difficultymedium,question_typechoice,count3)print(f✅生成{result[completed]}/{result[requested]}道题目)forqinresult[results]:print(f- 相关性:{q[validation][relevance]})Paper2SlidesGitHub3.1K Star418 Fork。把生成PPT这件事做得更专业一些基于专业论文生成PPT。功能通用文档支持可同时无缝处理PDF、三件套、Markdown等多种文件格式全面的内容提取RAG驱动机制确保每个关键见解、数字和数据点都能被精确捕获来源链接准确性保持生成内容与原始来源之间的直接可追溯性消除信息漂移自定义样式自由从专业的内置主题中选择或用自然语言描述您的想法以进行自定义样式设计闪电般快速的生成即时预览模式可实现快速实验和实时改进无缝会话管理高级检查点系统可保留所有进度立即暂停、恢复或切换主题而不会丢失任何进度专业级视觉效果提供符合出版质量标准的精美、可直接用于演示的幻灯片和海报优势支持多worker并行生成对长文档非常友好。提供命令行工具包括Docker、Conda部署适合科研人员网页使用方式可降低使用门槛适合学生群体实战gitclone https://github.com/HKUDS/Paper2Slides.gitcdPaper2Slides conda create-npaper2slidespython3.12-yconda activate paper2slides pipinstall-rrequirements.txt启动Web界面./scripts/start.sh同时启动后端和前端服务浏览器访问http://localhost:5173开始体验。命令行示例python-mpaper2slides--inputpaper.pdf--outputslides--lengthmedium python-mpaper2slides--inputpaper.pdf--outputposter--styleminimalist with blue theme--densitymedium python-mpaper2slides--inputpaper.pdf--outputslides--fastpython-mpaper2slides--inputpaper.pdf--outputslides--parallel2# 启用并行生成默认2个工作进程python-mpaper2slides--list# 列出所有已处理的输出支持的命令行参数选项描述默认值--input,-i输入文件夹目录必填--output输出类型支持slidesorposterposter--content内容类型paperorgeneralpaper--style风格academic,doraemon,orcustomdoraemon--length页数长度short,medium,longshort--densityPosterdensity:sparse,medium,densemedium--fast快速模式跳过RAG检索false--parallel是否开启并行生成--parallel表示使用2个worker--parallel N表示使用N个worker1(sequential without this option)--from-stageForce restart from stage:rag,summary,plan,generateAuto-detect--debug是否开启调试日志falseViMaxGitHub2.5K Star445 Fork.。AI视频领域长期存在的“三秒魔咒”长视频画面崩坏、角色不一致仍未完全破解香港大学数据智能实验室开源的ViMax(Agentic Video Generation)框架给出工程化答案以多智能体协作架构复刻文本到视频的自动化创作逻辑通过RAG、VLM视觉校验等技术直击长视频核心痛点支持创意、小说、剧本生成及角色无缝植入四大模式且开源可定制、支持本地部署。提出一种区别于“训练更大模型”的工程化解法。不再试图用一个模型解决所有问题而是构建一个多智能体协作系统。ViMax扮演“制片人”和“导演”的角色调度LLM负责剧本调度图像模型负责分镜调度视频模型负责动态生成并通过一致性校验机制将它们串联起来。核心价值在于长程叙事控制将模糊创意转化为精确的执行指令并通过代理工作流Agentic Workflow解决长视频生成中的一致性难题。四大核心应用模式创意到视频(Idea-to-Video)全自动化的叙事构建。自动化程度最高的模式旨在将“一句话灵感”转化为“完整视频”。用户只需输入一个简单的脑洞ViMax内置的编剧智能体Screenwriter Agent会自动扩写故事线补充情节冲突导演智能体会将其转化为分镜脚本并自动调度图像和视频生成器完成制作。适用于快速原型验证、儿童故事生成或短视频创意测试屏蔽复杂的提示词工程让用户专注于创意本身。小说到视频(Novel-to-Video)基于RAG的长文本改编。视频生成模型通常无法处理小说级别的长文本输入Context Window限制。系统分析长篇小说识别关键情节与核心对话将其转化为标准的分集视频脚本。通过RAG建立视觉资产索引在生成第50个镜头时系统能检索第1个镜头中主角的视觉特征确保角色在长篇幅中不“换脸”。这是小说推文、有声书视觉化改编的杀手级功能。剧本到视频(Script-to-Video)导演级的精准控制。对于专业创作者允许直接输入行业标准的剧本格式。系统能解析专业剧本标记如EXT. SCHOOL GYM - DAY。不仅仅是理解文本还能根据剧本中的镜头描述如“特写”、“广角”来指导视频模型的运镜生成。适用于影视预演Pre-viz和专业广告分镜制作创作者可以精确控制每一个镜头的调度。智能客串(Smart Cameo)用户角色的无缝植入。一个极具互动性的功能解决了“如何让自己进入AI电影”的问题。ViMax采用身份保持Identity Consistency技术。用户上传一张照片系统会在生成过程中将该人物的视觉特征注入到每一个分镜中。与简单的后期换脸不同这种方式能确保人物在不同光影、角度下与环境的融合更加自然。这适用于个性化视频贺卡、沉浸式互动视频、虚拟形象内容生产。技术架构与运行原理ViMax的本质是一个调度框架而非单一生成模型理解其架构有助于在部署时进行配置。多智能体协作系统ViMax模拟一个影视制作团队中央调度Central Dispatch负责资源分配和流程控制编剧智能体调用LLM如Gemini进行文本理解和剧本拆解视觉智能体调用Image Generator如Nano Banana生成分镜首帧视频智能体调用Video Generator如Veo基于首帧生成动态视频。一致性保障机制为了防止长视频崩坏引入双重校验视觉资产索引系统会维护一个Asset Bank存储已生成的角色和场景图。生成新镜头时会强制检索相关联的旧镜头作为参考Reference Image。VLM校验官在生成关键帧时系统会并行生成多张备选图并调用多模态大模型VLM像人类导演一样进行打分剔除构图错误或角色不一致的画面。对比在AI视频生成工作流领域除ViMax市场上还有Oiioii、Seko、Moki等产品。将从产品形态、控制力及一致性方案三个维度进行客观对比。对比项目产品形态一致性方案可控性部署难度生成质量适用人群ViMax开源代码框架不含底模需自行配置API侧重架构与调度代码级检索VLM校验通过逻辑强制检索历史帧并用模型自动筛选提供极高(White-box)控制开发者可修改调度逻辑更换底层模型(如换成GPT-4)高需懂Python需配置环境与API Key取决于接入的模型上限由接入的API(如Veo)决定适合开发者、管线工程师需要搭建私有化、可定制的视频生产流水线Oiioii故事创作工具侧重文本到视频流的转化体验侧重叙事连贯侧重于文本层面的剧情衔接提供中等控制依赖预设模版与参数或文本指令精度低注册账号或网页/App操作即可流畅侧重生成速度适合网文/故事作者SekoAI视频工具侧重特定风格流与社区分享采用风格迁移通过强风格化滤镜掩盖细节瑕疵提供中等控制依赖预设模版与参数或文本指令精度低注册账号或网页/App操作即可风格化强特定风格表现好适合C端娱乐用户Moki网页端SaaS高度集成的在线工作台开箱即用使用角色库(Character Bank)用户预设角色系统在生成时强制约束LoRA/Ref提供高(UI-based)控制提供图形化的分镜调整、重绘功能低注册账号或网页/App操作即可稳定平台调优过的模型参数有底线保证适合产品经理、内容创作者需要快速产出成品视频分析结论Moki/Seko/Oiioii是封装好的商业产品体验好但黑盒化。ViMax是一个技术脚手架。它不提供算力但提供了逻辑。对于希望拥有“源代码级”控制权或者希望将最新的模型如DeepSeek、Flux整合进视频流的开发者来说ViMax是不错的选择。实战本地部署指在本地运行智能体调度代码实际的图像和视频渲染依赖于配置文件中指定的API默认为Google Gemini/Veo。支持Linux和Windows系统官方推荐使用uv进行包管理以避免Python依赖冲突。gitclone https://github.com/HKUDS/ViMax.gitcdViMax uvsyncViMax的运行完全依赖于configs/idea2video.yaml配置文件需配置聊天模型大脑用于剧本生成和逻辑调度、图像生成器画师用于生成分镜首帧和视频生成器摄影师用于生成动态视频。chat_model:init_args:model:google/gemini-2.5-flash-lite-preview-09-2025model_provider:openaiapi_key:base_url:https://openrouter.ai/api/v1# Rate limits for chat model API calls# Set to null to disable rate limiting for this servicemax_requests_per_minute:500max_requests_per_day:2000image_generator:class_path:tools.ImageGeneratorNanobananaGoogleAPIinit_args:api_key:max_requests_per_minute:10max_requests_per_day:500video_generator:class_path:tools.VideoGeneratorVeoGoogleAPIinit_args:api_key:max_requests_per_minute:2max_requests_per_day:10working_dir:.working_dir/idea2video运行模式创意生成视频(Idea-to-Video)配置好YAML文件后编辑项目根目录下的main_idea2video.py脚本填入创意# 定义创意idea\If a cat and a dog are best friends, what would happen when they meet a new cat?# 定义约束条件user_requirement\For children, do not exceed 3 scenes.# 定义风格styleCartoon执行生成python main_idea2video.py。程序运行后会看到控制台输出智能体的思考过程最终生成的视频将保存在.working_dir/idea2video目录下。剧本生成视频 (Script-to-Video)如果有具体剧本配置configs/script2video.yaml编辑main_script2video.pyscript\EXT. SCHOOL GYM - DAYA group of students are practicing basketball in the gym. The gym is large and open, with a basketball hoop at one end and a large crowd of spectators at the other end. John (18, male, tall, athletic) is the star player, and he is practicing his dribble and shot. Jane (17, female, short, athletic) is the assistant coach, and she is helping John with his practice. The other students are watching the practice and cheering for John.John: (dribbling the ball) Im going to score a basket!Jane: (smiling) Good job, John!John: (shooting the ball) Yes!...user_requirement\Fast-paced with no more than 20 shots.styleAnimate Style执行生成python main_script2video.pyViMax的发布为AI视频生成提供一个工业化样本。证明在底层模型能力尚未达到完美的今天通过工程化的手段Agentic Workflow依然能构建出可用的长视频生产管线。不仅仅是一个工具更是一个开源的多模态调度协议。对于企业和开发者而言最大价值在于其架构的可复用性。完全可以保留ViMax的调度逻辑将底层的大脑换成DeepSeek将画师换成Flux将摄影师换成CogVideoX从而搭建一套完全私有化、零API成本的自动化视频工厂。FastCode港大开源GitHub2K Star220 Fork的代码提速推理框架效率是Cursor和Claude Code的三倍但使用成本却比他们低50%。核心三段式框架让大模型读懂整个项目代码的骨架根据指令精准定位与当前问题最相关的代码片段成本感知在有限的上下文窗口里筛选出含金量最高的上下文交给大模型进行推理和回答让大模型在面对庞大复杂项目时依然能找得准、跑得快还省钱。

相关文章:

HKUDS开源项目:DeepTutor、Paper2Slides、ViMax、FastCode

之前写过HKUDS(港大实验室)介绍。 DeepTutor 官网,HKUDS开源(GitHub,10.5K Star,1.4K Fork)集成文档问答、可视化讲解、智能出题、深度研究于一体的个人学习助手。 核心能力: 文…...

Automatic Mixed Precision (AMP) - Gradient Scaling (梯度缩放)

Automatic Mixed Precision {AMP} - Gradient Scaling {梯度缩放}1. Gradient Scaling (梯度缩放)2. 混合精度原理与计算过程2.1. float32 与 float16 数据格式2.2. 混合精度原理2.3. 混合精度计算过程2.4. 特定计算操作对计算精度的要求ReferencesAutomatic Mixed Precision p…...

单目测距+车辆识别+行人车辆距离检测+深度估计识别+车辆距离识别

如何使用YOLOv11和自定义AI模型通过单摄像头估算物体的实际距离 在计算机视觉和人工智能的研究中,物体检测和距离估算是两个非常重要的任务。传统的距离估算方法通常依赖于多个摄像头或专用的传感器,但这些方法成本高且实现复杂。随着深度学习技术的进步…...

个人网络安全自查之-如何判断一个未知程序是否是有害-类比/解混淆/检测分析

前面的文章说明了使用一些工具分析样本头部以及程序body部分的信息,从而获得从而获知程序是否存在可疑的信息,详见这里。但是恶意软件处在不停地进化中,攻防的对抗一致在进行。因此为了阻止静态的分析,恶意软件业也进化出了多种手段对抗分析师的分析。 本文介绍的方法也是…...

【动手学深度学习】第五课 softmax回归

目录 一、softmax回归 1. 独热编码 2. 网络架构 3. softmax运算 4. 损失函数 5. 模型预测与评估 二、图像分类数据集 1. 读取数据集 2. 读取小批量 3. 整合组件 三、softmax的从0开始实现 1. 初始化参数 2. 定义softmax操作 3. 定义模型 4. 定义损失函…...

Kimi LeetCode 552.学生出勒记录|| public int checkRecord(int n)

我来为你详细解析 LeetCode 552. 学生出勤记录 II 这道动态规划题目。 题目分析 出勤记录规则: P (Present):出席A (Absent):缺勤L (Late):迟到 奖励条件: 缺勤次数 严格少于 2 次(即 A 的个数 ≤ 1&#x…...

如何解决 CAS 的 ABA 问题:从版本号机制到 AtomicStampedReference 深度解析

文章目录问题一、 什么是 ABA 问题?二、 为什么不能通过“加锁”来解决?三、 核心方案:引入版本号四、 推荐实现:AtomicStampedReference1. 内部类 Pair2. CAS 对象引用五、 实战演示:拦截 ABA 过程六、 延伸&#xff…...

...........

.................

Linux基础操作——学习记录

Linux的文件结构是多叉树,叶子节点是普通文件或空目录,非叶子节一定是一个非空目录基础操作clear:清屏AITENTER:全屏/退出全屏adduser 用户名: 创建新用户passwd 用户名 : 重置密码userdel -r 用户名&#…...

AI 时代的程序员生存指南:我是如何用 AI 提升 10 倍开发效率的

AI 时代的程序员生存指南:我是如何用 AI 提升 10 倍开发效率的从"抗拒 AI"到"离不开 AI",我的思维转变和实操经验全部分享引言:一个程序员的焦虑去年这个时候,程序员都特别焦虑。因为那段时间,AI …...

vim使用verible插件进行verilog语法检查

github上下载verible后,可在不联网的情况下,在vim中检查verilog语法,或者格式优化(自动缩进等),verible下还有其他插件,待探索(xxx --helpfull)...

2025_NIPS_Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

一、主要内容总结 1. 研究背景与问题 现有视觉语言模型(VLMs)在多模态任务中表现出色,但缺乏复杂场景下的情境推理能力,难以支撑机器人、交互式助手等领域的决策需求。传统增强VLMs推理能力的方法依赖大规模图文配对数据,这类数据标注成本高、获取难度大,尤其在多样化现…...

OpenClaw 超级 AI 实战专栏【模型推理与实战】(五)推理参数调优:精度、速度、显存平衡

目录 一、核心认知:OpenClaw 推理的 “三角平衡” 逻辑 二、OpenClaw 核心推理参数详解(按优先级排序) 三、分场景调优策略(附 OpenClaw 实战代码) 场景 1:低配显卡(4G/6G 显存,如 GTX 1050/1650) 场景 2:中高配显卡(8G/12G/16G 显存,如 RTX 3060/3090/A100)…...

2025_NIPS_IR-OptSet: An Optimization-Sensitive Dataset for Advancing LLM-Based IR Optimizer

文章核心总结与创新点 主要内容 本文针对传统编译器依赖手工优化规则、扩展性差的问题,提出首个公开的优化敏感数据集IR-OptSet,用于提升基于大语言模型(LLMs)的中间表示(IR)优化器性能。该数据集包含170K条LLVM IR样本,源自8个优化领域的1704个开源仓库,定义了代码分…...

Java对象头:深入理解对象存储的核心机制

Java对象结构 实例化一个Java对象之后,该对象在内存中的结构是怎么样的?Java对象(Object实例)结构包括三部分:对象头、对象体和对齐字节,具体下图所示Java对象的三部分 对象头 对象头包括三个字段&#xff…...

Swift构造过程介绍

Swift 构造过程概述Swift 的构造过程是实例化类、结构体或枚举时的重要机制。构造过程通过构造器(init)实现,确保实例在首次使用前完成正确的初始化。Swift 的构造器无需返回值,其主要任务是初始化存储属性。默认构造器如果结构体…...

Pytorch之torch.nn.Conv2d详解

卷积层是卷积神经网络(CNN)的核心组件,而torch.nn.Conv2d作为 PyTorch 中实现二维卷积的核心类,广泛应用于图像分类、目标检测、语义分割等计算机视觉任务。本文将从基础概念、参数详解、使用示例到核心原理,全方位拆解…...

ROS2 -03-工作空间与功能包

文章目录ROS2 工作空间与功能包完全指南一、ROS2 工作空间(Workspace)1. 什么是工作空间?2. 工作空间的目录结构3. 工作空间的类型:Overlay 与 Underlay4. 创建工作空间5. 编译工作空间二、ROS2 功能包(Package&#x…...

MTP管理培训

MTP管理培训 这个是纯管理课程,技术管理还有不同 该套课程以“理”为核心,从“可实操性”入手,阐述了不因人是否天生具有管理特质,也能做好管理。 MTP(Management Training Program/Plan),原义为…...

OBS怎么调美颜?OBS怎么打开美颜功能?

OBS Studio 实现美颜主要有内置滤镜、第三方插件、摄像头硬件美颜三种方式,今天主要介绍第三方插件的用法: 一、基础准备 确保已安装 OBS Studio 最新版(推荐 29.1.3 及以上,稳定性更佳)。 摄像头已连接并正常识别&a…...

计算机毕业设计springboot中药材仓储管理系统的分析与实现 基于SpringBoot框架的中药饮片智能库存与质量追溯平台 中医药材冷链物流与数字化仓储运营管理系统

计算机毕业设计springboot中药材仓储管理系统的分析与实现0j9h07d8(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着中医药的全球化推广和国内市场需求的增长,中药…...

LeetCode 11:盛最多水的容器(C语言实现)

题目描述给定一个长度为 n 的整数数组 height。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i])。请你找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。注意: 你不能倾斜容器。示…...

Unreal Engine5 笔记(持续更新)

C Debug及UE_Log debugPrint GEngine->AddOnScreenDebugMessage(-1, 5, FColor::Red, "Begin play"); 含参print int a 100; GEngine->AddOnScreenDebugMessage(-1, 5, FColor::Red, FString::Printf(TEXT("%d"), a));绘制调制函数 #include &qu…...

基于航空影像的道路异常状态识别 无人机道路阻断巡检 道路减速带识别 无人机道路施工巡检 无人机斑马线监测 道路场景计算机视觉数据集Yolo第10552期

道路场景计算机视觉数据集 README数据集核心信息概览(多数为背景)项目内容类别数量4类类别中文名称阻断道路、减速带、施工中、斑马线图像数量800数据集格式YOLO格式核心应用价值基于航空影像的道路异常状态实例分割,支撑智能交通管理与道路运维决策 往期热门主题 主…...

计算机毕业设计springboot社区便民服务平台 基于SpringBoot框架的智慧社区综合服务运营平台 城市社区数字化生活与多元服务集成管理系统

计算机毕业设计springboot社区便民服务平台9pqty086(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。在快速城市化的进程中,社区作为城市的基本单元,其服务…...

基于STC8H8K64U的光学仪器协同采集平台设计

1. 项目概述本项目面向高校及科研院所实验室场景,构建一套基于STC8H8K64U单片机的多光学仪器协同控制与远程数据采集平台。其核心目标并非替代专用仪器控制器,而是作为轻量级、可扩展的“仪器粘合层”,解决实验室中多品牌、多协议光学设备&am…...

ROS2功能包构建与文件结构解析:从colcon编译到项目部署

1. 从零开始:理解ROS2功能包与工作空间 如果你刚开始接触ROS2,可能会被一堆新名词搞得有点懵:功能包、工作空间、colcon、ament……别担心,这很正常。我刚开始用ROS2的时候,也花了不少时间才把这些概念理清楚。今天&am…...

Nacos 3.0新特性解析:为什么控制台端口独立为8080?

Nacos 3.0架构演进:控制台端口独立背后的深度安全与运维考量 如果你是一位长期使用Nacos的开发者,从1.x版本一路升级过来,可能会对端口号的变化感到一丝困惑。最初,访问http://localhost:8848/nacos就能搞定一切;到了2…...

新媒体内容创作:使用DeOldify为历史题材短视频生成彩色素材

新媒体内容创作:使用DeOldify为历史题材短视频生成彩色素材 最近刷短视频,是不是经常看到一些老电影片段、历史纪录片被“上色”了?黑白画面一下子变得色彩鲜活,人物和场景都生动了起来,点赞和评论量往往也特别高。作…...

WuliArt Qwen-Image Turbo避坑指南:解决黑图、显存不足等常见问题

WuliArt Qwen-Image Turbo避坑指南:解决黑图、显存不足等常见问题 1. 为什么你的第一张图总是“黑屏”或“爆显存”? 你满怀期待地部署好WuliArt Qwen-Image Turbo,输入精心构思的Prompt,点击生成,然后……屏幕右侧一…...