当前位置：首页 > news >正文

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

news 2026/2/9 21:44:52

“视频版ControlNet”来了！

让蓝衣战神秒变迪士尼公举：

视频处理前后，除了画风以外，其他都不更改。

女孩说话的口型都保持一致。

正在插剑的姜文，也能“下一秒”变猩球崛起了。

这就是由全华人团队打造的最新视频处理算法CoDeF，发布才几天，迅速在网上爆火。

网友们看了直呼：

这一天天的，虚实分辨越来越难了！

只需要自己拍点东西，然后覆盖上去，就能变成各种各样的动画了。

有人说，只需给它一年时间，就能被用在电影制作上了。

这马上引来其他人的肯定：技术发展真的非常疯狂、非常快。

目前，团队已将这一方法在GitHub上开源。

姿势不变，画风“皮套”随便换

之所以会被称为是“视频版ControlNet”，主要原因在于CoDeF能够对原视频做到精准控制。

（ControlNet实现了根据提示词精准控制图像元素改变，如人物动作、图像结构等）

根据给到的提示词，它仅改变视频的画风，而且是针对完整视频。

比如输入“Chinese ink painting”，风景纪录片能秒变国风水墨大作。

包括水流也能很好跟踪，整个流体动向都没有被改变。

甚至一大片穗子，在原视频里怎么摆动，改变画风后频率和幅度也如出一辙。

在画风改变上，CoDeF也做了很多细节处理，让效果更加逼真合理。

“由春入冬”后，原本有涟漪的河流静止了，天空中的云彩被换成了太阳，更加符合冬日景象。

霉霉变成魔法少女后，耳环被换成了发光宝石，手里的苹果也换成了魔法球。

这样一来，让电影角色一键变老也简单了许多。

皱纹可以“悄无声息”上脸，其他一切都没有变化。

所以，CoDeF是怎么实现的呢？

可跟踪水和烟雾，跨帧一致性更强

CoDeF是英文“the content deformation field”的缩写，即作者在此提出了一种叫做内容形变场的新方法，来用于视频风格迁移任务。

比起静态的图像风格迁移，这种任务的复杂点在于时间序列上的一致性和流畅度。

比如处理水、烟雾这种元素，两帧画面之间的一致性非常重要。

在此，作者“灵机一动”，提出用图片算法来直接解决视频任务。

他们只在一张图像上部署算法，再将图像-图像的转换，提升为视频-视频的转换，将关键点检测提升为关键点跟踪，而且不需要任何训练。

这样一来，相较于传统方法，能够实现更好的跨帧一致性，甚至跟踪非刚性物体。

具体而言，CoDeF将输入视频分解为2D内容规范场（canonical content field）和3D时间形变场（temporal deformation field）：

前者用于聚合整个视频中的静态内容；后者则负责记录图像沿时间轴的每个单独帧的转换过程。

利用MLP（多层感知器），每个场都用多分辨率2D或3D哈希表来表示。

在此，作者特意引入了正则化，来保证内容规范场能够继承原视频中的语义信息（比如物体的形状）。

如上图所示，这一系列设计使得CoDeF可以自动支持各种图像算法直接应用于视频处理——

也就是只需利用相应算法提取出来一张规范图像，然后通过时间形变场沿着时间轴传播结果即可。

比如，给CoDeF“套上”本用于图片处理的ControlNet，就可以完成视频风格的“翻译”（也就是我们开头和第一段看的那一堆效果）：

“套上”分割一切算法SAM，我们就能轻松做到视频的对象跟踪，完成动态的分割任务：

“套上”Real-ESRGAN，则给视频做超分也是信手拈来……

整个过程非常轻松，不需要对待操作视频进行任何调整或处理。

不仅能处理，还能保证效果，即良好的时间一致性和合成质量。

如下图所示，相比去年诞生的Layered neural atlas算法，CoDeF能够呈现非常忠于原视频的细节，既没有变形也无破坏。

而在根据文本提示修改视频风格的任务对比中，CoDeF全部表现突出，不仅最匹配所给要求，也有着更高的完成度。

跨帧一致性则如下图所示：

一位一作刚本科毕业

这项研究由香港科技大学、蚂蚁团队、浙江大学CAD&CG实验室共同带来。

共同一作有三位，分别是欧阳豪、Yujun Shen和Yuxi Xiao。

其中欧阳豪为港科大博士，师从陈启峰（本文通讯作者之一）；本科导师为贾佳亚。曾在MSRA、商汤、腾讯优图实验室实习过，现在正在谷歌实习。

另一位是Qiuyu Wang。Yujun Shen是通讯作者之一。

他是蚂蚁研究所的高级研究科学家，主管交互智能实验室，研究方向为计算机视觉和深度学习，尤其对生成模型和3D视觉效果感兴趣。

第三位一作为Yuxi Xiao才刚刚从武大本科毕业，今年9月开始在浙大CAD&CG实验室读博。

他以一作身份发表的论文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces，被CVPR2023接收。

论文地址：
https://arxiv.org/abs/2308.07926

项目地址：
https://qiuyu96.github.io/CoDeF/

参考链接：
https://twitter.com/LinusEkenstam/status/1692492872392626284

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

“视频版ControlNet”来了！ 让蓝衣战神秒变迪士尼公举： 视频处理前后，除了画风以外，其他都不更改。女孩说话的口型都保持一致。正在插剑的姜文，也能“下一秒”变猩球崛起了。这就是由全华人团队打造的最新视频处理…...

编程日记 2023/8/25 0:34:48

常用的数据可视化工具有哪些？要操作简单的

随着数据量的剧增，对分析效率和数据信息传递都带来了不小的挑战，于是数据可视化工具应运而生，通过直观形象的图表来展现、传递数据信息，提高数据分析报表的易读性。那么，常用的操作简单数据可视化工具有哪些&#xff1…...

编程日记 2023/8/25 0:33:46

ssl卸载原理

SSL卸载，也称为SSL解密，是一种将SSL加密数据流卸成非加密的明文数据流的过程。SSL卸载通常在负载均衡器、代理服务器、WAF等设备中实现，可以提高传输效率和安全性。 SSL卸载的原理是将SSL数据流拦截下来，通过设备内置的证书进行解…...

编程日记 2023/8/25 0:32:45

【C语言】动态内存管理，详细！！！

文章目录前言一、为什么存在动态内存分配二、动态内存开辟函数的介绍1.malloc2.calloc3.realloc4.free 三、动态内存开辟中的常见错误1.误对NULL进行解引用操作2.对于动态开辟的空间进行了越界访问3.对于非动态开辟的内存进行了free操作4.只free掉动态开辟内存的一部分5.多次f…...

编程日记 2023/8/25 0:31:44

2023年国赛高教社杯数学建模思路 - 案例：退火算法

文章目录 1 退火算法原理1.1 物理背景1.2 背后的数学模型 2 退火算法实现2.1 算法流程2.2算法实现建模资料 ## 0 赛题思路 （赛题出来以后第一时间在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 1 退火算法原理 1.1 物理背景在热力学上&a…...

编程日记 2023/8/25 0:30:42

jenkins 日志输出显示时间戳的方式

网上很多方式比较片面，最新版插件直接使用即可无需更多操作。使用方式如下： 1.安装插件 Timestamper 2.更新全局设置系统设置-找到 Timestamper 勾选 Enabled for all Pipeline builds 也可修改时间戳格式。帮助信息中显示 When checked, timesta…...

编程日记 2023/8/25 0:29:40

geacon_pro配合catcs4.5上线Mac、Linux

我的个人博客: xzajyjs.cn 一些链接 Try师傅的catcs4.5项目: https://github.com/TryGOTry/CobaltStrike_Cat_4.5，最新版解压密码见：https://www.nctry.com/2708.html geacon_pro: https://github.com/testxxxzzz/geacon_pro BeaconTool.jar: https:/…...

编程日记 2023/8/25 0:28:35

vue 实现腾讯地图搜索选点功能（附加搜索联想功能）

注意：开发环境、正式环境需在腾讯地图配置ip地址白名单、域名白名单封装map组件： <template><iframe width"100%" style"border: none;width: 100%;height: 100%;" :src"map_src"></iframe> </t…...

编程日记 2023/8/25 0:27:32

解密长短时记忆网络（LSTM）：从理论到PyTorch实战演示

目录 1. LSTM的背景人工神经网络的进化循环神经网络（RNN）的局限性LSTM的提出背景 2. LSTM的基础理论2.1 LSTM的数学原理遗忘门（Forget Gate）输入门（Input Gate）记忆单元（Cell State）…...

编程日记 2023/8/25 0:26:31

17.1.2 【Linux】systemd使用的unit分类

systemd 有什么好处？ 平行处理所有服务，加速开机流程： 旧的 init 启动脚本是“一项一项任务依序启动”的模式，因此不相依的服务也是得要一个一个的等待。但目前我们的硬件主机系统与操作系统几乎都支持多核心架构了，s…...

编程日记 2023/8/25 0:25:31

vue离线缓存资源文件

本文章主要是解决大文件,实时请求资源浪费网络资源的问题从而有效的将解决用户体验的问题话不多说上才艺 ⬇️⬇️⬇️⬇️⬇️⬇️⬇️ 找到项目中的 index.html 文件,并在 html 标签中加入 manifest"manifest.appcache" 安装 appcache-manifest 包 npm ins…...

编程日记 2023/8/25 0:24:27

2023华为杯研赛数学建模A题B题C题D题E题F题资料华为杯

本次比赛我们将会全程更新华为杯研赛赛题思路模型及代码，大家查看文末名片获取之前华为杯相关的资料和助攻可以查看 2022华为杯数学建模研赛选题建议和思路分析_方形件组批优化问题_UST数模社_的博客-CSDN博客我们华为杯更新的流程如下： A题思路&a…...

编程日记 2023/8/25 0:23:25

星际争霸之小霸王之小蜜蜂（六）--让子弹飞

目录前言一、添加子弹设置二、创建子弹三、创建绘制和移动子弹函数四、让子弹飞五、效果总结前言小蜜蜂的基本操作已经完成了，现在开始编写子弹的代码了。一、添加子弹设置在我的预想里，我们的小蜜蜂既然是一只猫，那么放出的子弹…...

编程日记 2023/8/25 0:22:22

opencv简单使用

cv2库安装， conda install opencv-python注意cv2使用时，路径不能有中文。（不然会一直’None’ _ update # 处理中文路径问题 def cv_imread(file_path): #使用之前需要导入numpy、cv2库，file_path为包含中文的路径return cv2.imd…...

编程日记 2023/8/25 0:21:20

SpringBoot 微人事职称管理模块（十三）

职称管理前端页面设计在职称管理页面添加输入框 export default {name: "JobLevelMarna",data(){return{Jl:{name:""}}}}效果图添加一个下拉框 v-model的值为当前被选中的el-option的 value 属性值 <el-select v-model"Jl.titlelevel" …...

编程日记 2023/8/25 0:20:17

动态规划之0-1背包问题

动态规划之0-1背包问题文章目录动态规划之0-1背包问题一、先给出代码二、讲解第一步：初始化第二步：动态规划，填表第三步：回溯，找到选择方案总结三、进阶（用一维数组解决问题） 一、先给出代码…...

编程日记 2023/8/25 0:19:14

为什么需要单元测试？

为什么需要单元测试？ 从产品角度而言，常规的功能测试、系统测试都是站在产品局部或全局功能进行测试，能够很好地与用户的需要相结合，但是缺乏了对产品研发细节（特别是代码细节的理解）。从测试人员角度而言…...

编程日记 2023/8/25 0:18:13

《合成孔径雷达成像算法与实现》Figure3.13——匹配滤波器的三种实现方式

clc clear close all% 参数设置 TBP 80; % 时间带宽积 T 10e-6; % 脉冲持续时间 N_ZD 60; % 零频点位于中点右侧的距离，P58% 参数计算 B TBP/T; …...

编程日记 2023/8/25 0:17:11

Android企业项目开发实训室建设方案

一、系统概述 Android企业项目开发作为新一代信息技术的重点和促进信息消费的核心产业，已成为我国转变信息服务业的发展新热点：成为信息通信领域发展最快、市场潜力最大的业务领域。互联网尤其是移动互联网，以其巨大的信息交换能力和快速渗透…...

编程日记 2023/8/25 0:16:10

11_Redis经典五大类型源码及底层实现

Redis经典五大类型源码及底层实现一、Redis数据类型的底层数据结构 SDS动态字符串双向链表压缩列表 zpilist哈希表 hashtable调表 skiplist整数集合 intset快速列表 quicklist紧凑列表 listpack 二、Redis源码地址 Github：https://github.com/redis/redis 三、…...

编程日记 2023/8/25 0:15:09

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现，设计原则设计原则是设计模式的理论基石，设计模式在经典的设计模式分类中（如《设计模式：可复用面向对象软件的基础》一书中），总共有23种设计模式，分为三大类：一、创建型模式（5种） 1. 单例模式（Sing…...

编程新知 2025/12/14 20:57:41

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2026/2/8 20:42:53

Python：操作 Excel 折叠

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】 Python 操作 Excel 系列读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

编程新知 2026/1/30 20:05:06

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2026/1/25 13:18:12

【HarmonyOS 5.0】DevEco Testing：鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台，覆盖应用全生命周期测试需求，主要提供五大核心能力： 测试类型检测目标关键指标功能体验基…...

编程新知 2026/1/28 8:17:53

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

12.找到字符串中所有字母异位词

🧠 题目解析题目描述： 给定两个字符串 s 和 p，找出 s 中所有 p 的字母异位词的起始索引。返回的答案以数组形式表示。字母异位词定义： 若两个字符串包含的字符种类和出现次数完全相同，顺序无所谓，则互为…...

编程新知 2026/1/31 12:52:29

用机器学习破解新能源领域的“弃风”难题

音乐发烧友深有体会，玩音乐的本质就是玩电网。火电声音偏暖，水电偏冷，风电偏空旷。至于太阳能发的电，则略显朦胧和单薄。不知你是否有感觉，近两年家里的音响声音越来越冷，听起来越来越单薄？ —…...

编程新知 2026/2/7 22:13:48

网站指纹识别

网站指纹识别网站的最基本组成：服务器（操作系统）、中间件（web容器）、脚本语言、数据厍为什么要了解这些？举个例子：发现了一个文件读取漏洞，我们需要读/etc/passwd，如…...

编程新知 2026/2/2 17:06:29

【Go语言基础【13】】函数、闭包、方法

文章目录零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理二、函数类型与高阶函数1. 函数类型定义2. 高阶函数（函数作为参数、返回值） 三、匿名函数与闭包1. 匿名函数（Lambda函…...

编程新知 2025/12/8 19:02:25

姿势不变，画风“皮套”随便换

可跟踪水和烟雾，跨帧一致性更强

一位一作刚本科毕业

相关文章：