当前位置：首页 > news >正文

阅读笔记 First Order Motion Model for Image Animation

news 2026/5/20 7:51:04

文章解决的是图片动画的问题。假设有源图片和驱动视频，并且其中的物体是同一类的，文章的方法让源图片中的物体按照驱动视频中物体的动作而动。
文章的方法只需要一个同类物体的视频集，不需要而外的标注。

方法

该方法基于self-supervised策略，主要方法是基于训练视频中的一帧图像和和学习到的动作表示，重建出训练视频。其中，动作表示由动作特定的关键点（motion-specific keypoint）和局部仿射变换（local affine transformations）组成。
在这里插入图片描述
框架图如上图所示，由两个部分组成，一个是运动估计模块，一个是图像生成模块。
运动估计模块的目的是估计从驱动视频的一帧 $\mathbf D \in \mathbb R^{3\times H \times W}$ 到源图片 $\mathbf S \in \mathbb R^{3\times H \times W}$ 的稠密运动场（dense motion field）。运动场 $\mathcal T_{\mathbf S \leftarrow \mathbf D}: \mathbb R^2 \rightarrow \mathbb R^2$ 将 $\mathbf D$ 中每个像素位置映射到对应的 $\mathbf S$ 。 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 也被称为反向光流（backward optical flow）。使用反向光流而不是正向光流，因为可以使用双线性采样以可微分的方式有效地实现后向扭曲。

仿射变换

在齐次坐标上，仿射变换可以用下面的式子表示：
${\begin{bmatrix}{\vec{y}}\\1\end{bmatrix}}= {\begin{bmatrix}B&{\vec {b}}\ \\0,\ldots ,0&1\end{bmatrix}} {\begin{bmatrix}{\vec {x}}\\1\end{bmatrix}}$ 因为运算矩阵的最后一行是为了运算补齐的，所以在2维图像上仿射变换的参数由矩阵 $\mathbf A \in \mathbb R^{2 \times 3}$ 表示。

运动估计模块

粗运动估计

粗运动估计预测关键点处的运动模式。
动作估计模块估计反向光流 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 。 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 用在关键点附近的一阶泰勒展开表示。

假设存在一个抽象参考帧 $\mathbf R$ 。这样，我们需要估计两个变换：从 $\mathbf R$ 到 $\mathbf S$ （ $\mathcal T_{\mathbf S \leftarrow \mathbf R}$ ）和从 $\mathbf R$ 到 $\mathbf D$ （ $\mathcal T_{\mathbf D \leftarrow \mathbf R}$ ）。抽象参考帧的好处是可以让我们独立的处理 $\mathbf D$ 和 $\mathbf S$ 。
为了描述方便，用 $\mathbf X$ 表示 $\mathbf S$ 或者 $\mathbf D$ ，用 $p_1,\cdots,p_K$ 表示抽象参考帧 $\mathbf R$ 上的关键点的坐标，用 $z$ 表示在其他帧上的点的坐标。我们估计在关键点 $p_1,\cdots,p_K$ 周围的 $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 。具体而言，我们考虑 $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 在关键点 $p_1,\cdots,p_K$ 的一阶泰勒展开：
$\mathcal T_{\mathbf X \leftarrow \mathbf R}(p)=\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)+(\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})(p-p_k)+o(\|p-p_k\|)$ 这是可以看做一个仿射变换 $\mathbf A^k_{\mathbf X \leftarrow \mathbf R} \in \mathbb R^{2 \times 3}$ ， $\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)$ 是平移参数， $\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 是线性映射的参数。

$\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 用其在K个关键点处的值和Jacobian表示。
$\mathcal T_{\mathbf X \leftarrow \mathbf R}(p) \approx \{\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_1),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_1}\}, \cdots,\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_K),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_K}\}\}$
我们假设 $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ 在每个关键点的局部是双射。则对于 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ ，我们有
$\mathcal T_{\mathbf S \leftarrow \mathbf D}=\mathcal T_{\mathbf S \leftarrow \mathbf R} \circ \mathcal T^{-1}_{\mathbf D \leftarrow \mathbf R}$ 用一阶泰勒展开近似有
$\mathcal T_{\mathbf S \leftarrow \mathbf D}(z) \approx \mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k))\\ J_k=(\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})(\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})^{-1}$
$\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)$ 和 $\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)$ 用基于U-Net的关键点预测网络（keypoint predictor network）预测。对每个关键点预测一个heatmap，总共预测K个heatmap。U-Net的decoder最后一层用softmax预测关键点置信图（keypoint confidence map），也就是关键点在每个像素位置的置信度，满足 $\sum_{z \in \mathcal Z} \mathbf W^k(z)=1$ ，其中 $\mathcal Z$ 表示所有的像素位置。
$\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)$ 和 $\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)$ 相当于仿射变换中的平移参数，注意这里是两维的（z包含x和y）。平移参数用关键点置信图加权计算：
$b^k = \sum_{z \in \mathcal Z} \mathbf W^k(z)z$
$\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 和 $\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 相当于仿射变换中的线性变换部分，他们作为仿射变换中剩下的4个参数用keypoint predictor network的额外的4个通道估计，每个关键点4个额外的通道。用 $P^k_{ij} \in \mathbb R^{H \times W}$ 表示其中一个通道的估计值，其中 $i, j$ 是仿射变换的坐标。线性变换的参数用关键点置信图加权融合：
$\mathbf B^k[i,j] = \sum_{z \in \mathcal Z} \mathbf W^k(z)P^k_{ij}(z)$

密集运动估计

密集运动估计预测整个图像每个像素点的运动模式 $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ 。

我们使用卷积网络从 $K$ 个关键点处的泰勒展开 $\mathcal T_{\mathbf S \leftarrow \mathbf D}(z)$ 和源图像帧 $\mathbf S$ 中估计 $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ 。
用关键点处的变换扭曲源图像帧 $\mathbf S$ ，可以得到 $K$ 个变换后的图像 $\mathbf S^1, \cdots, \mathbf S^K$ 。另外，考虑额外的图像 $\mathbf S^0 = \mathbf S$ 作为背景。
对每一个关键点计算heatmap $\mathbf H_k(z)$ 表示每个变换在哪发生。
$\mathbf H_k(z) = exp(\frac{(\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)-z)^2}{\sigma}) - exp(\frac{(\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)-z)^2}{\sigma})$
将 $\mathbf H_k$ 和 $\mathbf S^0, \cdots, \mathbf S^K$ 拼接输入基于U-Net的稠密运动网络（dense motion network）。dense motion network估计 $K + 1$ 个掩码 $\mathbf M_k, k = 0, \cdots, K$ 表示每个位置用哪个局部变换，满足 $\sum_{k=0}^K \mathbf M^k(z)=1$ 。最后的密集运动场表示为：
$\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}(z) = \mathbf M_0z + \sum_{k=1}^K \mathbf M_k(\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)))$
表示为矩阵坐标变换有：
$\mathbf O(z) = \mathbf M^0(z)z + \sum_{k=1}^K \mathbf M^k(z) \mathbf A^k_{\mathbf S \leftarrow \mathbf D} {\begin{bmatrix}{z}\\1\end{bmatrix}}$

图像生成模块

1.根据上面预测的 $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ 对 $S$ 经过两个下采样卷积的特征图（feature map ） $\xi \in \mathbb R^{H'\times W'}$ 使用warp操作。
2.在 $S$ 中存在遮挡的时候， $D^{'}$ 并不能完全通过warp源图像获得，而是需要inpaint。所以，预测一个遮挡图（occlusion map） $\hat{\mathcal O}_{\mathbf S \leftarrow \mathbf D} \in [0,1]^{H'\times W'}$ ，表示源图像需要被inpaint的区域。occlusion map通过在dense motion network后添加一层来预测。
经过转换的feature map可以表示为：
$\xi' = \hat{\mathcal O}_{\mathbf S \leftarrow \mathbf D} \odot f_w(\xi, \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D})$ $f_w$ 表示反向变形（back-warping）操作。经过转换的feature map输入到图像生成模块的后面层处理，最后生成图像。

训练

训练的损失由多项组成。首先是基于perceptual loss的reconstruction loss。该loss用预训练的VGG-19网络作为特征提取器，对比重建帧和驱动视频的真实帧的特征差异。

另外考虑到关键点的学习是无标签的，这会导致不稳定的表现，引入Equivariance constraint用在无监督关键点的学习中。假设图片 $X$ 经过过一个已知的变换 $\mathcal T_{\mathbf X \leftarrow \mathbf Y}$ ，得到 $Y$ 。Equivariance constraint要求：
$\mathcal T_{\mathbf X \leftarrow \mathbf R} \equiv \mathcal T_{\mathbf X \leftarrow \mathbf Y} \circ \mathcal T_{\mathbf Y \leftarrow \mathbf R}$ 通过对两边进行一阶泰勒展开有，并使用L1 loss分别约束关键点处的值和Jacobian。

参考资料

《First Order Motion Model for Image Animation》
《Motion Representations for Articulated Animation》

阅读笔记 First Order Motion Model for Image Animation

方法

仿射变换

运动估计模块

粗运动估计

密集运动估计

图像生成模块

训练

参考资料

相关文章：

阅读笔记 First Order Motion Model for Image Animation

【计算机图形学】课堂习题汇总

国外导师对博士后申请简历的几点建议

【五一创作】Scratch资料袋

数据库基础篇《17.触发器》

03 - 大学生如何使用GPT

【P1】Jmeter 准备工作

字节的面试，你能扛住几道？

NOPI用法之自定义单元格背景色(3)

数据分析中常见标准的参考文献

辨析变更请求、批准的变更请求、实施批准的变更请求

leetcode 561. 数组拆分

AviatorScript

Oracle跨服务器取数——DBlink 初级使用

200人 500人园区网设计

netstat命令解析

API接口的自我阐述

Day32内部类

用户画像系列——HBase 在画像标签过期策略中的应用

时下热门话题：ChatGPT能否取代人类？

实测测评｜零注册AI PDF翻译工具：保留排版\+OCR无损翻译，替代DeepL/谷歌翻译

EPM900编程器HEX文件烧录指南与技巧

Claude Code + OpenCode + OpenSpec 规范驱动开发实战：AI 驱动智能客服管理系统开发

从理论到实践：用Magma解锁代数计算新维度

企业信息化架构（业务架构、应用架构、数据架构、技术架构）方案：四横五纵框架、元模型+视图、业务、应用、数据、技术四大架构

城市生活垃圾焚烧过程参数的智能自主设定方法【附程序】

如何用Univer在3小时内构建企业级电子表格应用？5个实战技巧分享

告别PCL！用Qt+QGLWidget手把手教你打造自己的3D点云查看器（附完整源码）

枚举进阶：从常量集合到业务逻辑承载者的实战扩展技巧

红外图像/红外遥感图像/可见光红外图像对近红外和可见光成对图像生成对抗网络的风格迁移，或者图像融合/图像生成/图像转换可见光遥感生成红外遥感图像，37500对图像数据