当前位置：首页 > news >正文

论文阅读 | RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

news 2026/4/24 6:41:05

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

ECCV2020光流任务best paper
论文地址：【here】
代码地址：【here】

介绍

光流是对两张相邻图像中的逐像素运动的一种估计。目前碰到的一些困难包括：物体的快速运动，遮挡、运动模糊和缺乏纹理信息的一些图案。
目前深度学习的方法在维持传统方法达到的性能的情况下，有着更快的推理速度。目前需要考虑的问题是：如何设计一个深度学习的光流估计网络，实现更好表现，更易训练和更好的泛化到不同场景。

Recurrent All-Pairs Field Transforms (RAFT)框架有如下优势：

SOTA精度
更强泛化
更高效率

RAFT的主要结构：

feature encoder（蓝色部分） +context encoder（灰色部分）
一个全像素区域的a correlation layer，同时带多尺度池化
a recurrent GRU-based update operator

网络架构

Feature encoder:

卷积网络，做了8倍下采样，两张图共享一个网络权重

context encoder:

和feature encoder 一样的网络结构，只作用在左图，作为后续GRU的参数和左图特征

correlation volume生成-相似度的计算

拿Feature encoder得到的两张8倍下采样图后的特征，通过逐像素间的特征相乘再求和可以得到一个逐像素间的相似度，利用的是余弦相似度的计算方式。

Correlation Pyramid生成

由于correlation volume用于生成cost volume,即相邻像素区域之间的一个相似度（correlation volume是全局像素间的一个相似度），需要对correlation volume进行领域取值才能得到cost volume。
即correlation volume： H * W * H * W
cost volume： H * W * delta h * delta w
这样导致如果要搜寻更远空间（larger displacement）内的对应像素，delta h * delta w 会很大，导致占用很大的计算资源

于是本文根据这样的缺点，提出一种相关性金字塔Correlation Pyramid：
即构建了四个不同大小的correlation volume，通过对原始大小的correlation volume 池化得到尺寸为H * W * H/2 * W/2， H * W * H/4 * W/4，以此类推的Correlation Pyramid
在这里插入图片描述
途中阐释的图correlation volume的构建过程，即C3的correlation volume得到的是image2右图中一个方格内所有的像素点与左图image1某一个像素点的匹配相似度。

构建这样一个金字塔的correlation volume，目的是为了实现不同范围的搜寻空间。在最小的 H * W * H/8 * W/8 correlation volume的上，同样的半径范围r，对应原图的搜寻半径范围是8r.

构建Correlation Pyramid代码如下：

        corr = CorrBlock.corr(fmap1, fmap2)batch, h1, w1, dim, h2, w2 = corr.shapecorr = corr.reshape(batch*h1*w1, dim, h2, w2)self.corr_pyramid.append(corr)for i in range(self.num_levels-1):corr = F.avg_pool2d(corr, 2, stride=2)self.corr_pyramid.append(corr)

Correlation Lookup

这个步骤也就是上一个节，第3节中提到的correlation volume生成cost volume的过程。
具体操作为，在x维度上，生成一个索引图，H * W * （2r+1），存储每个对应的像素点的相邻坐标索引，用这个索引在Correlation Pyramid中取值，得到4个，尺寸为H * W * （2r+1）的cost volume，最后在特征层做特征连接合并不同范围位移的cost volume, 得到一个金字塔范围的cost volume。在y的维度上做同样的操作
在这里插入图片描述

代码如下

        r = self.radiuscoords = coords.permute(0, 2, 3, 1)batch, h1, w1, _ = coords.shapeout_pyramid = []for i in range(self.num_levels):corr = self.corr_pyramid[i]dx = torch.linspace(-r, r, 2*r+1, device=coords.device)dy = torch.linspace(-r, r, 2*r+1, device=coords.device)delta = torch.stack(torch.meshgrid(dy, dx), axis=-1)centroid_lvl = coords.reshape(batch*h1*w1, 1, 1, 2) / 2**idelta_lvl = delta.view(1, 2*r+1, 2*r+1, 2)coords_lvl = centroid_lvl + delta_lvlcorr = bilinear_sampler(corr, coords_lvl)corr = corr.view(batch, h1, w1, -1)out_pyramid.append(corr)out = torch.cat(out_pyramid, dim=-1)

迭代更新过程
RAFT采用GRU不断迭代更新光流，先将光流初始化0，再不断通过计算的cost volume迭代更新光流，再用将新得到的光流与cost volume优化新的光流

这里的光流用于直接查找 cost volume，因此是绝对值，最后的值要与最初的光流相减
upsample过程
由于整个过程都是再8倍下采样分辨率下，因此最后做了一个upsample.
upsample用mask学习周围邻域的分布权重情况，做加权mask的upsample.

    def upsample_flow(self, flow, mask):""" Upsample flow field [H/8, W/8, 2] -> [H, W, 2] using convex combination """N, _, H, W = flow.shapemask = mask.view(N, 1, 9, 8, 8, H, W)mask = torch.softmax(mask, dim=2)up_flow = F.unfold(8 * flow, [3,3], padding=1)up_flow = up_flow.view(N, 2, 9, 1, 1, H, W)up_flow = torch.sum(mask * up_flow, dim=2)up_flow = up_flow.permute(0, 1, 4, 2, 5, 3)return up_flow.reshape(N, 2, 8*H, 8*W)

损失函数直接用L1损失

实验

精度
在这里插入图片描述

效率
在这里插入图片描述

总结

本文的优势：精度好、效率高，在不同数据集上表现都好

论文阅读 | RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

介绍

网络架构

实验

总结

相关文章：

论文阅读 | RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

神经网络的发展历史

【单元测试】--单元测试最佳实践

llava1.5-部署

倒计时 1 天｜KCD 2023 杭州站

什么是模拟芯片，模拟芯片都有哪些测试指标？

C++-json(2)-unsigned char-unsigned char*-memcpy-strcpy-sizeof-strlen

python安装第三方包

《数据结构、算法与应用C++语言描述》-队列的应用-电路布线问题

GC overhead limit exceeded问题

What‘s new in Arana v0.2.0

STM32 串口接收中断被莫名关闭

接口测试vs功能测试

前端面试题整理（1.0）

使用Spire.PDF for Python插件从PDF文件提取文字和图片信息

springBoot整合讯飞星火认知大模型

JMM对数据竞争的定义

民安智库（湖北知名满意度测评公司）食品安全满意度调查如何开展

Rust 语法笔记

AI智慧安防智能监控平台如何做到健身房智能视频监控？

不止于调试：用Modbus Poll深度解析Modbus TCP/IP协议帧，看懂每一行通信报文

SV约束控制进阶：像开关一样动态管理你的随机约束块（constraint_mode详解）

STM32F103x + ULN2003驱动28BYJ-48步进电机：从开环控制到细分驱动的进阶实践

从Kindle转投BOOX：一个重度阅读者的真实体验与避坑指南

RISC-V IDE混战，我为什么最终选择了Segger Embedded Studio？

【2026内存安全编码白皮书】：C语言开发者必须立即落地的7项零成本接入策略

【仅限首批信创集成商内部流通】Docker 27 国产化适配白皮书（含17个真实POC环境日志+4类CPU架构差异对照表）

3个月速成模型大师！2026年大模型进阶秘籍，薪资直接翻倍！

2026年Hermes Agent/OpenClaw如何部署？阿里云及Coding Plan配置保姆级指南

亦庄人形机器人半程马拉松：大厂入局改写竞争规则，赛事成具身智能行业新秩序催化剂