当前位置：首页 > news >正文

NERF论文笔记(1/2)

news 2026/2/10 22:33:30

NeRF:Representing Scene as Neural Radiance Fields for View Synthesis 笔记

摘要

实现了一个任意视角视图生成算法：输入稀疏的场景图像，通过优化连续的Volumetric场景函数实现；用全连接深度网络表达场景，输入是一个连续的5维坐标，3D坐标+2D角度（航向、俯仰角），输出Volume density和依赖于视图的emitted radiance，查询5维坐标并用经典的Volume Rendering把输出的颜色与强度投影到图像。

介绍

a. march camera rays，我理解为从焦点投射射线到场景，获取3D坐标点。
b. 用3D点 $\bold{x}$ 与对应的2D角度(用单位向量 $\bold{d}$ )输入，输出颜色 $\bold{c}$ 和强度 $\sigma$ 。
c. 合成图像。

Neural Radiance Field场景表达

$F_{\theta}:(\bold{x},\bold{d})\rarr(\bold{c},\sigma)$
输出 $\sigma$ 只与输入位置坐标 $\bold{x}$ 有关， $\bold{c}$ 则与 $\bold{x}$ 、 $\bold{d}$ 有关。

网络结构，输入 $\bold{x}$ 的8层全连接层，均为256通道，各层带ReLU激活，输出 $\sigma$ 、256维特征，此特征再与 $\bold{d}$ 聚合，输入一层带ReLU的全连接层，输出 $\bold{c}$ 。

Volume Rendering

位置坐标 $\bold{x}$ 表达为相机射线 $\bold{r}$ ， $\bold{r}(t)=\bold{o}+t\bold{d}$ ，t是从焦点 $o$ 出发的长度，积分上下界是远端、近端。
$C(\bold{r})=\int_{t_{n}}^{t_{f}} T(t)\sigma(\bold{r}(t))\bold{c}(\bold{r},d)dt\\T(t)=exp(-\int_{t_{n}}^t\sigma(\bold{r}(s))ds)$

$T (t)$ 的含义从 $t_n$ 到 $t$ 累积的transmittance，“the accumulated transmittance along the ray”，是射线从 $t_n$ 到 $t$ 未遇到其他粒子的概率。
求该积分的数值方法，Deterministic quadrature，笔者初步理解是一种数值计算方法，离散化近似：将区间分为N段，从每一段随机取样。
$t_i\sim U[t_n+\frac{i-1}{N}(t_f-t_n),t_n+\frac{i}{N}(t_f-t_n)]$
参考Volume Rendering综述，
$\hat C(\bold{r})=\sum_{i=1}^NT_i(1-exp(-\sigma_i\delta_i))\bold{c}_i\\ T_i=exp(-\sum_{j=1}^{i-1}\sigma_j\delta_j)\\ \delta_j=t_{j+1}-t_j$

两项技术改进

只有上述设计不能达到SOTA，为此添加了两项重要改进，其中第二项是为了高效地实现第一项。

位置编码

直接输入上述5维做渲染，在场景中颜色和几何的高频变化的条件下表现较差，有参考证明深度网络偏向于学习低频函数，并发现在输入网络前用高频函数将数据映射到更高维，网络能更好拟合含有高频变化的数据。5维输入的各个元素 $p$ 被映射为长为2L的向量
$\gamma(p)=(sin(2^0{\pi}p),cos(2^0{\pi}p),...,sin(2^{L-1}{\pi}p),cos(2^{L-1}{\pi}p))$
其中，位置元素L=10，方向元素L=4；各维元素均归一化到 $[- 1, 1]$ 。
Transformer有相似处理，但它的目的是给序列提供位置标签，因为Transformer结构不能标记顺序；NERF中的位置编码则是为了将输入升维以使得它的MLP能拟合更高频函数；从投影重建蛋白质3D结构的模型方法也使用了该思路。
多层采样
采用两个网络，一个粗略，一个精细。首先用第一个网络生成颜色，每条射线输入 $N_c$ 个位置，然后用其结果引导重新采样，使得 $N_f$ 个采样点集中到体元附近，提高有效信息位置的样本权重，使用两次的采样来渲染。

NERF论文笔记(1/2)

NeRF:Representing Scene as Neural Radiance Fields for View Synthesis 笔记

摘要

介绍

Neural Radiance Field场景表达

Volume Rendering

两项技术改进

相关文章：

NERF论文笔记(1/2)

深入理解nginx一致性哈希负载均衡模块[上]

【Linux】Docker安装

动态SLAM论文阅读笔记

数据挖掘：航空公司的客户价值分析

GIS之深度学习08：安装GPU环境下的pytorch

防患未然，OceanBase巡检工具应用实践——《OceanBase诊断系列》之五

数据结构从入门到精通——队列

深度学习相关概念及术语总结

uniapp发行H5获取当前页面query

Flutter中动画的实现

Elasticsearch从入门到精通-03基本语法学习

【黑马程序员】STL实战--演讲比赛管理系统

一文帮助快速入门Django

基于springboot实现图书推荐系统项目【项目源码+论文说明】计算机毕业设计

微信小程序实现上拉加载更多

计算机网络——概述

kafka Interceptors and Listeners

【面试题】mysql常见面试题及答案总结

C++ 类的前向声明的用法

深度学习在微纳光子学中的应用

【人工智能】神经网络的优化器optimizer（二）：Adagrad自适应学习率优化器

SciencePlots——绘制论文中的图片

23-Oracle 23 ai 区块链表（Blockchain Table）

线程同步：确保多线程程序的安全与高效！

【磁盘】每天掌握一个Linux命令 - iostat

cf2117E

Neo4j 集群管理：原理、技术与最佳实践深度解析

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

代理篇12|深入理解 Vite中的Proxy接口代理配置