当前位置: 首页 > news >正文

双目的一些文章学习

文章1 PSMNet

  • https://arxiv.org/pdf/1803.08669
  • PSMNet文章博客
  • PSMNet文章中牵涉到的一些知识,空洞卷积,SPPNet网络,计算视差时用soft argmin代替argmin
  • 文章中引入了空洞卷积和SPPNet网络来融合多尺度的信息,又引入3D卷积来增加模型的表现能力,引入了soft argmin来拟合视差,在计算loss方面,从中间层就引出对视差的loss进行加权得到总的loss

文章2 GCNet

  • 论文https://arxiv.org/pdf/1703.04309
  • GCNet文章博客,博客1
  • 文章中引入了3D卷积,并引入了3D卷积的沙漏结构,又首次提出了soft argmin代替argmin拟合视差,可以得到连续的视差值,消融实验证明了3D卷积结构和soft argmin拟合视差的有效性

文章3 stereoNet

  • 论文https://arxiv.org/pdf/1807.08865
  • stereoNet博客
  • stereoNet代码
  • 主要贡献时为了实时性,通过降低在计算costvolume之间的feature的分辨率增加了实时性,而降低分辨率性能并没有降低,但是出来初始的视差会因分辨率不高而没有细节,接着后面让左图和初始视差图concat作为输入,进行空洞卷积[conv+resblockx6+conv],增加细节特征,输出视差的残差,视差+残差作为新视差,该模块迭代多次不断优化细节,每个阶段都是inchannel=3+1,outchannel=1。最终的loss时soft L1 loss

文章4 AnyNet

  • 论文https://arxiv.org/pdf/1810.11408
  • AnyNet 博客,博客1
  • 文章的主要贡献在于灵活,可以在线根据需求输出每个阶段的视差,提取特征用的Unet,会输出多个分辨率下的特征图,视差/残差估计用的Disparity Network,就是cost volume + 3D conv + disparity regression,输出视差/残差,如果只需要第一阶段的视差就满足要求,第2、3阶段的残差就不需要计算了,也就是本文的亮点,灵活,最后视差图又经过了一个SPNet来锐化视差图

文章5 HSM-Net

  • 论文https://arxiv.org/pdf/1912.06704
  • HSM-Net 博客,博客1
  • 提取特征阶段利用类似Unet结构,提取多尺度的特征信息,这其中在沙漏最细的最后一层,插入了SPP网络,主要是增加感受野,SPP不同pooling的结果进行了等权重0.25的相加作为这一层的最终特征,然后每种分辨率的特征图都构建cost volume,共4个分辨率的cost volume,分别送入volume解码模块,解码模块也是一些卷积操作,conv3d+SPP+upConv3d,其中SPP中的操作和上一阶段特征提取的操作类似也是等权重0.25的加权,每个decoder都输出两个,一个叫做feature volume, 一个叫做cost volume,其中feature volume输入到下一阶段的docoder,而cost volume代表当前阶段的匹配误差,要哪个阶段的输出,直接使用soft argmin计算得到视差
  • 使用自动驾驶仿真平台生成一些合成数据

文章6 FADNet

  • 论文 https://arxiv.org/pdf/2003.10758
  • FADNet 博客,博客1
  • FADNet是沿用了DispNet的结构,在DispNet上进行修改,将特征提取的conv2d层替换成dual-resblock,即残差模块以增加网络深度,在cost volume时做了消融实验,证明D=20时效果最好,太大和太小会造成拟合不足或者过拟合。两个网络RB-NetC预测多尺度视差,RB-NetS预测多尺度视差的残差,因为有多尺度的视差预测,在训练时,引入了随着训练步数的增加,逐渐增加大尺寸的预测视差权重,直到为1.0,达到从粗到细的目的,因为是3Dconv所以比较好部署,速度也快

文章 7 AANet

  • 论文 https://arxiv.org/pdf/2004.09548
  • AANet 博客,更总结的博客1
  • 文章中有个知识点叫做可变卷积 deformable conv,原理博客,代码实现
  • AANet主要有两个贡献点,一个是同尺度内的自适应的聚合模块,其实使用deformable conv实现的,即可变卷积实现,主要为了解决视差不连续处的边缘膨胀问题,自适应的聚合就可以灵活的查找更有效的聚合点,本质上可变卷积就是用一个单独的conv学一个offset,加到传统卷积的位置上, 另一个贡献是不同尺度间的聚合模块,是为了解决弱纹理区域匹配问题,小尺度的cost volume在弱纹理区域更具有分辨性,所以多尺度间融合是有必要的,其实就是上采样和下采样后累加起来,这两个模块组合起来乘坐AAmodels,我们使用了6次 AAmodels,视差采用soft argmin 拟合,loss采用平滑L1 loss

文章 8 RAFT-stereo

  • 论文 http://arxiv.org/pdf/2109.07547
  • RAFT-stereo 博客
  • 文章中的知识点用于计算cost volume torch.einsum,迭代模块GRU,GRU视频解释,看不懂直接当做一个模块【像resblock】使用即可

自动驾驶仿真器平台

https://zhuanlan.zhihu.com/p/105492011

https://github.com/princeton-vl/infinigen?tab=readme-ov-file

https://arxiv.org/pdf/2312.00343
High-frequency Stereo Matching Network

相关文章:

双目的一些文章学习

文章1 PSMNet https://arxiv.org/pdf/1803.08669PSMNet文章博客PSMNet文章中牵涉到的一些知识,空洞卷积,SPPNet网络,计算视差时用soft argmin代替argmin文章中引入了空洞卷积和SPPNet网络来融合多尺度的信息,又引入3D卷积来增加模…...

开源模型应用落地-qwen2-7b-instruct-LoRA微调合并-ms-swift-单机单卡-V100(十三)

一、前言 本篇文章将使用ms-swift去合并微调后的模型权重,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。 二、术语介绍 2.1. LoRA微调 LoRA (Low-Rank Adaptation) 用于微调大型语言模型 (LLM)。 是一种有效的自适应策略,…...

【C++面向对象——类与对象】CPU类(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 一、类的声明和使用 1. 类的声明基础 2. 类的访问控制 3. 类的使用 二、类的声明和对象的声明 1. 类声明中的函数定义 2. 对象声明的多种方式 三、构造函数和析构函数的执行过程 1. 构造函数 2. 析构函数 实验步骤 测试说明…...

性能测试05|JMeter:分布式、报告、并发数计算、性能监控

目录 一、JMeter分布式 1、应用场景 2、原理 3、分布式相关注意事项 4、分布式配置与运行 二、JMeter报告 1、聚合报告 2、HTML报告 三、并发用户数(线程数)计算 四、JMeter下载第三方插件 五、性能监控 1、Concurrency Thread Group 线程组…...

关于Java面试题大全网站无法访问的解决方案

如果Java面试题大全网站无法访问,你仍然可以通过以下渠道获取高质量的Java面试题资源: 1. 国内网站 牛客网: 网址:https://www.nowcoder.com/特点:提供大量Java面试题和在线编程练习,适合刷题和模拟面试。推…...

CSS进阶和SASS

目录 一、CSS进阶 1.1、CSS变量 1.2、CSS属性值的计算过程 1.3、做杯咖啡 1.4、下划线动画 1.5、CSS中的混合模式(Blending) 二、SASS 2.1、Sass的颜色函数 2.2、Sass的扩展(extend)和占位符(%)、混合(Mixin) 2.3、Sass的数学函数 2.4、Sass的模块化开发 2.5、Sass…...

SwiftUI 撸码常见错误 2 例漫谈

概述 在 SwiftUI 日常撸码过程中,头发尚且还算茂盛的小码农们经常会犯这样那样的错误。虽然犯这些错的原因都很简单,但有时想要快速准确的定位它们却并不容易。 况且这些错误还可能在模拟器和 Xcode 预览(Preview)表现的行为不甚…...

JavaScript系列(9)-- Set数据结构专题

JavaScript Set数据结构专题 🎲 在前八篇文章中,我们探讨了JavaScript的语言特性、ECMAScript标准、引擎工作原理、数值类型、字符串处理、Symbol类型、Object高级特性和Array高级操作。今天,让我们深入了解JavaScript中的Set数据结构。Set是…...

开发培训-慧集通(iPaaS)集成平台脚本开发Groovy基础培训视频

‌Groovy‌是一种基于Java虚拟机(JVM)的敏捷开发语言,结合了Python、Ruby和Smalltalk的许多强大特性。它旨在提高开发者的生产力,通过简洁、熟悉且易于学习的语法,Groovy能够与Java代码无缝集成,并提供强大…...

【软考网工笔记】计算机基础理论与安全——网络规划与设计

HFC 混合光纤同轴电缆网 HFC: Hybrid Fiber - Coaxial 的缩写,即混合光纤同轴电缆网。是一种经济实用的综合数字服务宽带网接入技术。 HFC 通常由光纤干线、同轴电缆支线和用户配线网络三部分组成,从有线电视台出来的节目信号先变成光信号在干线上传输…...

【设计模式】 基本原则、设计模式分类

设计模式 设计模式是软件工程中的一种通用术语,指的是针对特定问题的经过实践验证的解决方案。设计模式并不是最终的代码实现,而是描述了如何解决某一类问题的思路和方法。 如果熟悉了设计模式,当遇到类似的场景,我们可以快速地…...

mac m2 安装 docker

文章目录 安装1.下载安装包2.在downloads中打开3.在启动台打开打开终端验证 修改国内镜像地址小结 安装 1.下载安装包 到官网下载适配的安装包:https://www.docker.com/products/docker-desktop/ 2.在downloads中打开 拖过去 3.在启动台打开 选择推荐设置 …...

Vue3-pinia的具体使用和刷新页面状态保持解决方案

在 Vue 3 中,Pinia 是一个官方推荐的状态管理库,它替代了 Vuex(Vuex在Vue3中依然可以正常使用),提供了更加简洁和现代的 API,同时能够与 Vue 3完美配合。在本回答中,我们将详细介绍 Pinia 的使用…...

用ResNet50+Qwen2-VL-2B-Instruct+LoRA模仿Diffusion-VLA的论文思路,在3090显卡上训练和测试成功

想一步步的实现Diffusion VLA论文的思路,不过论文的图像的输入用DINOv2进行特征提取的,我先把这个部分换成ResNet50。 老铁们,直接上代码: from PIL import Image import torch import torchvision.models as models from torch…...

创建.net core 8.0项目时,有个启用原生AOT发布是什么意思

启用原生 AOT 发布(Native AOT publishing) 是指在 .NET 6 及更高版本中使用 Ahead-of-Time (AOT) 编译 技术,将应用程序提前编译为本地机器代码,从而生成更高效、更快速启动的可执行文件。 1. AOT 编译是什么? AOT …...

2.1.7-1 io_uring的使用

一、背景 (1)下面几个有关异步操作的例子: a)客户端和服务端的异步关系,就是客户端发送请求后不需要等待结果,接下来发送其他请求。 b)对于服务端,客户端来请求后,服务…...

群论学习笔记

什么是对称? 对称是一个保持对象结构不变的变换,对称是一个过程,而不是一个具体的事物,伽罗瓦的对称是对方程根的置换,而一个置换就是对一系列事物的重排方式,严格的说,它也并不是这个重排本身…...

深入解析-正则表达式

学习正则,我们到底要学什么? 正则表达式(RegEx)是一种强大的文本匹配工具,广泛应用于数据验证、文本搜索、替换和解析等领域。学习正则表达式,我们不仅要掌握其语法规则,还需要学会如何高效地利…...

yolov5核查数据标注漏报和误报

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、误报二、漏报三、源码总结 前言 本文主要用于记录数据标注和模型预测之间的漏报和误报思想及其源码 提示:以下是本篇文章正文内容,…...

日志聚类算法 Drain 的实践与改良

在现实场景中,业务程序输出的日志往往规模庞大并且类型纷繁复杂。我们在查询和查看这些日志时,平铺的日志列表会让我们目不暇接,难以快速聚焦找到重要的日志条目。 在观测云中,我们在日志页面提供了聚类分析功能,可以…...

【Linux】C语言执行shell指令

在C语言中执行Shell指令 在C语言中&#xff0c;有几种方法可以执行Shell指令&#xff1a; 1. 使用system()函数 这是最简单的方法&#xff0c;包含在stdlib.h头文件中&#xff1a; #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时&#xff0c;可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案&#xff1a; 1. 检查电源供电问题 问题原因&#xff1a;多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

定时器任务——若依源码分析

分析util包下面的工具类schedule utils&#xff1a; ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类&#xff0c;封装了定时任务的 创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz&#xff0c;先构建任务的 JobD…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下&#xff0c;江苏艾立泰以一场跨国资源接力的创新实践&#xff0c;重新定义了绿色供应链的边界。 跨国回收网络&#xff1a;废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点&#xff0c;将海外废弃包装箱通过标准…...

人工智能--安全大模型训练计划:基于Fine-tuning + LLM Agent

安全大模型训练计划&#xff1a;基于Fine-tuning LLM Agent 1. 构建高质量安全数据集 目标&#xff1a;为安全大模型创建高质量、去偏、符合伦理的训练数据集&#xff0c;涵盖安全相关任务&#xff08;如有害内容检测、隐私保护、道德推理等&#xff09;。 1.1 数据收集 描…...

解析两阶段提交与三阶段提交的核心差异及MySQL实现方案

引言 在分布式系统的事务处理中&#xff0c;如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议&#xff08;2PC&#xff09;通过准备阶段与提交阶段的协调机制&#xff0c;以同步决策模式确保事务原子性。其改进版本三阶段提交协议&#xff08;3PC&#xf…...

LangChain 中的文档加载器(Loader)与文本切分器(Splitter)详解《二》

&#x1f9e0; LangChain 中 TextSplitter 的使用详解&#xff1a;从基础到进阶&#xff08;附代码&#xff09; 一、前言 在处理大规模文本数据时&#xff0c;特别是在构建知识库或进行大模型训练与推理时&#xff0c;文本切分&#xff08;Text Splitting&#xff09; 是一个…...

raid存储技术

1. 存储技术概念 数据存储架构是对数据存储方式、存储设备及相关组件的组织和规划&#xff0c;涵盖存储系统的布局、数据存储策略等&#xff0c;它明确数据如何存储、管理与访问&#xff0c;为数据的安全、高效使用提供支撑。 由计算机中一组存储设备、控制部件和管理信息调度的…...

大模型真的像人一样“思考”和“理解”吗?​

Yann LeCun 新研究的核心探讨&#xff1a;大语言模型&#xff08;LLM&#xff09;的“理解”和“思考”方式与人类认知的根本差异。 核心问题&#xff1a;大模型真的像人一样“思考”和“理解”吗&#xff1f; 人类的思考方式&#xff1a; 你的大脑是个超级整理师。面对海量信…...

【题解-洛谷】P10480 可达性统计

题目&#xff1a;P10480 可达性统计 题目描述 给定一张 N N N 个点 M M M 条边的有向无环图&#xff0c;分别统计从每个点出发能够到达的点的数量。 输入格式 第一行两个整数 N , M N,M N,M&#xff0c;接下来 M M M 行每行两个整数 x , y x,y x,y&#xff0c;表示从 …...