当前位置: 首页 > news >正文

双目的一些文章学习

文章1 PSMNet

  • https://arxiv.org/pdf/1803.08669
  • PSMNet文章博客
  • PSMNet文章中牵涉到的一些知识,空洞卷积,SPPNet网络,计算视差时用soft argmin代替argmin
  • 文章中引入了空洞卷积和SPPNet网络来融合多尺度的信息,又引入3D卷积来增加模型的表现能力,引入了soft argmin来拟合视差,在计算loss方面,从中间层就引出对视差的loss进行加权得到总的loss

文章2 GCNet

  • 论文https://arxiv.org/pdf/1703.04309
  • GCNet文章博客,博客1
  • 文章中引入了3D卷积,并引入了3D卷积的沙漏结构,又首次提出了soft argmin代替argmin拟合视差,可以得到连续的视差值,消融实验证明了3D卷积结构和soft argmin拟合视差的有效性

文章3 stereoNet

  • 论文https://arxiv.org/pdf/1807.08865
  • stereoNet博客
  • stereoNet代码
  • 主要贡献时为了实时性,通过降低在计算costvolume之间的feature的分辨率增加了实时性,而降低分辨率性能并没有降低,但是出来初始的视差会因分辨率不高而没有细节,接着后面让左图和初始视差图concat作为输入,进行空洞卷积[conv+resblockx6+conv],增加细节特征,输出视差的残差,视差+残差作为新视差,该模块迭代多次不断优化细节,每个阶段都是inchannel=3+1,outchannel=1。最终的loss时soft L1 loss

文章4 AnyNet

  • 论文https://arxiv.org/pdf/1810.11408
  • AnyNet 博客,博客1
  • 文章的主要贡献在于灵活,可以在线根据需求输出每个阶段的视差,提取特征用的Unet,会输出多个分辨率下的特征图,视差/残差估计用的Disparity Network,就是cost volume + 3D conv + disparity regression,输出视差/残差,如果只需要第一阶段的视差就满足要求,第2、3阶段的残差就不需要计算了,也就是本文的亮点,灵活,最后视差图又经过了一个SPNet来锐化视差图

文章5 HSM-Net

  • 论文https://arxiv.org/pdf/1912.06704
  • HSM-Net 博客,博客1
  • 提取特征阶段利用类似Unet结构,提取多尺度的特征信息,这其中在沙漏最细的最后一层,插入了SPP网络,主要是增加感受野,SPP不同pooling的结果进行了等权重0.25的相加作为这一层的最终特征,然后每种分辨率的特征图都构建cost volume,共4个分辨率的cost volume,分别送入volume解码模块,解码模块也是一些卷积操作,conv3d+SPP+upConv3d,其中SPP中的操作和上一阶段特征提取的操作类似也是等权重0.25的加权,每个decoder都输出两个,一个叫做feature volume, 一个叫做cost volume,其中feature volume输入到下一阶段的docoder,而cost volume代表当前阶段的匹配误差,要哪个阶段的输出,直接使用soft argmin计算得到视差
  • 使用自动驾驶仿真平台生成一些合成数据

文章6 FADNet

  • 论文 https://arxiv.org/pdf/2003.10758
  • FADNet 博客,博客1
  • FADNet是沿用了DispNet的结构,在DispNet上进行修改,将特征提取的conv2d层替换成dual-resblock,即残差模块以增加网络深度,在cost volume时做了消融实验,证明D=20时效果最好,太大和太小会造成拟合不足或者过拟合。两个网络RB-NetC预测多尺度视差,RB-NetS预测多尺度视差的残差,因为有多尺度的视差预测,在训练时,引入了随着训练步数的增加,逐渐增加大尺寸的预测视差权重,直到为1.0,达到从粗到细的目的,因为是3Dconv所以比较好部署,速度也快

文章 7 AANet

  • 论文 https://arxiv.org/pdf/2004.09548
  • AANet 博客,更总结的博客1
  • 文章中有个知识点叫做可变卷积 deformable conv,原理博客,代码实现
  • AANet主要有两个贡献点,一个是同尺度内的自适应的聚合模块,其实使用deformable conv实现的,即可变卷积实现,主要为了解决视差不连续处的边缘膨胀问题,自适应的聚合就可以灵活的查找更有效的聚合点,本质上可变卷积就是用一个单独的conv学一个offset,加到传统卷积的位置上, 另一个贡献是不同尺度间的聚合模块,是为了解决弱纹理区域匹配问题,小尺度的cost volume在弱纹理区域更具有分辨性,所以多尺度间融合是有必要的,其实就是上采样和下采样后累加起来,这两个模块组合起来乘坐AAmodels,我们使用了6次 AAmodels,视差采用soft argmin 拟合,loss采用平滑L1 loss

文章 8 RAFT-stereo

  • 论文 http://arxiv.org/pdf/2109.07547
  • RAFT-stereo 博客
  • 文章中的知识点用于计算cost volume torch.einsum,迭代模块GRU,GRU视频解释,看不懂直接当做一个模块【像resblock】使用即可

自动驾驶仿真器平台

https://zhuanlan.zhihu.com/p/105492011

https://github.com/princeton-vl/infinigen?tab=readme-ov-file

https://arxiv.org/pdf/2312.00343
High-frequency Stereo Matching Network

相关文章:

双目的一些文章学习

文章1 PSMNet https://arxiv.org/pdf/1803.08669PSMNet文章博客PSMNet文章中牵涉到的一些知识,空洞卷积,SPPNet网络,计算视差时用soft argmin代替argmin文章中引入了空洞卷积和SPPNet网络来融合多尺度的信息,又引入3D卷积来增加模…...

开源模型应用落地-qwen2-7b-instruct-LoRA微调合并-ms-swift-单机单卡-V100(十三)

一、前言 本篇文章将使用ms-swift去合并微调后的模型权重,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。 二、术语介绍 2.1. LoRA微调 LoRA (Low-Rank Adaptation) 用于微调大型语言模型 (LLM)。 是一种有效的自适应策略,…...

【C++面向对象——类与对象】CPU类(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 一、类的声明和使用 1. 类的声明基础 2. 类的访问控制 3. 类的使用 二、类的声明和对象的声明 1. 类声明中的函数定义 2. 对象声明的多种方式 三、构造函数和析构函数的执行过程 1. 构造函数 2. 析构函数 实验步骤 测试说明…...

性能测试05|JMeter:分布式、报告、并发数计算、性能监控

目录 一、JMeter分布式 1、应用场景 2、原理 3、分布式相关注意事项 4、分布式配置与运行 二、JMeter报告 1、聚合报告 2、HTML报告 三、并发用户数(线程数)计算 四、JMeter下载第三方插件 五、性能监控 1、Concurrency Thread Group 线程组…...

关于Java面试题大全网站无法访问的解决方案

如果Java面试题大全网站无法访问,你仍然可以通过以下渠道获取高质量的Java面试题资源: 1. 国内网站 牛客网: 网址:https://www.nowcoder.com/特点:提供大量Java面试题和在线编程练习,适合刷题和模拟面试。推…...

CSS进阶和SASS

目录 一、CSS进阶 1.1、CSS变量 1.2、CSS属性值的计算过程 1.3、做杯咖啡 1.4、下划线动画 1.5、CSS中的混合模式(Blending) 二、SASS 2.1、Sass的颜色函数 2.2、Sass的扩展(extend)和占位符(%)、混合(Mixin) 2.3、Sass的数学函数 2.4、Sass的模块化开发 2.5、Sass…...

SwiftUI 撸码常见错误 2 例漫谈

概述 在 SwiftUI 日常撸码过程中,头发尚且还算茂盛的小码农们经常会犯这样那样的错误。虽然犯这些错的原因都很简单,但有时想要快速准确的定位它们却并不容易。 况且这些错误还可能在模拟器和 Xcode 预览(Preview)表现的行为不甚…...

JavaScript系列(9)-- Set数据结构专题

JavaScript Set数据结构专题 🎲 在前八篇文章中,我们探讨了JavaScript的语言特性、ECMAScript标准、引擎工作原理、数值类型、字符串处理、Symbol类型、Object高级特性和Array高级操作。今天,让我们深入了解JavaScript中的Set数据结构。Set是…...

开发培训-慧集通(iPaaS)集成平台脚本开发Groovy基础培训视频

‌Groovy‌是一种基于Java虚拟机(JVM)的敏捷开发语言,结合了Python、Ruby和Smalltalk的许多强大特性。它旨在提高开发者的生产力,通过简洁、熟悉且易于学习的语法,Groovy能够与Java代码无缝集成,并提供强大…...

【软考网工笔记】计算机基础理论与安全——网络规划与设计

HFC 混合光纤同轴电缆网 HFC: Hybrid Fiber - Coaxial 的缩写,即混合光纤同轴电缆网。是一种经济实用的综合数字服务宽带网接入技术。 HFC 通常由光纤干线、同轴电缆支线和用户配线网络三部分组成,从有线电视台出来的节目信号先变成光信号在干线上传输…...

【设计模式】 基本原则、设计模式分类

设计模式 设计模式是软件工程中的一种通用术语,指的是针对特定问题的经过实践验证的解决方案。设计模式并不是最终的代码实现,而是描述了如何解决某一类问题的思路和方法。 如果熟悉了设计模式,当遇到类似的场景,我们可以快速地…...

mac m2 安装 docker

文章目录 安装1.下载安装包2.在downloads中打开3.在启动台打开打开终端验证 修改国内镜像地址小结 安装 1.下载安装包 到官网下载适配的安装包:https://www.docker.com/products/docker-desktop/ 2.在downloads中打开 拖过去 3.在启动台打开 选择推荐设置 …...

Vue3-pinia的具体使用和刷新页面状态保持解决方案

在 Vue 3 中,Pinia 是一个官方推荐的状态管理库,它替代了 Vuex(Vuex在Vue3中依然可以正常使用),提供了更加简洁和现代的 API,同时能够与 Vue 3完美配合。在本回答中,我们将详细介绍 Pinia 的使用…...

用ResNet50+Qwen2-VL-2B-Instruct+LoRA模仿Diffusion-VLA的论文思路,在3090显卡上训练和测试成功

想一步步的实现Diffusion VLA论文的思路,不过论文的图像的输入用DINOv2进行特征提取的,我先把这个部分换成ResNet50。 老铁们,直接上代码: from PIL import Image import torch import torchvision.models as models from torch…...

创建.net core 8.0项目时,有个启用原生AOT发布是什么意思

启用原生 AOT 发布(Native AOT publishing) 是指在 .NET 6 及更高版本中使用 Ahead-of-Time (AOT) 编译 技术,将应用程序提前编译为本地机器代码,从而生成更高效、更快速启动的可执行文件。 1. AOT 编译是什么? AOT …...

2.1.7-1 io_uring的使用

一、背景 (1)下面几个有关异步操作的例子: a)客户端和服务端的异步关系,就是客户端发送请求后不需要等待结果,接下来发送其他请求。 b)对于服务端,客户端来请求后,服务…...

群论学习笔记

什么是对称? 对称是一个保持对象结构不变的变换,对称是一个过程,而不是一个具体的事物,伽罗瓦的对称是对方程根的置换,而一个置换就是对一系列事物的重排方式,严格的说,它也并不是这个重排本身…...

深入解析-正则表达式

学习正则,我们到底要学什么? 正则表达式(RegEx)是一种强大的文本匹配工具,广泛应用于数据验证、文本搜索、替换和解析等领域。学习正则表达式,我们不仅要掌握其语法规则,还需要学会如何高效地利…...

yolov5核查数据标注漏报和误报

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、误报二、漏报三、源码总结 前言 本文主要用于记录数据标注和模型预测之间的漏报和误报思想及其源码 提示:以下是本篇文章正文内容,…...

日志聚类算法 Drain 的实践与改良

在现实场景中,业务程序输出的日志往往规模庞大并且类型纷繁复杂。我们在查询和查看这些日志时,平铺的日志列表会让我们目不暇接,难以快速聚焦找到重要的日志条目。 在观测云中,我们在日志页面提供了聚类分析功能,可以…...

VB.net复制Ntag213卡写入UID

本示例使用的发卡器:https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

2024年赣州旅游投资集团社会招聘笔试真

2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

家政维修平台实战20:权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色&#xf…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...

动态 Web 开发技术入门篇

一、HTTP 协议核心 1.1 HTTP 基础 协议全称 :HyperText Transfer Protocol(超文本传输协议) 默认端口 :HTTP 使用 80 端口,HTTPS 使用 443 端口。 请求方法 : GET :用于获取资源,…...

c# 局部函数 定义、功能与示例

C# 局部函数:定义、功能与示例 1. 定义与功能 局部函数(Local Function)是嵌套在另一个方法内部的私有方法,仅在包含它的方法内可见。 • 作用:封装仅用于当前方法的逻辑,避免污染类作用域,提升…...

针对药品仓库的效期管理问题,如何利用WMS系统“破局”

案例: 某医药分销企业,主要经营各类药品的批发与零售。由于药品的特殊性,效期管理至关重要,但该企业一直面临效期问题的困扰。在未使用WMS系统之前,其药品入库、存储、出库等环节的效期管理主要依赖人工记录与检查。库…...

13.10 LangGraph多轮对话系统实战:Ollama私有部署+情感识别优化全解析

LangGraph多轮对话系统实战:Ollama私有部署+情感识别优化全解析 LanguageMentor 对话式训练系统架构与实现 关键词:多轮对话系统设计、场景化提示工程、情感识别优化、LangGraph 状态管理、Ollama 私有化部署 1. 对话训练系统技术架构 采用四层架构实现高扩展性的对话训练…...

Python的__call__ 方法

在 Python 中,__call__ 是一个特殊的魔术方法(magic method),它允许一个类的实例像函数一样被调用。当你在一个对象后面加上 () 并执行时(例如 obj()),Python 会自动调用该对象的 __call__ 方法…...

EEG-fNIRS联合成像在跨频率耦合研究中的创新应用

摘要 神经影像技术对医学科学产生了深远的影响,推动了许多神经系统疾病研究的进展并改善了其诊断方法。在此背景下,基于神经血管耦合现象的多模态神经影像方法,通过融合各自优势来提供有关大脑皮层神经活动的互补信息。在这里,本研…...