当前位置：首页 > news >正文

每日学术速递3.8

news 2026/2/9 20:32:36

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Unleashing Text-to-Image Diffusion Models for Visual Perception

标题：释放用于视觉感知的文本到图像扩散模型

作者：Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu

文章链接：https://arxiv.org/abs/2302.02814

项目代码：https://github.com/wl-zhao/VPD

摘要：

扩散模型（DM）已成为生成模型的新趋势，并展示了强大的条件合成能力。其中，在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同，由于视觉语言预训练，文本到图像扩散模型包含更多高级知识。在本文中，我们提出了 VPD（具有预训练扩散模型的视觉感知），这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器，而是简单地将其用作主干，旨在研究如何充分利用所学知识。具体来说，我们使用适当的文本输入提示去噪解码器，并使用适配器改进文本特征，从而更好地与预训练阶段对齐，并使视觉内容与文本提示交互。我们还建议利用视觉特征和文本特征之间的交叉注意力图来提供明确的指导。与其他预训练方法相比，我们表明视觉语言预训练扩散模型可以使用所提出的 VPD 更快地适应下游视觉感知任务。对语义分割、参考图像分割和深度估计的大量实验证明了我们方法的有效性。值得注意的是，VPD 在 NYUv2 深度估计上达到 0.254 RMSE，在 RefCOCO-val 参考图像分割上达到 73.3% oIoU，在这两个基准上创造了新记录。

2.MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices

标题：MobileBrick：为移动设备上的 3D 重建搭建乐高积木

作者：Kejie Li, Jia-Wang Bian, Robert Castle, Philip H.S. Torr, Victor Adrian Prisacariu

文章链接：https://arxiv.org/abs/2303.01932

项目代码：http://code.active.vision/MobileBrick/

摘要：

高质量的 3D 地面真实形状对于 3D 对象重建评估至关重要。然而，在现实中很难创建一个对象的复制品，甚至 3D 扫描仪生成的 3D 重建也存在导致评估偏差的伪影。为了解决这个问题，我们引入了一个使用移动设备捕获的新型多视图 RGBD 数据集，其中包括对 153 个具有不同 3D 结构集的对象模型的高精度 3D 地面实况注释。我们通过使用具有已知几何形状的乐高模型作为图像捕获的 3D 结构，在不依赖高端 3D 扫描仪的情况下获得精确的 3D 地面真实形状。在移动设备上捕获的高分辨率 RGB 图像和低分辨率深度图提供的独特数据模式，与精确的 3D 几何注释相结合，为未来研究高保真 3D 重建提供了独特的机会。此外，我们在所提出的数据集上评估了一系列 3D 重建算法。

Subjects: cs.RL

3.Preference Transformer: Modeling Human Preferences using Transformers for RL(ICLR 2023)

标题：Preference Transformer：使用 RL Transformers 模拟人类偏好

作者：Changyeon Kim, Jongjin Park, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee

文章链接：https://arxiv.org/abs/2302.01660v2

项目代码：https://sites.google.com/view/preference-transformer

摘要：

基于偏好的强化学习 (RL) 提供了一个框架来使用人类在两种行为之间的偏好来训练代理。然而，基于偏好的强化学习一直难以扩展，因为它需要大量的人类反馈来学习符合人类意图的奖励函数。在本文中，我们介绍了 Preference Transformer，这是一种使用转换器对人类偏好进行建模的神经架构。与假设人类判断基于对决策有同等贡献的马尔可夫奖励的先前方法不同，我们引入了一种基于非马尔可夫奖励加权和的新偏好模型。然后，我们使用堆叠因果和双向自注意层的转换器架构来设计所提出的偏好模型。我们证明 Preference Transformer 可以使用真实的人类偏好来解决各种控制任务，而之前的方法无法奏效。我们还表明，Preference Transformer 可以通过自动捕获人类决策中的时间依赖性来诱导明确指定的奖励并关注轨迹中的关键事件。

更多Ai资讯：公主号AiCharm
在这里插入图片描述

每日学术速递3.8

Subjects: cs.CV

1.Unleashing Text-to-Image Diffusion Models for Visual Perception

2.MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices

Subjects: cs.RL

3.Preference Transformer: Modeling Human Preferences using Transformers for RL(ICLR 2023)

相关文章：

每日学术速递3.8

测牛学堂：软件测试之接口测试理论基础总结

基于土壤数据与机器学习算法的农作物推荐算法代码实现

python中html必备基础知识

【专项训练】前言：刻意练习，不断的过遍数才是王道

【Leetcode】反转链表合并链表相交链表链表的回文结构

M1、M2芯片Mac安装虚拟机

算法刷题-只出现一次的数字、输出每天是应该学习还是休息还是锻炼、将有序数组转换为二叉搜索树

详解专利对学生、老师和企业员工、创业者、积分落户、地方补助的好处

Python图像处理:频域滤波降噪和图像增强

智能手机高端“酣战”，转机在何方？

K8s pod 动态弹性扩缩容 HPA

C++中的类简要介绍

项目管理工具DHTMLX Gantt灯箱元素配置教程：只读模式

从LiveData迁移到Kotlin的 Flow,才发现是真的香！

【BOOST C++】组件编程（2）-- 组件的设计原理

基于单细胞多组学数据无监督构建基因调控网络

蓝桥杯-最优清零方案(2022省赛)

Mac免费软件下载网站推荐（最全免费，替代MacWk）

GPU是什么

css实现圆环展示百分比，根据值动态展示所占比例

C++：std::is_convertible

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

如何将联系人从 iPhone 转移到 Android

Robots.txt 文件

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

大数据学习（132）-HIve数据分析

蓝桥杯冶炼金属

【JVM】Java虚拟机（二）——垃圾回收

MySQL 8.0 事务全面讲解