当前位置: 首页 > news >正文

每日学术速递3.8

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Unleashing Text-to-Image Diffusion Models for Visual Perception

标题:释放用于视觉感知的文本到图像扩散模型

作者:Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu

文章链接:https://arxiv.org/abs/2302.02814

项目代码:https://github.com/wl-zhao/VPD

摘要:

        扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。具体来说,我们使用适当的文本输入提示去噪解码器,并使用适配器改进文本特征,从而更好地与预训练阶段对齐,并使视觉内容与文本提示交互。我们还建议利用视觉特征和文本特征之间的交叉注意力图来提供明确的指导。与其他预训练方法相比,我们表明视觉语言预训练扩散模型可以使用所提出的 VPD 更快地适应下游视觉感知任务。对语义分割、参考图像分割和深度估计的大量实验证明了我们方法的有效性。值得注意的是,VPD 在 NYUv2 深度估计上达到 0.254 RMSE,在 RefCOCO-val 参考图像分割上达到 73.3% oIoU,在这两个基准上创造了新记录。

2.MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices

标题:MobileBrick:为移动设备上的 3D 重建搭建乐高积木

作者:Kejie Li, Jia-Wang Bian, Robert Castle, Philip H.S. Torr, Victor Adrian Prisacariu

文章链接:https://arxiv.org/abs/2303.01932

项目代码:http://code.active.vision/MobileBrick/

摘要:

        高质量的 3D 地面真实形状对于 3D 对象重建评估至关重要。然而,在现实中很难创建一个对象的复制品,甚至 3D 扫描仪生成的 3D 重建也存在导致评估偏差的伪影。为了解决这个问题,我们引入了一个使用移动设备捕获的新型多视图 RGBD 数据集,其中包括对 153 个具有不同 3D 结构集的对象模型的高精度 3D 地面实况注释。我们通过使用具有已知几何形状的乐高模型作为图像捕获的 3D 结构,在不依赖高端 3D 扫描仪的情况下获得精确的 3D 地面真实形状。在移动设备上捕获的高分辨率 RGB 图像和低分辨率深度图提供的独特数据模式,与精确的 3D 几何注释相结合,为未来研究高保真 3D 重建提供了独特的机会。此外,我们在所提出的数据集上评估了一系列 3D 重建算法。

Subjects: cs.RL

3.Preference Transformer: Modeling Human Preferences using Transformers for RL(ICLR 2023)

标题:Preference Transformer:使用 RL Transformers 模拟人类偏好

作者:Changyeon Kim, Jongjin Park, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://sites.google.com/view/preference-transformer

摘要:

        基于偏好的强化学习 (RL) 提供了一个框架来使用人类在两种行为之间的偏好来训练代理。然而,基于偏好的强化学习一直难以扩展,因为它需要大量的人类反馈来学习符合人类意图的奖励函数。在本文中,我们介绍了 Preference Transformer,这是一种使用转换器对人类偏好进行建模的神经架构。与假设人类判断基于对决策有同等贡献的马尔可夫奖励的先前方法不同,我们引入了一种基于非马尔可夫奖励加权和的新偏好模型。然后,我们使用堆叠因果和双向自注意层的转换器架构来设计所提出的偏好模型。我们证明 Preference Transformer 可以使用真实的人类偏好来解决各种控制任务,而之前的方法无法奏效。我们还表明,Preference Transformer 可以通过自动捕获人类决策中的时间依赖性来诱导明确指定的奖励并关注轨迹中的关键事件。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

相关文章:

每日学术速递3.8

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Unleashing Text-to-Image Diffusion Models for Visual Perception 标题:释放用于视觉感知的文本到图像扩散模型 作者:Wenliang Zhao, Yongming Rao, Zuya…...

测牛学堂:软件测试之接口测试理论基础总结

接口概念 接口:系统之间数据交互的通道。 这个系统,可以是外部和内部,也可以是两个内部系统之间的通道。 比如我们前端的登录信息,主要是用户名和密码,它通过接口传递给后端,后端校验以后,把结…...

基于土壤数据与机器学习算法的农作物推荐算法代码实现

1.摘要 近年来,机器学习方法在农业领域的应用取得巨大成功,广泛应用于科 学施肥、产量预测和经济效益预估等领域。根据土壤信息进行数据挖掘,并在此基础上提出区域性作物的种植建议,不仅可以促进农作物生长从而带来经济效益&#…...

python中html必备基础知识

<!DOCTYPE html>此标签表示这是一个html文件<heml lang"en">向搜索引擎表示该页面是html语言&#xff0c;并且语言为英文网站&#xff0c;其"lang"的意思就是“language”&#xff0c;语言的意思&#xff0c;而“en”即表示English<head>…...

【专项训练】前言:刻意练习,不断的过遍数才是王道

如何精通一个领域? 拆分知识点刻意练习:每个区域的基础动作分解训练和反复刻意练习反馈(主动反馈、被动反馈、及时反馈)任何知识体系都是一颗树,一定要梳理成思维导图,明确知识与知识之间的关系! 通过7-8周密集训练,练好基本功,彻底攻克LeetCode! 严格执行五毒神掌!…...

【Leetcode】反转链表 合并链表 相交链表 链表的回文结构

目录 一.【Leetcode206】反转链表 1.链接 2.题目再现 3.解法A&#xff1a;三指针法 二.【Leetcode21】合并两个有序链表 1.链接 2.题目再现 3.三指针尾插法 三.【Leetcode160】相交链表 1.链接 2.题目再现 3.解法 四.链表的回文结构 1.链接 2.题目再现 3.解法 一.…...

M1、M2芯片Mac安装虚拟机

目录前言一、安装二、网络设置三、连接SSH客户端前言 一直想着给M1 Mac上安装虚拟机&#xff0c;奈何PD收费&#xff0c;找的破解也不稳定&#xff0c;安装上镜像就起不来。 注&#xff1a;挂长久的分享莫名其妙被封&#xff0c;需要安装包请私信我。 一、安装 虚拟机选择&a…...

算法刷题-只出现一次的数字、输出每天是应该学习还是休息还是锻炼、将有序数组转换为二叉搜索树

只出现一次的数字&#xff08;位运算、数组&#xff09; 给定一个非空整数数组&#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 说明&#xff1a; 你的算法应该具有线性时间复杂度。 你可以不使用额外空间来实现吗&…...

详解专利对学生、老师和企业员工、创业者、积分落户、地方补助的好处

大家好,我是英子老师。作为一名知识产权专家,深耕于专利行业十余年,具有丰富的专利工作经验:曾在大型专利代理机构从事专利代理工作、专利质检工作(抽查代理机构的专利代理人的撰写质量并评分);之后在知名上市企业、行业龙头企业担任高级专利工程师的职位,主要工作内容…...

Python图像处理:频域滤波降噪和图像增强

图像处理已经成为我们日常生活中不可或缺的一部分&#xff0c;涉及到社交媒体和医学成像等各个领域。通过数码相机或卫星照片和医学扫描等其他来源获得的图像可能需要预处理以消除或增强噪声。频域滤波是一种可行的解决方案&#xff0c;它可以在增强图像锐化的同时消除噪声。 …...

智能手机高端“酣战”,转机在何方?

经过多年发展&#xff0c;如今全世界有七成手机由中国制造&#xff0c;但在利润最丰厚的高端市场&#xff0c;国产厂商在很长一段时间之内都是形单影只&#xff0c;曾经一度跻身高端的“华为”因为封禁成了“绝唱”。 华为“失声”高端之后&#xff0c;其他一众国产厂商或主动…...

K8s pod 动态弹性扩缩容 HPA

一、概述Horizontal Pod Autoscaler&#xff08;HPA&#xff0c;Pod水平自动伸缩&#xff09;&#xff0c;根据平均 CPU 利用率、平均内存利用率或你指定的任何其他自定义指标自动调整 Deployment 、ReplicaSet 或 StatefulSet 或其他类似资源&#xff0c;实现部署的自动扩展和…...

C++中的类简要介绍

文章目录前言一、什么是类什么是对象1.类的概述2.对象的概述二、如何创建使用类三、class和struct创建类时的区别1.访问级别2.继承方式总结前言 本篇文章讲给大家介绍一个C中重要的概念&#xff0c;了解了这个概念大家就明白了为什么C会叫做面向对象编程了。 一、什么是类什么…...

项目管理工具DHTMLX Gantt灯箱元素配置教程:只读模式

DHTMLX Gantt是用于跨浏览器和跨平台应用程序的功能齐全的Gantt图表。可满足项目管理应用程序的大部分开发需求&#xff0c;具备完善的甘特图图表库&#xff0c;功能强大&#xff0c;价格便宜&#xff0c;提供丰富而灵活的JavaScript API接口&#xff0c;与各种服务器端技术&am…...

从LiveData迁移到Kotlin的 Flow,才发现是真的香!

LiveData 对于 Java 开发者、初学者或是一些简单场景而言仍是可行的解决方案。而对于一些其他的场景&#xff0c;更好的选择是使用 Kotlin 数据流 (Kotlin Flow)。虽说数据流 (相较 LiveData) 有更陡峭的学习曲线&#xff0c;但由于它是 JetBrains 力挺的 Kotlin 语言的一部分&…...

【BOOST C++】组件编程(2)-- 组件的设计原理

GitHub - ros2/demos at foxy 一、说明 为了研究ROS2的组件编程&#xff0c;首先要理解如何何为组件。组件本是微软的发明物体&#xff0c;但是在ubuntu上需要自己从底层实现&#xff0c;就说ROS2不用你写&#xff0c;但是就能看明白也是需要一点理论功底的。本篇按照COM内幕的…...

基于单细胞多组学数据无监督构建基因调控网络

在单细胞分辨率下识别基因调控网络&#xff08;GRNs&#xff0c;gene regulatory networks&#xff09;一直是一个巨大的挑战&#xff0c;而单细胞多组学数据的出现为构建GRNs提供了机会。 来自&#xff1a;Unsupervised construction of gene regulatory network based on si…...

蓝桥杯-最优清零方案(2022省赛)

蓝桥杯-最优清零方案1、问题描述2、解题思路3、代码实现1、问题描述 给定一个长度为 N 的数列 1,2,⋯,A1,A2,...,ANA_1,A_2,...,A_NA1​,A2​,...,AN​ 。现在小蓝想通过若干次操作将 这个数列中每个数字清零。 每次操作小蓝可以选择以下两种之一: 1. 选择一个大于 0 的整数, 将…...

Mac免费软件下载网站推荐(最全免费,替代MacWk)

一、Appstorrent 官方网站&#xff1a; https://appstorrent.ru/ 这是一个俄语网站&#xff0c;其他很多网站资源都来自这里。点击右上角切换到中文。不需要登录网站&#xff0c;直接从软件详情页下载即可。体验非常好。 二、Xclient 官方网站&#xff1a; https://xclie…...

GPU是什么

近期ChatGPT十分火爆&#xff0c;随之而来的是M国开始禁售高端GPU显卡。M国想通过禁售GPU显卡的方式阻挡中国在AI领域的发展。 GPU是什么&#xff1f;GPU&#xff08;英语&#xff1a;Graphics Processing Unit&#xff0c;缩写&#xff1a;GPU&#xff09;是显卡的“大脑”&am…...

南北阁 4.1-3B 开源镜像实战:Streamlit轻量化UI+CoT折叠展示一文详解

南北阁 4.1-3B 开源镜像实战&#xff1a;Streamlit轻量化UICoT折叠展示一文详解 想快速体验一个能在本地流畅运行、还能“看见”模型思考过程的智能对话工具吗&#xff1f;今天要介绍的&#xff0c;就是基于南北阁&#xff08;Nanbeige&#xff09;4.1-3B模型打造的轻量化流式…...

Phi-4-Reasoning-VisionGPU算力:双卡4090推理吞吐达12 token/s实测

Phi-4-Reasoning-VisionGPU算力&#xff1a;双卡4090推理吞吐达12 token/s实测 1. 项目概述 Phi-4-Reasoning-Vision是一款基于微软Phi-4-reasoning-vision-15B多模态大模型开发的高性能推理工具。该工具专为双卡RTX 4090环境优化&#xff0c;通过精心设计的架构和优化策略&a…...

Chainlit前端定制化|通义千问1.5-1.8B-GPTQ-Int4私有化部署与UI二次开发教程

Chainlit前端定制化&#xff5c;通义千问1.5-1.8B-GPTQ-Int4私有化部署与UI二次开发教程 你是不是已经体验过各种在线大模型&#xff0c;但总感觉有些限制&#xff1f;比如数据隐私的担忧、网络延迟的困扰&#xff0c;或者想打造一个完全属于自己的、界面更符合业务需求的AI助…...

OpenClaw调试技巧:nanobot镜像的日志分析与问题定位

OpenClaw调试技巧&#xff1a;nanobot镜像的日志分析与问题定位 1. 为什么需要关注OpenClaw日志 上周我在本地部署nanobot镜像时遇到一个诡异现象&#xff1a;OpenClaw能正常接收飞书消息&#xff0c;但执行自动化任务时总在"思考阶段"卡住。这个问题困扰了我两天&…...

【AI工程化硬核考点】:FastAPI 2.0 + async/await + StreamingResponse三重协程调度机制精讲

第一章&#xff1a;FastAPI 2.0 异步 AI 流式响应 面试题汇总FastAPI 2.0 原生强化了对异步流式响应&#xff08;StreamingResponse&#xff09;的支持&#xff0c;尤其适用于大语言模型&#xff08;LLM&#xff09;推理、实时日志推送、AI 生成内容分块返回等场景。面试官常聚…...

League Akari:5大核心解决方案提升英雄联盟游戏体验

League Akari&#xff1a;5大核心解决方案提升英雄联盟游戏体验 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一…...

MySQL 事务机制深度解析:从 ACID 到底层实现

MySQL 事务机制深度解析&#xff1a;从 ACID 到底层实现 MySQL 的事务机制主要由 InnoDB 存储引擎 实现&#xff0c;核心围绕 ACID 四大特性&#xff0c;通过 日志系统&#xff08;redo log、undo log&#xff09;、锁机制 和 MVCC&#xff08;多版本并发控制&#xff09; 共同…...

Vue/React项目实战:集成docx-preview实现动态报表预览与下载功能

Vue/React项目实战&#xff1a;动态报表预览与下载的工程化实现 在数据驱动的企业应用中&#xff0c;动态生成和预览业务报表是刚需功能。想象这样一个场景&#xff1a;销售团队在CRM系统中筛选季度数据后&#xff0c;需要立即查看格式规范的业绩分析报告&#xff0c;并能一键…...

OpenClaw任务编排:GLM-4.7-Flash复杂流程设计

OpenClaw任务编排&#xff1a;GLM-4.7-Flash复杂流程设计 1. 为什么需要任务编排 去年我接手了一个市场分析项目&#xff0c;需要每周手动收集竞品动态并生成报告。重复性的复制粘贴和格式调整消耗了大量时间&#xff0c;直到发现OpenClaw可以通过编排GLM-4.7-Flash模型实现全…...

STM32F103 Bootloader跳转失败?别急着怀疑Boot,先检查你的裸机APP中断向量表

STM32F103 Bootloader跳转失败&#xff1f;别急着怀疑Boot&#xff0c;先检查你的裸机APP中断向量表 当你的STM32F103项目采用HAL库Bootloader搭配裸机应用程序&#xff08;APP&#xff09;时&#xff0c;如果遇到Bootloader能正常启动HAL版本的APP却无法跳转裸机APP的情况&…...