即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...
点击蓝字

关注我们
AI TIME欢迎每一位AI爱好者的加入!
01
ProTransformer: Robustify Transformers via Plug-and-Play Paradigm
近年来,基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制,旨在增强基于Transformer架构的韧性。关键在于,这种技术可以作为即插即用的层集成到现有的Transformer中,无需额外的训练或微调即可提升其鲁棒性。通过全面的实验和消融研究,本研究证明了ProTransformer在多种预测任务、攻击机制、骨干架构和数据领域中显著增强了Transformer模型的鲁棒性。值得注意的是,在经典TextFooler攻击下,ProTransformer无需进一步微调,分别将BERT、ALBERT、DistilBERT和RoBERTa的性能提升了19.5%、28.3%、16.1%和11.4%。此外,ProTransformer在面对基于提示的攻击时,在大型语言模型(LLMs)中展现出良好的韧性,分别将T5和LLaMA的性能提升了24.8%和17.8%,并将Vicuna在Jailbreaking攻击下的性能平均提升了10.4%。除了语言领域,ProTransformer在视觉和图领域也展现出卓越的鲁棒性。




文章链接:
https://arxiv.org/pdf/2410.23182
02
Prune and Repaint: Content-Aware Image Retargeting for any Ratio
图像重定向是调整图像宽高比以适应不同显示设备或展示环境的任务。然而,现有的重定向方法常常难以平衡关键语义的保留和图像质量,导致图像出现变形、重要对象丢失,或引入局部伪影,例如不连续的像素和不一致的再生内容。为了解决这些问题,本文提出了一种名为PruneRepaint的内容感知重定向方法。该方法引入了每个像素的语义重要性,以指导识别需要剪枝或保留的区域,从而维持关键语义。此外,本文还引入了一个自适应重绘模块,该模块根据剪枝像素的分布以及前景尺寸与目标宽高比之间的比例,选择图像区域进行重绘,从而在剪枝后实现局部平滑。通过专注于前景的内容和结构,PruneRepaint方法能够自适应地避免关键内容的丢失和变形,同时通过局部重绘有效减少伪影。作者在公共的RetargetMe基准测试集上进行了实验,并通过客观的实验结果和主观的用户研究证明,该方法在保留语义和美学方面优于以往的方法,并且在不同宽高比下的泛化能力更强。



文章链接:
https://arxiv.org/pdf/2410.22865
03
VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning
广泛智能的智能体应当形成特定任务的抽象表示,有选择性地暴露任务的关键要素,同时隐藏原始感知运动空间的复杂性。本文提出了一种名为“神经符号谓词(Neuro-Symbolic Predicates)”的一阶抽象语言,它结合了符号和神经知识表示的优势。作者详细描述了一种在线算法,用于发明此类谓词并学习抽象的世界模型。在五个模拟机器人领域的分布内和分布外任务中,本文的方法与层次强化学习、视觉语言模型规划以及符号谓词发明方法进行了比较。结果表明,本文的方法在样本复杂度、分布外泛化能力和可解释性方面均表现更优。



文章链接:
https://arxiv.org/pdf/2410.23156
04
FuseAnyPart: Diffusion-Driven Facial Parts Swapping via Multiple Reference Images
面部局部替换的目标是从源图像中选择性地将感兴趣的区域转移到目标图像上,同时保持目标图像的其余部分不变。大多数专门针对全脸替换的面部替换研究在进行单独面部局部替换时要么无法实现,要么受到显著限制,这阻碍了精细和定制化的角色设计。然而,专门针对面部局部替换设计这种方法面临着合理的多参考特征融合的挑战,这种融合需要既高效又有效。为克服这一挑战,提出了FuseAnyPart方法,以促进面部的无缝“任意局部融合”定制化。在FuseAnyPart中,不同人的面部局部在基于掩码的融合模块的潜在空间中被组装成一张完整的脸。随后,整合后的特征被发送到基于加法的注入模块,在扩散模型的UNet中进行融合,以创造新的角色。广泛的实验从定性和定量两个方面验证了FuseAnyPart的优越性和鲁棒性。




文章链接:
https://arxiv.org/pdf/2410.22771
05
A Monte Carlo Framework for Calibrated Uncertainty Estimation in Sequence Prediction
从图像和其他高维数据中对序列进行概率预测仍然是一个关键挑战,尤其是在安全关键领域。在这些场景中,通常需要量化与预测相关的不确定性(而不是像在语言建模中那样仅仅确定最可能的序列)。本文提出了一种蒙特卡洛框架,用于估计与序列相关的概率和置信区间。该框架使用蒙特卡洛模拟器(以自回归方式训练的神经网络)根据图像输入对序列进行采样,然后利用这些样本来估计概率和置信区间。在合成数据和真实数据上的实验表明,该框架能够产生准确的判别性预测,但可能会出现校准不足的问题。为解决这一不足,本文提出了一种时间依赖的正则化方法,能够生成校准良好的预测。





文章链接:
https://arxiv.org/pdf/2410.23272
06
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
现有的构建图形用户界面(GUI)智能体的研究工作高度依赖于强大的商业视觉-语言模型(VLMs),例如GPT-4o和GeminiPro Vision。由于开源VLMs在性能上与闭源模型存在显著差距,尤其是在GUI定位和分布外(Out-Of-Distribution, OOD)场景中,实践者往往不愿意使用开源VLMs。为了推动该领域的未来研究,作者开发了OS-Atlas——一个基础的GUI行为模型,通过在数据和建模方面的创新,在GUI定位和OOD任务中表现出色。作者投入了大量的工程努力,开发了一个开源工具包,用于在多个平台(包括Windows、Linux、MacOS、Android和Web)上合成GUI定位数据。利用该工具包,作者发布了迄今为止最大的开源跨平台GUI定位语料库,其中包含超过1300万个GUI元素。结合模型训练方面的创新,这一数据集为OS-Atlas理解GUI截图并泛化到未见界面提供了坚实基础。通过在六个跨越三种不同平台(移动、桌面和Web)的基准测试中的广泛评估,OS-Atlas相较于以往的最先进模型展现出显著的性能提升。此外,评估还揭示了关于持续改进和扩展开源VLMs代理能力的宝贵见解。





文章链接:
https://arxiv.org/pdf/2410.23218
07
LONG^2RAG:Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall
检索增强生成(Retrieval-Augmented Generation, RAG)是一种有希望解决大型语言模型(LLMs)中固定知识局限性的方法。然而,当前用于评估RAG系统的基准测试存在两个关键缺陷:(1)由于缺乏能够反映检索文档特征的数据集,它们无法充分衡量LLMs处理长文本检索的能力;(2)它们缺乏一种全面的评估方法来衡量LLMs生成有效利用检索信息的长篇回答的能力。为解决这些不足,本文引入了LONG?RAG基准测试和关键点回忆(Key Point Recall, KPR)指标。LONG?RAG包含280个问题,涵盖10个领域和8个问题类别,每个问题都关联有5篇检索到的文档,平均长度为2444个单词。KPR指标评估LLMs在生成回答时将检索文档中提取的关键点纳入其中的程度,从而更细致地评估它们利用检索信息的能力。





文章链接:
https://arxiv.org/pdf/2410.23000
本期文章由陈研整理
往期精彩文章推荐

关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

我知道你
在看
提出观点,表达想法,欢迎
留言

点击 阅读原文 查看更多!
相关文章:
即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 ProTransformer: Robustify Transformers via Plug-and-Play Paradigm 近年来,基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制,旨…...
FPGA DSP:Vivado 中带有 DDS 的 FIR 滤波器
本文使用 DDS 生成三个信号,并在 Vivado 中实现低通滤波器。低通滤波器将滤除相关信号。 介绍 用DDS生成三个信号,并在Vivado中实现低通滤波器。低通滤波器将滤除较快的信号。 本文分为几个主要部分: 信号生成:展示如何使用DDS&am…...
DeepSeek各模型现有版本对比分析
文章目录 一、基础模型系列:V1 到 V3 的演进二、专用模型系列:推理与多模态三、版本选型与商业化趋势 DeepSeek作为最近特别火爆的模型,本文将对DeepSeek现有的主要版本进行对比分析,涵盖参数规模、训练数据、功能改进、应用场景和性能表现等…...
ASP.NET Core Clean Architecture
文章目录 项目地址一、项目主体1. CQRS1.1 Repository数据库接口1.2 GetEventDetail 完整的Query流程1.3 创建CreateEventCommand并使用validation 2. EFcore层2.1 BaseRepository2.2 CategoryRepository2.3 OrderRepository 3. Email/Excel导出3.1 Email1. Email接口层 4. 定义…...
紫光同创开发板使用教程(二):sbit文件下载
sbit文件相当于zynq里面的bit文件,紫光的fpga工程编译完成后会自动生成sbit文件,因工程编译比较简单,这里不在讲解工程编译,所以我这里直接下载sbit文件。 1.工程编译完成后,可以看到Flow列表里面没有报错,…...
【Python爬虫(58)】从0到1:Scrapy实战爬取大型新闻网站
【Python爬虫】专栏简介:本专栏是 Python 爬虫领域的集大成之作,共 100 章节。从 Python 基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取ÿ…...
1. 自定义组件基础
相关资源: 📎day10 图片素材.zip 1. 自定义组件基础 概念:在ArkUI中由框架直接提供的称为系统组件 -> Column,Button等,由开发者定义的称为自定义组件 作用:自定义组件可以对 UI和业务逻辑进行封装&…...
MySQL MHA 部署全攻略:从零搭建高可用数据库架构
文章目录 1.MHA介绍2.MHA组件介绍3.集群规划4.服务器初始化5.MySQL集群部署5.1 安装MySQL集群5.2 配置一主两从5.3 测试MySQL主从5.4 赋予MHA用户连接权限 6.安装MHA环境6.1 安装MHA Node6.2 安装MHA Manager 7.配置MHA环境8.MySQL MHA高可用集群测试8.1 通过VIP连接MySQL8.2模…...
Spring Boot3+Vue2极速整合:10分钟搭建DeepSeek AI对话系统
前言 在生成式AI技术蓬勃发展的今天,大语言模型已成为企业智能化转型和个人效率提升的核心驱动力。作为国产大模型的优秀代表,DeepSeek凭借其卓越的中文语义理解能力和开发者友好的API生态,正在成为构建本土化AI应用的首选平台。 本文将以S…...
浅谈 Redis 主从复制原理(二)
大家好,我是此林。 【浅谈 Redis 主从集群原理(一) 】 上一篇文章中,说到了 Redis 主从复制的全量同步和增量同步,repl_baklog 复制缓冲区,以及 slave 挂掉之后数据同步的措施。 下面介绍的上一篇遗留问…...
elf_loader:一个使用Rust编写的ELF加载器
本文介绍一个使用Rust实现的ELF加载器。 下面是elf_loader的仓库链接: github: https://github.com/weizhiao/elf_loaderhttps://github.com/weizhiao/elf_loader crates.io: https://crates.io/crates/elf_loaderhttps://crates.io/cra…...
连接Sql Server时报错无法通过使用安全套接字层加密与 SQL Server 建立安全连接
文章目录 一. 前言二. 解决方案 方案1方案2 三. 总结 一. 前言 在《数据库原理》这门课的实验上,需要使用SQL Server,然后使用jdbc连接sql server突然报错为:SQLServerException: “Encrypt”属性设置为“true”且 “trustServerCertific…...
Qt常用控件之日历QCalendarWidget
日历QCalendarWidget QCalendarWidget 是一个日历控件。 QCalendarWidget属性 属性说明selectDate当前选中日期。minimumDate最小日期。maximumDate最大日期。firstDayOfWeek设置每周的第一天是周几(影响日历的第一列是周几)。gridVisible是否显示日历…...
Java——抽象类
在Java中,抽象类(Abstract Class) 是一种特殊的类,用于定义部分实现的类结构,同时允许子类提供具体的实现。抽象类通常用于定义通用的行为或属性,而将具体的实现细节留给子类。 1. 抽象类的定义 语法&…...
Linux CentOS 上 Ollama 的安装与部署:从入门到实践
Linux CentOS 上 Ollama 的安装与部署:从入门到实践 随着人工智能技术的快速发展,大语言模型(LLMs)的应用场景越来越广泛。Ollama 作为一个轻量级的 AI 模型管理工具,为开发者提供了便捷的模型部署和管理解决方案。本文将详细介绍如何在 Linux CentOS 系统上安装和部署 O…...
超级详细Spring AI运用Ollama大模型
大模型工具Ollama 官网:https://ollama.com/ Ollama是一个用于部署和运行各种开源大模型的工具; 它能够帮助用户快速在本地运行各种大模型,极大地简化了大模型在本地运行的过程。用户通过执行几条命令就能在本地运行开源大模型,如Lama 2等; 综上&#x…...
Django项目设计一个简单CRUD
在Django中实现一个学生类(Student)的CRUD(创建、读取、更新、删除)操作需要几个步骤,包括定义模型、创建视图、设置URL、以及配置模板。以下是一个基本的实现步骤: 1. 创建Django项目和应用 首先&#x…...
0083.基于springboot+uni-app的社区车位租赁系统小程序+论文
一、系统说明 基于springbootuni-app的社区车位租赁系统小程序,系统功能齐全, 代码简洁易懂,适合小白学编程。 现如今,信息种类变得越来越多,信息的容量也变得越来越大,这就是信息时代的标志。近些年,计算机科学发展…...
计算机视觉行业洞察--影像行业系列第一期
计算机视觉行业产业链的上下游构成相对清晰,从基础技术研发到具体应用场景的多个环节相对成熟。 以下是我结合VisionChina经历和行业龙头企业对计算机视觉行业产业链上下游的拆解总结。 上下游总结 上游产业链分为软硬件两类,视觉的硬件主要指芯片、…...
网页请求腾讯云环境的云函数
背景:uniapp,做一个管理后台 需求:在PC端网页请求云环境的云函数 npm npm install cloudbase/js-sdk -S 在APP中,封装匿名登陆,因为未登录时无法请求云函数 app.vue <script>import Vue from vueimport cl…...
【深度学习量化交易15】基于miniQMT的量化交易回测系统已基本构建完成!AI炒股的框架初步实现
我是Mr.看海,我在尝试用信号处理的知识积累和思考方式做量化交易,应用深度学习和AI实现股票自动交易,目的是实现财务自由~ 目前我正在开发基于miniQMT的量化交易系统——看海量化交易系统。 AI怎么炒股?就是通过量化交易。 近期D…...
使用大语言模型(Deepseek)构建一个基于 SQL 数据的问答系统
GitHub代码仓库 架构 从高层次来看,这些系统的步骤如下: 将问题转换为SQL查询:模型将用户输入转换为SQL查询。 执行SQL查询:执行查询。 回答问题:模型根据查询结果响应用户输入。 样本数据 下载样本数据…...
QT闲记-工具栏
工具栏通常用来放置常用的操作按钮,如QPushButton,QAction等。可以放置在顶部,底部,左侧,右侧,并且支持拖曳,浮动。 1、创建工具栏 通常通过QMainWindow 提供的addToolBar()来创建,它跟菜单栏一样,如果需要工具栏,一般情况下,我们设置这个类的基类为QMainWindow。 …...
JAVA最新版本详细安装教程(附安装包)
目录 文章自述 一、JAVA下载 二、JAVA安装 1.首先在D盘创建【java/jdk-23】文件夹 2.把下载的压缩包移动到【jdk-23】文件夹内,右键点击【解压到当前文件夹】 3.如图解压会有【jdk-23.0.1】文件 4.右键桌面此电脑,点击【属性】 5.下滑滚动条&…...
网络安全之探险
🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 因为工作相关性,看着第三方公司出具的网络安全和shentou测试报告就想更深入研究一下,于是乎开始探索网络安全方面的知识,度娘、…...
基础dp——动态规划
目录 一、什么是动态规划? 二、动态规划的使用步骤 1.状态表示 2.状态转移方程 3.初始化 4.填表顺序 5.返回值 三、试题讲解 1.最小花费爬楼梯 2.下降路径最小和 3.解码方法 一、什么是动态规划? 动态规划(Dynamic Programming&…...
异常处理在 Promptic 中怎么实现?
在 Promptic 中,异常处理主要通过与 tenacity 库结合来实现,用于处理诸如 API 限流、临时故障等问题。以下是实现异常处理的具体方法和步骤: 1. 使用 tenacity 实现重试机制 tenacity 是一个强大的 Python 库,用于实现重试逻辑&…...
(四)趣学设计模式 之 原型模式!
目录 一、 啥是原型模式?二、 为什么要用原型模式?三、 原型模式怎么实现?四、 原型模式的应用场景五、 原型模式的优点和缺点六、 总结 🌟我的其他文章也讲解的比较有趣😁,如果喜欢博主的讲解方式…...
会话对象 Cookie 四、Cookie的路径
1.Cookie的path属性 Cookie还有一个path属性,可以通过Cookie#setPath(String)方法来设置。你可以使用HttpWatch查看响应中的Set-Cookie中是否存在路径。下面是通过Chrome查看Cookie信息。 也就是说,就算你不设置Cookie的path,Cookie也是有路…...
A. Jagged Swaps
time limit per test 1 second memory limit per test 256 megabytes You are given a permutation†† aa of size nn. You can do the following operation Select an index ii from 22 to n−1n−1 such that ai−1<aiai−1<ai and ai>ai1ai>ai1. Swap aia…...
