AI_Papers:第一期
2023.02.06—2023.02.12
文摘词云

Top Papers
Subjects: cs.CL
1.Multimodal Chain-of-Thought Reasoning in Language Models
标题:语言模型中的多模式思维链推理
作者:Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola
文章链接:https://arxiv.org/abs/2302.00923
项目代码:https://github.com/amazon-science/mm-cot

这是来自亚马逊的AI大神李沐团队的最新研究成果。该论文正在讨论使用大型语言模型 (LLM) 进行复杂的推理任务。法学硕士通过使用一种称为“思维链 (CoT) 提示”的技术展示了良好的性能,该技术涉及生成一系列中间推理步骤以得出答案。然而,这种方法有局限性,因为它只考虑了语言模态,使得模型难以在现实场景中部署。为了解决这个问题,作者提出了一种称为“Multimodal-CoT”的新方法,它结合了视觉和语言特征。这种方法将生成推理步骤(或基本原理)的过程和进行最终推理的过程分成两个独立的阶段。通过在两个阶段结合视觉信息,该模型能够生成更有效的基本原理,有助于最终的答案推断。作者在称为 ScienceQA 的基准上评估了他们提出的方法,并表明他们的模型比以前最先进的 LLM (GPT-3.5) 高出 16%,甚至超过了人类的表现。
2.Zero-shot Image-to-Image Translation
标题:零样本图像到图像转换
作者:Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, Jun-Yan Zhu
文章链接:https://arxiv.org/abs/2302.03027


我们大型文本到图像生成模型具有非凡的图像合成能力。然而,直接应用这些模型来编辑真实图像具有挑战性,原因有二:首先,用户很难想出一个完美的文本提示来准确描述输入图像中的每个视觉细节。其次,虽然现有模型可以在某些区域引入所需的变化,但它们通常会显着改变输入内容并在不需要的区域引入意外的变化。这项工作提出了 pix2pix-zero,一种图像到图像的翻译方法,可以在没有手动提示的情况下保留原始图像的内容。该方法不需要对这些编辑进行额外的训练,可以直接使用现有的预训练文本到图像扩散模型。它优于真实和合成图像编辑的现有和并行工作。
Subjects: cs.LG、cs.AI、cs.CV
3.On Distillation of Guided Diffusion Models
标题:关于引导扩散模型的蒸馏
作者:Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik P. Kingma, Stefano Ermon, Jonathan Ho, Tim Salimans
文章链接:https://arxiv.org/abs/2210.03142

最近的研究表明,无分类器引导扩散模型在生成高分辨率图像方面非常成功。然而,这些模型确实存在推理时计算量大的缺点。本文提出了一种将无分类器引导扩散模型提炼为可快速采样的模型的方法:给定一个预训练的无分类器引导模型,作者首先学习一个单一模型来匹配组合条件和无条件的输出模型,然后逐渐将该模型提炼为需要更少采样步骤的扩散模型。在 ImageNet 64x64 和 CIFAR-10 上,本方法能够使用最少 4 个采样步骤生成视觉上与原始模型相当的图像,实现与原始模型相当的 FID/IS 分数,同时高达 256 倍更快地采样。
4.Toolformer: Language Models Can Teach Themselves to Use Tools
标题:Toolformer:语言模型可以自学使用工具
作者:Timo Schick,Jane Dwivedi-Yu,Roberto Dessì,Roberta Raileanu,Maria Lomeli,Luke Zettlemoyer,Nicola Cancedda,Thomas Scialo
文章链接:https://arxiv.org/abs/2302.04761

语言模型 (LM) 难以实现基本功能,例如算术或事实查找,而在这些功能中,更简单、更小的模型更胜一筹。本文表明 LM 可以通过简单的 API 自学使用外部工具。他们引入了 Toolformer,这是一个经过训练的模型,可以决定调用哪些 API、何时调用它们、传递哪些参数,以及如何最好地将结果纳入未来的代币预测。这是以自我监督的方式完成的,只需要对每个 API 进行少量演示。它们结合了一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。Toolformer 在各种下游任务中实现了显着改进的零样本性能,通常与更大的模型竞争,而不会牺牲其核心语言建模能力。
Notable Papers
5.Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery
标题:硬提示变得简单:基于梯度的离散优化,用于快速调整和发现
文章链接:https://arxiv.org/abs/2302.03668
摘要:
现代生成模型的优势在于它们能够通过基于文本的提示进行控制。典型的“硬”提示由可解释的单词和标记组成,并且必须由人类手工制作。还有“软”提示,由连续的特征向量组成。这些可以使用强大的优化方法发现,但它们不容易解释、跨模型重复使用或插入基于文本的界面。我们描述了一种通过有效的基于梯度的优化来稳健地优化硬文本提示的方法。我们的方法自动为文本到图像和文本到文本应用程序生成基于硬文本的提示。在文本到图像的设置中,该方法为扩散模型创建硬提示,允许 API 用户轻松生成、发现和混合匹配图像概念,而无需事先了解如何提示模型。在文本到文本设置中,我们展示了可以自动发现硬提示,这些提示在调整 LM 以进行分类方面非常有效。
6.A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity
标题:ChatGPT 在推理、幻觉和交互性方面的多任务、多语言、多模态评估
文章链接:https://arxiv.org/abs/2302.04023
摘要:
本文提出了一个框架,用于使用公开可用的数据集定量评估交互式 LLM,例如 ChatGPT。我们使用涵盖 8 种不同的常见 NLP 应用任务的 21 个数据集对 ChatGPT 进行了广泛的技术评估。我们基于这些数据集和新设计的多模式数据集评估了 ChatGPT 的多任务、多语言和多模式方面。我们发现 ChatGPT 在大多数任务上的零样本学习性能优于 LLM,甚至在某些任务上优于微调模型。我们发现它更擅长理解非拉丁脚本语言而不是生成它们。它能够通过中间代码生成步骤从文本提示生成多模式内容。此外,我们发现 ChatGPT 在逻辑推理、非文本推理和常识推理下的 10 个不同推理类别中的平均准确率为 64.33%,因此使其成为不可靠的推理机。例如,它比归纳推理更擅长演绎推理。ChatGPT 与其他 LLM 一样存在幻觉问题,并且由于无法访问外部知识库,它会从参数内存中产生更多的外部幻觉。最后,ChatGPT 的交互功能使人类能够与底层 LLM 协作以提高其性能,即 8% ROUGE-1 用于摘要,2% ChrF++ 用于机器翻译,采用多轮“提示工程”方式。
7.The unreasonable effectiveness of few-shot learning for machine translation
标题:小样本学习对机器翻译的不合理有效性
文章链接:https://arxiv.org/abs/2302.01398
摘要:
我们展示了少样本翻译系统的潜力,该系统使用未配对的语言数据进行训练,适用于高资源和低资源语言对。我们表明,在推理时仅显示 5 个高质量翻译数据的示例,仅使用自监督学习训练的 transformer decoder-only 模型能够与专业的监督最先进模型以及更通用的模型相匹配商业翻译系统。特别是,我们在 WMT'21 英汉新闻翻译任务中仅使用五个英汉并行数据示例就在推理中表现优于最佳系统。此外,我们构建这些模型的方法不需要联合多语言训练或反向翻译,在概念上很简单,并且显示出扩展到多语言环境的潜力。此外,生成的模型比最先进的语言模型小两个数量级。然后,我们分析了影响小样本翻译系统性能的因素,并强调小样本演示的质量在很大程度上决定了我们模型生成的翻译质量。最后,我们展示了少镜头范式也提供了一种控制翻译某些属性的方法——我们展示了我们能够在推理时仅使用五个示例来控制区域多样性和形式,为可控机器铺平道路翻译系统。
期待下周与你相见

相关文章:
AI_Papers:第一期
2023.02.06—2023.02.12 文摘词云 Top Papers Subjects: cs.CL 1.Multimodal Chain-of-Thought Reasoning in Language Models 标题:语言模型中的多模式思维链推理 作者:Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Sm…...
C/C++内存管理
C/C内存管理C/C内存分布C语言中内存管理的方式:malloc/calloc/realloc/freeC内存管理方式内置类型自定义类型operator new 与operator deletenew和delete的实现原理内置类型自定义类型定位new表达式(placement-new)new/delete与malloc/free的区别C/C内存分布 我们先…...
【大数据hive】hive 函数使用详解
一、前言 在任何一种编程语言中,函数可以说是必不可少的,像mysql、oracle中,提供了很多内置函数,或者通过自定义函数的方式进行定制化使用,而hive作为一门数据分析软件,随着版本的不断更新迭代,…...
彻底搞懂分布式系统服务注册与发现原理
目录 引入服务注册与发现组件的原因 单体架构 应用与数据分离...
安卓Camera2用ImageReader获取NV21源码分析
以前如何得到Camera预览流回调 可以通过如下方法,得到一路预览回调流 Camera#setPreviewCallbackWithBuffer(Camera.PreviewCallback),可以通过如下方法,设置回调数据的格式,比如 ImageFormat.NV21 Camera.Parameters#setPreview…...
24. 两两交换链表中的节点
文章目录题目描述迭代法递归法参考文献题目描述 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 示例 1: 输入&a…...
linux006之帮助命令
linux帮助命令简介: linux的命令是非常多的,光靠人是记不住的,在工作中一般都会去网上查,这是有外网的情况下,如果项目中不允许访问外网,那么linux的帮助命令就可以派上用场了, linux帮助命令是…...
【C++初阶】十三、模板进阶(总)|非类型模板参数|模板的特化|模板分离编译|模板总结(优缺点)
目录 一、非类型模板参数 二、模板的特化 2.1 模板特化概念 2.2 函数模板特化 2.3 类模板特化 2.3.1 全特化 2.3.2 偏特化 三、模板分离编译 四、模板总结(优缺点) 前言:之前模板初阶并没有把 C模板讲完,因为当时没有接触…...
Linux之文本搜索命令
文本搜索命令学习目标能够知道文本搜索使用的命令1. grep命令的使用命令说明grep文本搜索grep命令效果图:2. grep命令选项的使用命令选项说明-i忽略大小写-n显示匹配行号-v显示不包含匹配文本的所有行-i命令选项效果图:-n命令选项效果图:-v命令选项效果图:3. grep命令结合正则表…...
微信小程序Springboot 校园拼车自助服务系统java
系统管理员: 管理员账户管理:在线对管理员的账户信息进行管理,包括对管理员信息的增加修改以及密码的修改等。 站内新闻管理:在后台对站内新闻信息进行发布,并能够对站内新闻信息进行删除修改等。 论坛版块管理&#x…...
【Unity3D 常用插件】Haste插件
一,Haste介绍 Haste插件是一款针对 Unity 3D 的 Everthing软件,可以实现基于名称快速定位对象的功能。Unity 3D 编辑器也自带了搜索功能,但是在 project视图 和 Hierarchy视图 中的对象需要分别查找,不支持模糊匹配。Haste插件就…...
【c++面试问答】全局变量和局部变量的区别
问题 C中的全局变量和局部变量有什么区别? 注:内容全部参考自文末的参考资料 全局变量和局部变量的区别 可以从以下4个角度来区分: 区别全局变量局部变量作用域全局作用域局部作用域内存分配全局变量在静态数据区静态局部变量在静态数据区…...
Java List集合
6 List集合 List系列集合:添加的元素是有序,可重复,有索引 ArrayList: 添加的元素是有序,可重复,有索引LinkedList: 添加的元素是有序,可重复,有索引Vector :是线程安全的ÿ…...
linux服务器挂载硬盘/磁盘
1. 查看机器所挂硬盘个数及分区情况:fdisk -l可以看出来目前/dev/vda 目前有300G可用.内部有两个分区(/dev/vda1,/dev/vda2)。2. 格式化磁盘格式化磁盘命令为【mkfs.磁盘类型格式 目录路径组成】查看磁盘文件格式:df -T格式化磁盘…...
Java 抽象类
文章目录1、抽象方法和抽象类2、抽象类的作用当编写一个类时,常常会为该类定义一些方法,用于描述该类的行为方式,这些方法都有具体的方法体。但在某些情况下,某个基类只是知道其子类应该包含那些方法,但不知道子类是如…...
OpenPPL PPQ量化(5):执行引擎 源码剖析
目录 PPQ Graph Executor(PPQ 执行引擎) PPQ Backend Functions(PPQ 算子库) PPQ Executor(PPQ 执行引擎) Quantize Delegate (量化代理函数) Usage (用法示例) Hook (执行钩子函数) 前面四篇博客其实就讲了下面两行代码: ppq_ir load_onnx_graph(onnx_impor…...
【脚本开发】运维人员必备技能图谱
脚本(Script)语言是一种动态的、解释性的语言,依据一定的格式编写的可执行文件,又称作宏或批处理文件。脚本语言具有小巧便捷、快速开发的特点;常见的脚本语言有Windows批处理脚本bat、Linux脚本语言shell以及python、…...
N字形变换-力扣6-java
一、题目描述将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。比如输入字符串为 "PAYPALISHIRING" 行数为 3 时,排列如下:P A H NA P L S I I GY I R之后,你的输出需要从左往右逐行读…...
概论_第5章_中心极限定理1__定理2(棣莫弗-拉普拉斯中心极限定理)
在概率论中, 把有关论证随机变量和的极限分布为正态分布的一类定理称为中心极限定理称为中心极限定理称为中心极限定理。 本文介绍独立同分布序列的中心极限定理。 一 独立同分布序列的中心极限定理 定理1 设X1,X2,...Xn,...X_1, X_2, ...X_n,...X1,X2,...Xn…...
详细解读503服务不可用的错误以及如何解决503服务不可用
文章目录1. 问题引言2. 什么是503服务不可用错误3 尝试解决问题3.1 重新加载页面3.2 检查该站点是否为其他人关闭3.3 重新启动设备3.3 联系网站4. 其他解决问的方法1. 问题引言 你以前遇到过错误503吗? 例如,您可能会收到消息,如503服务不可…...
MPNet:旋转机械轻量化故障诊断模型详解python代码复现
目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...
【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)
服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...
Cloudflare 从 Nginx 到 Pingora:性能、效率与安全的全面升级
在互联网的快速发展中,高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司,近期做出了一个重大技术决策:弃用长期使用的 Nginx,转而采用其内部开发…...
linux 下常用变更-8
1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行,YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID: YW3…...
AI书签管理工具开发全记录(十九):嵌入资源处理
1.前言 📝 在上一篇文章中,我们完成了书签的导入导出功能。本篇文章我们研究如何处理嵌入资源,方便后续将资源打包到一个可执行文件中。 2.embed介绍 🎯 Go 1.16 引入了革命性的 embed 包,彻底改变了静态资源管理的…...
《C++ 模板》
目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板,就像一个模具,里面可以将不同类型的材料做成一个形状,其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式:templa…...
抽象类和接口(全)
一、抽象类 1.概念:如果⼀个类中没有包含⾜够的信息来描绘⼀个具体的对象,这样的类就是抽象类。 像是没有实际⼯作的⽅法,我们可以把它设计成⼀个抽象⽅法,包含抽象⽅法的类我们称为抽象类。 2.语法 在Java中,⼀个类如果被 abs…...
在 Visual Studio Code 中使用驭码 CodeRider 提升开发效率:以冒泡排序为例
目录 前言1 插件安装与配置1.1 安装驭码 CodeRider1.2 初始配置建议 2 示例代码:冒泡排序3 驭码 CodeRider 功能详解3.1 功能概览3.2 代码解释功能3.3 自动注释生成3.4 逻辑修改功能3.5 单元测试自动生成3.6 代码优化建议 4 驭码的实际应用建议5 常见问题与解决建议…...
CMS内容管理系统的设计与实现:多站点模式的实现
在一套内容管理系统中,其实有很多站点,比如企业门户网站,产品手册,知识帮助手册等,因此会需要多个站点,甚至PC、mobile、ipad各有一个站点。 每个站点关联的有站点所在目录及所属的域名。 一、站点表设计…...
HTML中各种标签的作用
一、HTML文件主要标签结构及说明 1. <!DOCTYPE html> 作用:声明文档类型,告知浏览器这是 HTML5 文档。 必须:是。 2. <html lang“zh”>. </html> 作用:包裹整个网页内容,lang"z…...
