AI_Papers周刊:第三期
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
2023.02.20—2023.02.26
文摘词云
Top Papers
Subjects: cs.CL
1.LLaMA: Open and Efficient Foundation Language Models
标题:LLaMA:开放高效的基础语言模型
作者:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux
文章链接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
我们介绍了 LLaMA,这是一组基础语言模型,参数范围从 7B 到 65B。我们在数万亿个令牌上训练我们的模型,并表明可以仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可与最佳模型 Chinchilla70B 和 PaLM-540B 竞争。我们将所有模型发布给研究社区。
上榜理由
这是Meta在2.24最新发布的大模型LLaMA:
与 Chinchilla、PaLM 或 GPT-3 不同,它只使用公开可用的数据集,使我们的工作与开源兼容且可重现,而大多数现有模型依赖于非公开可用或未记录的数据。
所有的模型都接受了至少 1T tokens的训练,远远超过通常在这个规模上使用的tokens。有趣的是,即使在 1T tokens之后,7B 模型仍在改进。
在常识推理、闭卷问答和阅读理解方面,LLaMA-65B 在几乎所有基准测试中都优于 Chinchilla 70B 和 PaLM 540B。
LLaMA-65B 在 GSM8k 上的表现优于 Minerva-62B,尽管它尚未在任何数学数据集上进行微调。在 MATH 基准测试中,它优于 PaLM-62B(但远低于 Minerva-62B)
在代码生成基准测试中,LLaMA-62B 优于 cont-PaLM (62B) 和 PaLM-540B。
据官方:开源、一块GPU就能跑,1/10参数量打败GPT-3。
2.FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation
标题:FRMT:小样本区域感知机器翻译的基准
作者:Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant
文章链接:https://arxiv.org/abs/2210.00193
项目代码:https://github.com/google-research/google-research/tree/master/frmt
我们展示了 FRMT,这是一种新的数据集和评估基准,适用于 Few-shot Region-aware Machine Translation,一种以风格为目标的翻译。该数据集包括从英语到葡萄牙语和普通话两种区域变体的专业翻译。选择源文档是为了能够对感兴趣的现象进行详细分析,包括词汇上不同的术语和干扰项。我们探索 FRMT 的自动评估指标,并在区域匹配和不匹配的评级场景中验证它们与专家人类评估的相关性。最后,我们为这项任务提供了一些基线模型,并为研究人员如何训练、评估和比较他们自己的模型提供了指导方针。
Subjects: cs.CV
1.Composer: Creative and Controllable Image Synthesis with Composable Conditions
标题:Composer:具有可组合条件的创造性和可控图像合成
作者:Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou
文章链接:hhttps://arxiv.org/abs/2302.09778
项目代码:https://damo-vilab.github.io/composer-page/
我们最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但可控性有限。这项工作提供了一种新一代范例,可以灵活控制输出图像,例如空间布局和调色板,同时保持合成质量和模型创造力。以组合性为核心思想,我们首先将图像分解为具有代表性的因素,然后以所有这些因素为条件训练扩散模型对输入进行重组。在推理阶段,丰富的中间表示作为可组合元素工作,为可定制的内容创建带来巨大的设计空间(即,与分解因子的数量成指数比例)。值得注意的是,我们称之为 Composer 的方法支持各种级别的条件,例如作为全局信息的文本描述、作为局部指导的深度图和草图、用于低级细节的颜色直方图等。除了提高可控性外,我们确认 Composer 是一个通用框架,无需重新训练即可促进各种经典生成任务。
上榜理由
这是阿里巴巴团队在2.20日发表的最新扩散模型Composer:
Composer 是一个大型(50 亿个参数)可控扩散模型,在数十亿(文本、图像)对上进行训练.
它可以根据文本和深度、蒙面图像和文本、草图、深度和嵌入、文本和调色板等等生成图像,也可以修复草图、重新配置图像、颜色插值、 特定区域的图像编辑,在图片翻译、风格转移、姿势转移、虚拟试穿经典的任务上也表现的很好。
现在扩散模型的发展简直可以用飞速来形容,每天都有令人瞠目结舌的成果发布。
2.Adding Conditional Control to Text-to-Image Diffusion Models
标题:向文本到图像扩散模型添加条件控制
作者:Lvmin Zhang, Maneesh Agrawala
文章链接:https://arxiv.org/abs/2302.05543
项目代码:https://github.com/lllyasviel/controlnet
摘要:
深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分对齐的图像。我们提出了一种使用人类反馈来对齐此类模型的微调方法,包括三个阶段。首先,我们从一组不同的文本提示中收集评估模型输出对齐的人类反馈。然后,我们使用人工标记的图像文本数据集来训练预测人类反馈的奖励函数。最后,文本到图像模型通过最大化奖励加权似然来改进图像文本对齐进行微调。我们的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。我们还分析了几种设计选择,发现对此类设计选择进行仔细调查对于平衡对齐保真度权衡非常重要。我们的结果证明了从人类反馈中学习以显着改进文本到图像模型的潜力。
我们提出了一种神经网络结构 ControlNet,用于控制预训练的大型扩散模型以支持额外的输入条件。ControlNet 以端到端的方式学习特定于任务的条件,即使训练数据集很小 (< 50k),学习也很稳健。此外,训练 ControlNet 与微调扩散模型一样快,并且可以在个人设备上训练模型。或者,如果可以使用强大的计算集群,该模型可以扩展到大量(数百万到数十亿)数据。我们报告说,像 Stable Diffusion 这样的大型扩散模型可以通过 ControlNets 进行增强,以启用边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法,并进一步促进相关应用。
PS:效果非常的amazing的一篇成果,ControlNet可能会改变 AI 图像生成游戏规则。
3.Designing an Encoder for Fast Personalization of Text-to-Image Models
标题:设计用于快速个性化文本到图像模型的编码器
作者:Rinon Gal, Moab Arar, Yuval Atzmon, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or
文章链接:https://arxiv.org/abs/2302.04761
项目代码:https://tuning-encoder.github.io/
文本到图像的个性化旨在教授预训练的扩散模型来推理新颖的、用户提供的概念,并将它们嵌入到由自然语言提示引导的新场景中。然而,当前的个性化方法与冗长的训练时间、高存储要求或身份丢失作斗争。为了克服这些限制,我们提出了一种基于编码器的域调整方法。我们的主要见解是,通过欠拟合来自给定领域的大量概念,我们可以提高泛化能力并创建一个更适合快速添加来自同一领域的新概念的模型。具体来说,我们采用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单个图像作为输入,例如一个特定的面孔,并学习将其映射到表示该概念的词嵌入中。其次,一组用于文本到图像模型的正则化权重偏移,学习如何有效地摄取额外的概念。这些组件共同用于指导未知概念的学习,使我们能够仅使用一张图像和少至 5 个训练步骤来个性化模型——将个性化从几十分钟加速到几秒钟,同时保持质量。
4.MERF: Memory-Efficient Radiance Fields for Real-time View Synthesis in Unbounded Scenes
标题:MERF:用于无界场景中实时视图合成的内存高效辐射场
作者:Christian Reiser, Richard Szeliski, Dor Verbin, Pratul P. Srinivasan, Ben Mildenhall, Andreas Geiger, Jonathan T. Barron, Peter Hedman
文章链接:https://arxiv.org/abs/2302.04761
项目代码:t https://merf42.github.io
神经辐射场可实现最先进的逼真视图合成。然而,现有的辐射场表示对于实时渲染来说计算量太大,或者需要太多内存才能扩展到大型场景。我们提出了一种内存高效辐射场 (MERF) 表示,可在浏览器中实现大规模场景的实时渲染。MERF 使用稀疏特征网格和高分辨率 2D 特征平面的组合减少了先验稀疏体积辐射场的内存消耗。为了支持大规模无界场景,我们引入了一种新颖的收缩函数,可将场景坐标映射到有界体积中,同时仍允许有效的光线盒相交。我们设计了一个无损程序,用于将训练期间使用的参数化烘焙到一个模型中,该模型可实现实时渲染,同时仍保留体积辐射场的逼真视图合成质量。
Notable Papers
1.DisCO: Portrait Distortion Correction with Perspective-Aware 3D GANs
标题:DisCO:使用透视感知 3D GAN 进行人像失真校正
文章链接:https://arxiv.org/abs/2302.12253
摘要:
在近距离拍摄的特写面部图像通常会出现透视失真,导致夸张的面部特征和不自然/不吸引人的外观。我们提出了一种简单而有效的方法来校正单个特写脸部中的透视失真。我们首先通过联合优化相机内部/外部参数和面部潜在代码,使用透视扭曲的输入面部图像执行 GAN 反演。为了解决联合优化的模糊性,我们开发了焦距重新参数化、优化调度和几何正则化。以适当的焦距和相机距离重新渲染肖像可以有效地纠正这些失真并产生更自然的效果。我们的实验表明,我们的方法在视觉质量方面优于以前的方法。我们展示了许多示例,以验证我们的方法在野外人像照片上的适用性。
2.Improving Adaptive Conformal Prediction Using Self-Supervised Learning
标题:使用自监督学习改进自适应适形预测
文章链接:https://arxiv.org/abs/2302.12238
摘要:
共形预测是一种强大的无分布不确定性量化工具,可通过有限样本保证建立有效的预测区间。为了产生也适应每个实例难度的有效区间,一种常见的方法是在单独的校准集上计算归一化的不合格分数。自我监督学习已在许多领域得到有效利用,以学习下游预测变量的一般表示。然而,除了模型预训练和表示学习之外,自我监督的使用在很大程度上还没有被探索过。在这项工作中,我们研究了自我监督借口任务如何提高共形回归器的质量,特别是通过提高共形区间的适应性。我们在现有预测模型的基础上训练一个具有自我监督借口任务的辅助模型,并将自我监督错误作为附加特征来估计不合格分数。我们使用关于保形预测区间的效率(宽度)、不足和超额的合成和真实数据,凭经验证明了附加信息的好处。
3.Aligning Text-to-Image Models using Human Feedback
标题:使用人工反馈对齐文本到图像模型
文章链接:https://arxiv.org/abs/2302.12192
摘要:
深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分对齐的图像。我们提出了一种使用人类反馈来对齐此类模型的微调方法,包括三个阶段。首先,我们从一组不同的文本提示中收集评估模型输出对齐的人类反馈。然后,我们使用人工标记的图像文本数据集来训练预测人类反馈的奖励函数。最后,文本到图像模型通过最大化奖励加权似然来改进图像文本对齐进行微调。我们的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。我们还分析了几种设计选择,发现对此类设计选择进行仔细调查对于平衡对齐保真度权衡非常重要。我们的结果证明了从人类反馈中学习以显着改进文本到图像模型的潜力。
更多Ai资讯:公主号AiCharm
相关文章:

AI_Papers周刊:第三期
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 2023.02.20—2023.02.26 文摘词云 Top Papers Subjects: cs.CL 1.LLaMA: Open and Efficient Foundation Language Models 标题:LLaMA:开放高效的基础语言模型 作者&#…...
在win7上用VS2008编译skysip工程
在win7上用VS2008编译skysip工程 1. 安装vs2008及相应的补丁包,主要包含以下安装包: 1.1 VS2008TeamSuite90DayTrialCHSX1429243.iso 1.2 VS2008SP1CHSX1512981.iso 1.3 VS90sp1-KB945140-CHS.exe 2. 安装Windows SDK: 6.0.6001.18000.367-KRMSDK_EN.zip 例如安装路径为…...
python 数据结构习题
旋转图像给定一个nn的二维矩阵表示一个图像。将图像顺时针旋转90度。你必须在原地旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。例如,给定matrix[[1,2,3],[4,5&#x…...

18、MySQL8其它新特性
文章目录1 MySQL8新特性概述1.1 MySQL8.0 新增特性1.2 MySQL8.0移除的旧特性2 新特性1:窗口函数2.1 使用窗口函数前后对比2.2 窗口函数分类2.3 语法结构2.4 分类讲解1 序号函数2 分布函数3 前后函数4 首尾函数5 其他函数2.5 小 结3 新特性2:公用表表达式…...
【Android笔记79】Android之接口请求库Retrofit的介绍及使用
这篇文章,主要介绍Android之接口请求库Retrofit的介绍及使用。 目录 一、Retrofit接口请求库 1.1、什么是Retrofit 1.2、Retrofit的使用 (1)引入依赖...

蓝桥杯 考勤打卡
问题描述 小蓝负责一个公司的考勤系统, 他每天都需要根据员工刷卡的情况来确定 每个员工是否到岗。 当员工刷卡时, 会在后台留下一条记录, 包括刷卡的时间和员工编号, 只 要在一天中员工刷过一次卡, 就认为他到岗了。 现在小蓝导出了一天中所有员工的刷卡记录, 请将所有到岗…...

逻辑回归
逻辑回归 在分类问题中,要预测的变量y为离散值(y0~1),逻辑回归模型的输出变量范围始终在 0 和 1 之间。 训练集为 {(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\} {…...

CTFer成长之路之Python中的安全问题
Python中的安全问题CTF 1.Python里的SSRF 题目提示 尝试访问到容器内部的 8000 端口和 url path /api/internal/secret 即可获取 flag 访问url: http://f5704bb3-5869-4ecb-9bdc-58b022589224.node3.buuoj.cn/ 回显如下: 通过提示构造payload&…...

SpringBoot知识快速复习
Spring知识快速复习启动器自动装配ConfigurationImport导入组件Conditional条件装配ImportResource导入Spring配置文件ConfigurationProperties配置绑定Lombok简化开发dev-toolsyaml请求和响应处理静态资源规则与定制化请求处理-Rest映射请求处理-常用参数注解使用请求处理-Ser…...

SpringBoot+React博客论坛系统 附带详细运行指导视频
文章目录一、项目演示二、项目介绍三、项目运行截图四、主要代码一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SpringBootReact框架开发的博客论坛系统。首先,这是一个前后端分离的项目,文章编辑器…...

C++ primer 之 extern
C primer 之 extern什么是声明什么是定义两者有什么区别ertern的作用什么是声明 就是使得名字为程序所知,一个文件如果想使用别处定义的名字就必须包含对那个名字的声明。 什么是定义 负责创建与名字关联的实体。 两者有什么区别 变量声明和声明都规定了变量的…...

Linux 练习二 (VIM编辑器 + GCC编译器 + GDB调试)
文章目录VIM命令思维导图GCC编译器1、GCC编译文件练习2、静态库动态库制作练习将此函数编译成动态库将此函数编译成静态库GCC优化选项 -OnGDB调试命令练习练习一:编写一个程序,通过gdb调试,使用到gdb的b,n,s࿰…...
python3 连接数据库 mysql PyMysql
python3PyMysql PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库 , 遵循 Python 数据库 API v2.0 规范 。 PyMySQL 安装 pip install PyMySQLPyMySQL 连接数据库 import pymysql pymysql.Connect(hostlocalhost,port 3306,user root,password **…...

昇腾AI新技能,还能预防猪生病?
国药集团动物保健股份有限公司(简称“国药动保”)是专业从事动物保健产品研发、生产和销售的国家高新技术企业,是国内少数几家具备新产品原创能力的动物保健企业。其中,猪圆环病毒灭活疫苗等市场份额位居行业前列。 “猪圆环病毒…...

模板方法模式(Template Method)
模式结构图 说明 基本方法是模板方法的组成部分。基本方法分为一下三种: 抽象方法 由抽象类声明,由其具体子类实现。C中就是纯虚函数。 具体方法 由抽象类或具体类声明并实现,子类可以进行覆盖也可以继承。C中是虚函数。 钩子方法 由抽象类…...
C C++ typedef的使用
一、为基本数据类型起别名 typedef int myint; myint x 5; "myint"是"int"的别名,可以使用"myint"来代替"int"声明变量,这个很好理解,但是也很少有人这么用吧。 二、为结构体起别名 …...

Laravel框架03:DB类操作数据库
Laravel框架03:DB类操作数据库一、概述二、数据表的创建与配置三、增删改操作1. 增加信息2. 修改数据3. 删除数据四、查询操作1. 取出基本数据2. 取出单行数据3. 获取一个字段的值4. 获取多个字段的值5. 排序6. 分页五、执行任意的SQL语句一、概述 按照MVC的架构&a…...

数据结构期末复习总结(前章)
作者的话 作为一名计算机类的学生,我深知数据结构的重要性。在期末复习前,我希望通过这篇博客给大家一些复习建议。希望能帮助大家夯实数据结构的基础知识,并能够更好地掌握数据结构和算法的应用。 一、绪论 数据:信息的载体&am…...

设计环形队列
文章目录1.思路分析1.1队列空满分析1.2出队分析2.循环队列设计1.思路分析 1.1队列空满分析 首先我们假设一个长度为4的环形队列 队头front 队尾rear 当队列为空时 frontrear 当队列满时 frontrear 所以我们无法判断队列是满的或者空的 因此我们多加入一个空间使队列长度为5&am…...

面向对象之-接口鉴权
1 需求 1.1 需求背景 为了保证接口调用的安全性,我们希望设计实现一个接口调用鉴权功能,只有经过认证之后的系统才能调用我们的接口,没有认证过的系统调用我们的接口会被拒绝。 2 需求分析 2.1 基础分析 对于如何做鉴权这样一个问题&…...
RestClient
什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端,它允许HTTP与Elasticsearch 集群通信,而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级ÿ…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...

C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...

练习(含atoi的模拟实现,自定义类型等练习)
一、结构体大小的计算及位段 (结构体大小计算及位段 详解请看:自定义类型:结构体进阶-CSDN博客) 1.在32位系统环境,编译选项为4字节对齐,那么sizeof(A)和sizeof(B)是多少? #pragma pack(4)st…...
Qwen3-Embedding-0.6B深度解析:多语言语义检索的轻量级利器
第一章 引言:语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进 在人工智能领域,文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量,支撑着搜索引擎、推荐系统、…...

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战
“🤖手搓TuyaAI语音指令 😍秒变表情包大师,让萌系Otto机器人🔥玩出智能新花样!开整!” 🤖 Otto机器人 → 直接点明主体 手搓TuyaAI语音 → 强调 自主编程/自定义 语音控制(TuyaAI…...

前端开发面试题总结-JavaScript篇(一)
文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包(Closure)?闭包有什么应用场景和潜在问题?2.解释 JavaScript 的作用域链(Scope Chain) 二、原型与继承3.原型链是什么?如何实现继承&a…...

微信小程序云开发平台MySQL的连接方式
注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...

第 86 场周赛:矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词
Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的row x col 的 grid,其中有多少个 3 3 的 “幻方” 子矩阵&am…...

GC1808高性能24位立体声音频ADC芯片解析
1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率,…...