当前位置: 首页 > news >正文

微前沿 | 第1期:强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测

欢迎阅读我们的新栏目——“微前沿”!

“微前沿”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本期内容速览

01. 强可控视频生成模型 DragNUWA

02. LLM Retriever:通过定制化样本检索器来提高大语言模型的上下文学习效果

03. 解码大脑信号重建视觉感知图像

04. PromptBench:首个大语言模型提示鲁棒性的评测基准

arXiv精选

强可控视频生成模型 DragNUWA

research-focus-issue-1-1

论文链接:https://arxiv.org/abs/2308.08089

项目主页:https://www.microsoft.com/en-us/research/project/dragnuwa/

在人工智能与计算机图形学领域不断取得突破的今天,视频生成技术已成为领域内的研究焦点。尽管传统的视频生成模型,如 NUWA、Phenaki 和 Gen-2,在一定程度上实现了基于文本的视频生成,但在细粒度控制方面仍有不足。而在电影制作和短视频创作领域,导演和创作者对精细的运镜以及复杂且可控的角色动作都有着极高的要求,可是这些需求目前却难以通过现有的视频生成模型实现。

为此,微软亚洲研究院的研究团队研发了强可控视频生成模型 DragNUWA,革新了当前的视觉体验。受到 DragGAN 采用拖拽方式编辑图像的启发,DragNUWA 允许用户直接在图像中拖拽物体或背景,然后模型会自动将拖拽操作转化为合理的运镜或物体的运动,并生成相应的视频。通过融合文本、图像和轨迹三个关键控制因素,DragNUWA 在语义、空间和时间三个层面均实现了卓越的可控视频生成能力。

图1:DragNUWA的两种轨迹控制方式。拖拽背景可以生成各种镜头效果(左图),拖拽物体可以生成人物复杂轨迹(右图)。

图1:DragNUWA的两种轨迹控制方式。拖拽背景可以生成各种镜头效果(左图),拖拽物体可以生成人物复杂轨迹(右图)。

DragNUWA 支持三个关键控制输入:文本(p),图像(s)和轨迹(g)。为了解决当前仅有视频文本对数据的难题,DragNUWA 引入了轨迹采样器(Trajectory Sampler, TS)从开放领域视频的光流中提取轨迹。所提取的轨迹、初始帧图像和标注文本将通过多尺度融合器(Multiscale Fusion,MF)融入到 UNet 的每个 block。而为了解决轨迹稀疏的问题,DragNUWA 会通过自适应训练(Adaptive Training,AT)逐步从完整的光流切换到稀疏的轨迹,以确保视频生成的稳定性。

图2:DragNUWA 架构图

图2:DragNUWA 架构图

让我们想象一下,当你在欣赏一幅美丽的艺术作品时,通过 DragNUWA 的力量,它能够按照你的意愿展现出生动的画面;或者在拍摄一部动作片时,让主角在关键时刻“拥有”震撼人心的武艺。这些都将得益于 DragNUWA 强大的可控视频生成能力。DragNUWA 为包括导演、摄影师和视频创作者们在内的整个视觉作品领域打开了全新的可能性,可能在未来把视频生成技术带入一个全新的可控时代。

图3:DragNUWA 生成演示

图3:DragNUWA 生成演示

LLM Retriever:通过定制化样本检索器来提高大语言模型的上下文学习效果

research-focus-issue-1-5

论文链接:https://arxiv.org/pdf/2307.07164

项目链接:https://github.com/microsoft/LMOps

如今的大语言模型展现出了惊人的上下文学习能力:不需要对语言模型的参数进行微调,只需要摆放几个上下文样本,语言模型就可以学会执行这个任务。但相关研究表明,语言模型上下文学习的效果对于样本的选择非常敏感。因此,如何自动从样本池选择合适的样本就成为了一个重要的研究问题。

微软亚洲研究院的研究员们在针对这一问题的研究过程中发现,语言模型本身的反馈信号可以作为上下文样本选择的可靠依据。不同的样本对于语言模型输出正确答案的影响并不相同,那些能提高正确答案概率的样本可以被视为高质量的上下文样本。基于这一观察,研究员们利用语言模型的反馈信号来训练定制化的样本检索器 LLM Retriever,以提高上下文学习的效果。

图4:LLM Retriever 模型训练和推理流程

图4:LLM Retriever 模型训练和推理流程

具体来说,在训练阶段,首先用语言模型对每一个候选的上下文样本打分,能够使得正确答案概率最大的样本被视为正例,其它的被视为负例。然后利用这些自动标注的数据来训练一个奖励模型,以捕捉更加细粒度的监督信号,再对奖励模型进行知识蒸馏,得到一个高效的检索器 LLM Retriever。这一训练流程可以迭代进行,从而不断提高检索器的效果。

在推理阶段,根据训练得到的检索器,离线把样本池建成一个方便快速查找的索引。对于每条测试数据,在索引中查找最相似的若干个样本,然后送给大语言模型做上下文学习,输出最终的预测结果。在整个过程中,语言模型不进行任何参数微调。

实验结果表明,在包含30个数据集的评测基准上,LLM Retriever 能够检索出与测试数据具有相似模式的样本,从而显著提高各种任务的上下文学习效果,并且对于训练阶段没有见过的任务和语言模型也具备很好的泛化能力。LLM Retriever 是微软亚洲研究院自然语言计算组关于如何增强语言模型能力的研究的一部分,未来研究员们还将继续在这方面进行深入的探索。

“透视”大脑:解码大脑信号重建视觉感知图像

research-focus-issue-1-7

论文链接:https://arxiv.org/abs/2308.02510

是否有可能只根据非侵入式设备获取的大脑信号,就完全重建被试主体所看到的视觉内容?

近年来,得益于神经科学和人工智能的最新进展,科学家们已经能够记录视觉引发的大脑活动,并通过计算方法模拟人类的视觉认知能力。其中,有一种大脑活动电生理信号称为脑电(Electroencephalograph, EEG)信号。EEG 脑电信号是一种通过放置在人类头皮上的便携电极,可低成本记录大脑时间动态的电生理信号。这类脑电活动生理信号相比较磁共振成像等技术,具备低成本、采集方便的优点,但是,EEG 脑电信号采集会受到电极放置错误或身体运动的影响,进而导致数据中出现严重的伪迹,并且其信噪比较低,因此,使用脑电信号重建视觉感知仍然十分困难。

在这篇论文中,微软亚洲研究院的研究员提出了 NeuroImagen, 通过多级解码方式,可以从 EEG 信号中解码出不同粒度的样本语义信息和像素语义信息,最后通过输入已预训练的扩散模型可以重建视觉感知的图像。其中,样本级别的语义信息提供了观看图像中主要类别或者总体描述等粗粒度信息,这些信息可以比较准确地提取与解码;像素级别的语义信息则提供了观看图像的颜色、位置、形状等细粒度信息,这些信息较难以提取,但对重建图片的细节非常重要。

图5:NeuroImagen 多级解码大脑信号重建感知图像

图5:NeuroImagen 多级解码大脑信号重建感知图像

实验结果表明,NeuroImagen 在根据 EEG 信号重建视觉图像的语义准确度、图片质量、结构准确性等方面上均优于其它前沿的重建方法。这项研究初步验证了将人类视觉认知与复杂的脑电信号联系起来的可行性,进而有可能帮助那些因为神经系统受损而失去视觉功能的人恢复部分视觉能力。研究员们预期这些发现将推动人工智能、认知科学和神经科学之间的合作,探索人类视觉认知过程之谜。

开源工具

PromptBench: 首个大语言模型提示鲁棒性的评测基准

research-focus-issue-1-9

文章链接:https://arxiv.org/abs/2306.04528

代码链接:https://github.com/microsoft/promptbench

所有大模型评测的研究汇总:llm-eval.github.io

作为连接人类与大模型的桥梁,大模型对 “Prompt (提示词)“究竟有多敏感?同样的 prompt,可能写错个单词、写法不一样,都会出现不一样的结果。到底应该如何写合适的提示词?

为了尝试回答这些问题,微软亚洲研究院的研究员们构建了首个大语言模型提示鲁棒性的评测基准 PromptBench,以深入探究大模型在处理对抗提示(adversarial prompts)的鲁棒性。研究还利用 Attention “可视化分析”了对抗提示的输入关注分布,并且对不同模型产生的对抗提示进行了“迁移性分析”,最后对鲁棒提示和敏感提示的词频进行了分析,以帮助终端用户更好地写出 prompt。

研究得到了几个关键的结果。首先,“不同种类的攻击的有效性差距很大“,其中 word-level 的攻击最强,导致所有数据集的平均性能下降33%。字符级别的攻击排名第二,导致大部分数据集的性能下降20%。UL2 的鲁棒性明显优于其他模型,其次是 T5 和 ChatGPT,Vicuna 的鲁棒性最差。UL2、T5 和 ChatGPT 的鲁棒性在各个数据集中都有所不同,UL2 和 T5 在情感分类(SST-2)、大部分 NLI 任务以及阅读理解(SQuAD V2)的攻击中表现出较好的鲁棒性。少样本提示的鲁棒性在所有数据集上都要优于零样本提示。此外,虽然 Task-oriented 的提示在总体鲁棒性上稍微优于 Role-oriented 提示,但两者在不同的数据集和任务中各有优势。

图6:PromptBench 概览(左图),prompt 攻击示意图(右图)

图6:PromptBench 概览(左图),prompt 攻击示意图(右图)

研究员们还进行了可迁移性分析、词频分析等,以全面了解大模型对提示的对抗鲁棒性。最后研究员也提出了一些可能的应对策略:

1. 输入预处理:直接检测和处理可能的对抗样本,如检测错别字、无关的序列,并提高提示的清晰度和简洁度。

2. 在预训练中包含低质量数据:低质量数据可以作为可能的对抗样本,在预训练中包含低质量数据可能会对多样化的输入有更好的理解。

3. 探索改进微调方法:研究更佳的微调技术可能会提高鲁棒性。正如研究之前展示的一些情况,比如 T5 和 UL2 模型比 ChatGPT 的鲁棒性更好,这暗示了大规模监督微调的潜在优势。

相关文章:

微前沿 | 第1期:强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测

欢迎阅读我们的新栏目——“微前沿”! “微前沿”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。 本期内容速览 01. 强可…...

SQLite数据库C_C++接口(保姆级API应用 1.4W字)(全网最详细介绍,学完必掌握)

目录 sqlite3的C/C API应用 前言 SQLite3库安装 API函数 打开、关闭、错误处理 打开 返回值 关闭 错误调试 实际应用 执行SQL(DDL、DML) API介绍 实际应用 回调函数查询 API介绍 实际应用 全缓冲查询 API介绍 实际应用 字节缓冲查询…...

倒计时:心理的镇静剂还是焦虑的火种?

倒计时:心理的镇静剂还是焦虑的火种? 目录 引言倒计时的作用与原理倒计时的双面性:缓解焦虑还是引发焦虑?如何正确使用倒计时结论 引言 在我们的日常生活和工作中,倒计时被广泛的应用。无论是在网购的抢购活动中&a…...

迅睿系统二开自定义函数和插件的自定义函数

全局的自定义函数: 全局的自定义函数文件:dayrui/My/Helper.php 此文件用于放网站自定义函数,程序会自动加载 当前站点的自定义函数文件:网站主目录/config/custom.php 插件的自定义函数: 基于App目录下的插件或模块…...

传统品牌如何通过3D虚拟数字人定制和动捕设备加速年轻化发展?

步入Z时代,年轻一代消费者的生活方式深受互联网技术和媒介环境影响,对新潮事物感兴趣,消费思维也相对前卫,品牌需要探索契合Z世代的消费观念,寻找新的链接拉近品牌与消费者的距离,而3D虚拟数字人定制可以帮…...

sql:SQL优化知识点记录(五)

(1)explain之例子 (2)索引单表优化案例 上面的功能已经实现,但是分析功能, 使用explain分析这条sql: 发现type为All Extra:有Using filesort (文件内排序) 这…...

1.3 Metasploit 生成SSL加密载荷

在本节中,我们将介绍如何通过使用Metasploit生成加密载荷,以隐藏网络特征。前一章节我们已经通过Metasploit生成了一段明文的ShellCode,但明文的网络传输存在安全隐患,因此本节将介绍如何通过生成SSL证书来加密ShellCode&#xff…...

redis windows 版本安装

1. 下载windows安装包并解压 如果是Linux版本可以直接到官网下载,自3.x起官网和微软网站就没有redis安装包更新了,好在github有开发者在编译发布更新(目前最新有5.0.9版本可下),地址:redis windows 5版本下…...

限流算法深入

限流定义及目的 当系统流量达到系统或下游承受能力的阈值时对系统进行限流控制以防止系统或下游挂掉,减少影响面。 限流组成:阈值及限流策略。阈值是指系统单位时间接收到的请求qps总数;限流策略是指限流行业触发后对应的系统行为&#xff…...

java 基础知识 循环的几个题目

1、输出1~100的累加和 结果显示在屏幕,显示在文件res1.txt中 2、输出1-~100的偶数和 结果显示在屏幕,显示在文件res2.txt中 3、输出所有水仙花数: 100~999的数中出现个位数的立方十位数的立方百位数的立方这个数本身 4、输出由9行9列星号组成…...

Spring Boot使用LocalDateTime、LocalDate作为入参

0x0 背景 项目中使用LocalDateTime系列作为dto中时间的类型,但是spring收到参数后总报错,为了全局配置时间类型转换,尝试了如下3中方法。 注:本文基于Springboot2.0测试,如果无法生效可能是spring版本较低导致的。PS&…...

第七周第七天学习总结 | MySQL入门及练习学习第二天

实操练习: 1.创建一个名为 cesh的数据库 2.在这个数据库内 创建一个名为 xinxi 的表要求该表可以包含:编号,姓名,备注的信息 3.为 ceshi 表 添加数据 4.为xinxi 表的数据设置中文别名 5.查询 在 xinxi 表中编号 为2 的全部…...

【考研数学】线形代数第三章——向量 | 3)向量组秩的性质、向量空间、过渡矩阵

文章目录 引言三、向量组等价、向量组的极大线性无关组与秩3.2 向量组秩的性质 四、 n n n 维向量空间4.1 基本概念4.2 基本性质 写在最后 引言 紧接前文学习完向量组秩的基本概念后,继续往后学习向量的内容。 三、向量组等价、向量组的极大线性无关组与秩 3.2 向…...

【技术】SpringBoot Word 模板替换

SpringBoot Word 模板替换 什么是 Word 模板替换如何实现 Word 模板替换 什么是 Word 模板替换 模板一般是具有固定格式的内容,其中一部分需要替换。Word 模板通俗的讲是以 Word 的形式制作模板,固定格式和内容,然后将其中的一部分数据替换掉…...

java jni nv21和nv12互转

目录 libyuv性能比较 NV12 NV21 YUV420格式介绍 jni YUV420toYUV420SemiPlanar java YUV420toYUV420SemiPlanar java NV12toYUV420SemiPlanar jni NV12toYUV420SemiPlanar...

后端面试话术集锦第二篇:spring boot面试话术

🚗后端面试集锦目录 💖后端面试话术集锦第一篇:spring面试话术💖 💖后端面试话术集锦第二篇:spring boot面试话术💖 💖后端面试话术集锦第三篇:spring cloud面试话术💖 💖后端面试话术集锦第四篇:ElasticSearch面试话术💖 💖后端面试话术集锦第五篇:r…...

Doris中分区和分桶使用教程

1 分区与分桶 Doris中有两层的数据划分,第一层是分区(Partition),第二层是分桶(Bucket), Partition又能分为Range分区和List分区。 Bucket仅支持Hash方式。 1.1 Partition 只能指定…...

电脑不安装软件,怎么将手机文件传输到电脑?

很多人都知道,AirDroid有网页版(web.airdroid.com)。 想要文件传输,却不想在电脑安装软件时,AirDroid的网页版其实也可以传输文件。 然而,要将文件从手机传输文件到网页端所在的电脑时,如果按…...

vue3 publish 出现的问题

vue3项目使用 yarn build 编译出dist文件, 发布后出现错误 #问题与解决 1)登录迭代错误(Maximum call stack size exceeded) >deepclone 的问题 在 GrandhallLayout 中判断菜单和权限中; const mainMenu cloneDeep(router.getRoutes()) lodash.clonedee…...

网络防御和入侵检测

网络防御和入侵检测是维护网络安全的关键任务,可以帮助识别和阻止未经授权的访问和恶意行为。以下是一些基本的步骤和方法,用于进行网络防御和入侵检测。 网络防御: 防火墙设置: 部署防火墙来监控和控制网络流量,阻止…...

【科研论文配图绘制】task5 SciencePlots绘图包入门

【科研论文配图绘制】task5 SciencePlots绘图包入门 task5主要学习了SciencePlots拓展包的出图样式,掌握SciencePlots的安装及具体使用。 SciencePlots作为一个专门用于科研论文绘图的第三方拓展工具包,提供了主流英文科技 期刊(如 Nature、Science 和 …...

R语言常用数学函数

目录 1. - * / ^ 2.%/%和%% 3.ceiling,floor,round 4.signif,trunc,zapsamll 5.max,min,mean,pmax,pmin 6.range和sum 7.prod 8.cumsum,cumprod,cummax,cummin 9.sort 10. approx 11.approx fun 12.diff 13.sign 14.var和sd 15.median 16.IQR 17.ave 18.five…...

公网远程访问局域网SQL Server数据库

文章目录 1.前言2.本地安装和设置SQL Server2.1 SQL Server下载2.2 SQL Server本地连接测试2.3 Cpolar内网穿透的下载和安装2.3 Cpolar内网穿透的注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4.公网访问测试5.结语 1.前言 数据库的重要性相信大家都有所了解&…...

Apache Celeborn 让 Spark 和 Flink 更快更稳更弹性

摘要:本文整理自阿里云/数据湖 Spark 引擎负责人周克勇(一锤)在 Streaming Lakehouse Meetup 的分享。内容主要分为五个部分: Apache Celeborn 的背景Apache Celeborn——快Apache Celeborn——稳Apache Celeborn——弹Evaluation…...

华为数通方向HCIP-DataCom H12-821题库(单选题:141-160)

第141题 Router-LSA 能够描述不同的链路类型,不属于Router LSA 链路类型的是以下哪一项? A、Link Type 可以用来描述到末梢网络的连接,即 SubNet B、Link Type 可以用来描述到中转网络的连接,即 TranNet C、Link Type 可以用来描述到另一…...

Windows-docker集成SRS服务器的部署和使用

Windows-docker集成SRS服务器的部署和使用 一、Windows Docker安装 Docker Desktop 官方下载地址: https://docs.docker.com/desktop/install/windows-install/ 下载windows版本的就可以了。 注意:此方法仅适用于 Windows 10 操作系统专业版、企业版、…...

element-ui table表格滚动条拉到最右侧 表头与内容不能对齐

1.问题概述 当表格数据太多,会出现纵向滚动条和横向滚动条,把横向滚动条拉到最右侧时,会出现表头与内容不能对齐的现象。 2.解决方法 1.当页面数据加载完毕后,在后面加上 this.$nextTick(() > {this.$refs.table.doLayout()…...

React中的性能测试工具组件Profiler的基本使用

React中的性能测试工具组件Profiler是一个非常有用的工具,它可以帮助我们分析React应用程序的性能瓶颈。在本文中,我们将学习如何使用Profiler组件来测试React应用程序的性能。 首先,让我们来了解一下Profiler组件的基本用法。在React中&…...

提升生产效率,降低运维成本:纺织业物联网网关应用

在众多物联网技术应用中纺织业正逐渐崭露头角。物联网技术通过无线连接纺织设备、PLC、传感器,实现了纺织厂的生产数据信息的远程监控和数据采集、远程管理,为企业提供了更高效、智能的生产方式。智联物联小编在本文中将重点介绍纺织业物联网的应用与通讯…...

【学习笔记】求解线性方程组的G-S迭代法

求解线性方程组的G-S迭代法 // 运行不成功啊function [x,k,index] Gau_Seid(A,b,ep,it_max) % 求解线性方程组的G-S迭代法,其中 % A为方程组的系数矩阵 % b为方程组的右端项 % ep为精度要求,省缺为1e-5 % it_max为最大迭代次数,省缺为100 % …...