当前位置: 首页 > news >正文

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

CLIP 模型在视觉-语言预训练领域已经取得了重要进展。然而,原始 CLIP 模型的一个显著局限性是处理长文本描述的能力受限。原始 CLIP 模型的训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征,常常忽视一些较小但潜在关键的细节。为了解决这些限制,该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型,旨在提升对视频的长文本描述的理解能力。其首先构建了一个大规模的视频-长描述配对数据集 VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化高维特征空间的学习。

此外,该工作提出能够理解长描述的视频 CLIP 模型应当体现两个特征:给定一个视频及其相关描述,CLIP 类模型应该对(1)具有更丰富和更精确细节的描述以及(2)在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此,其提出两个新的预训练任务:细节描述排序(DDR)和幻觉描述排序(HDR)。此外,该工作也建立了一个新的视频长描述排序基准测评集(LVDR),来更全面地评估视频 CLIP 模型的性能。

基于多任务课程规划的大语言模型蒸馏算法

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,这篇文章介绍了一个名为 TAPIR 的知识蒸馏框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。并调整多任务配比进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。

该工作创新性地用显式的任务标签配比代替隐式的句向量多样性。在任务重采样的过程中,大大增加数学推理代码类任务的数据比例。首次提出了模型拟合难度 (MFD) 指标,来表示数据难度大小,并在多轮迭代优化的过程中提升困难数据占比。提升模型从弱到强的泛化速度。在 AlpacaEval 排行榜上,我们微调后的 LLaMA2-7B 底座获得了7.8的相对分数,超过了参数量、数据量都远大于我们的知名开源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我们持续优化了 Qwen 系列模型的指令回答能力,优化 Qwen1.5系列模型在 AlpacaEval 榜单上提升3-8个百分点。

产品化服务

上述科研成果也在人工智能平台PAI的各个模块进行了深度的集成和整合,持续为PAI客户提供AI模型训练和推理相关服务。其中,VideoCLIP-XL作为文视频质量评估模块,与EasyAnimate视频生成解决方案无缝融合,支持用户轻松实现文视频语义一致性计算和数据过滤,从而训练AIGC视频生成大模型。在智码实验室,我们也上架了“VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取”的notebook。

用于数据增强和改写的蒸馏模型也已经上架PAI平台,为用户提供简单易用的大模型蒸馏解决方案。基于Qwen2的开源模型,PAI也在开源了DistilQwen2蒸馏小模型系列,进一步提升了模型的指令跟随能力,在HuggingFace和ModelScope开源社区开放下载。

此外,PAI-QuickStart集成了超过50个热门大语言模型,及其多种训练和推理方式,使客户更加简单地微调和部署大语言模型。在未来,我们也将在PAI平台上持续提供业界领先的算法和模型能力给广大客户。

资源链接

文-视频多模态

  • EasyAnimate开源项目:GitHub - aigc-apps/EasyAnimate: 📺 An End-to-End Solution for High-Resolution and Long Video Generation Based on Transformer Diffusion

  • VideoCLIP-XL:https://huggingface.co/alibaba-pai/VideoCLIP-XL

  • VideoCLIP-XL-v2:https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2

  • LVDR数据集:https://huggingface.co/alibaba-pai/LVDR

  • VILD数据集:https://huggingface.co/alibaba-pai/VILD

  • VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取:智码实验室

大模型蒸馏

  • 大语言模型数据增强与模型蒸馏解决方案:大语言模型数据增强与模型蒸馏解决方案_人工智能平台 PAI(PAI)-阿里云帮助中心

  • DistilQwen2蒸馏小模型系列

alibaba-pai/DistilQwen2-7B-Instruct:

  • https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct

  • https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

alibaba-pai/DistilQwen2-1.5B-Instruct:

  • https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct

  • https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

论文汇总

论文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

论文作者:汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文

论文pdf链接:https://arxiv.org/abs/2410.00741

论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

论文作者:岳元浩、汪诚愚、黄俊、王鹏

论文pdf链接:https://arxiv.org/abs/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com

相关文章:

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究&#…...

Spark的Shuffle过程

一、Shuffle 的作用是什么? Shuffle 操作可以理解为将集群中各个节点上的数据进行重新整理和分类的过程。这一概念源自 Hadoop 的 MapReduce 模型,Shuffle 是连接 Map 阶段和 Reduce 阶段的关键环节。在分布式计算中,每个计算节点通常只处理任…...

Java+Swing可视化图像处理软件

JavaSwing可视化图像处理软件 一、系统介绍二、功能展示1.图片裁剪2.图片缩放3.图片旋转4.图像灰度处理5.图像变形6.图像扭曲7.图像移动 三、系统实现1.ImageProcessing.java 四、其它1.其他系统实现2.获取源码 一、系统介绍 该系统实现了图片裁剪、缩放、旋转、图像灰度处理、…...

RDD转换算子:【mapValues、mapPartitions】

文章目录 1、mapValues算子功能语法举例 2、mapPartitions算子功能语法举例 1、mapValues算子 功能 针对二元组KV类型的RDD,对RDD中每个元素的Value进行map处理,结果放入一个新的RDD中 语法 def mapValues(self: RDD[Tuple[K,V]], f: (V) -> U) -…...

数组和指针的复杂关系

C语言中指针和数组的关系似乎很“纠结”,让人爱恨交织。本文试图帮助读者理清它们之间的复杂关系! 数组名的理解 数组元素在内存中是连续存放的,在C语言中,数组名有特殊的含义,它表示数组首元素的地址。因此&#xf…...

Linux系统I/O调优实例

文章目录 一 、资源限制二、测试硬盘速度: 一 、资源限制 限制用户资源配置文件:/etc/security/limits.conf [rootxuegod63 ~]# vim /etc/security/limits.conf 每行的格式: 用户名/用户组名 类型(软限制/硬限制) 选项 值 通常我们在服务器…...

记录Ubuntu OS的异常

PS: 参加过408改卷的ZJU ghsongzju.edu.cn 开启嘲讽: 你们知道408有多简单吗,操作系统真实水平自己知道就行~~ dmesg dmesg 是一个用于显示内核环形缓冲区消息的命令,主要用于查看系统启动时的消息、驱动程序加载信息、硬件错误…...

Vue 3 单元测试与E2E测试

在Vue 3应用的开发过程中,测试是一个至关重要的环节。它不仅能够确保代码的正确性,还能在后续的代码重构和升级过程中提供安全保障。本文将深入探讨Vue 3的单元测试(Unit Testing)和端到端测试(End-to-End Testing, E2…...

猫用空气净化器哪个牌子好?求除毛好、噪音小的宠物空气净化器!

换毛季家里孩子不省心,疯狂掉落的猫毛和空气中乱飞的浮毛可把我折磨死了。每天下班都要抽出时间来清理,不然这个家就不能要了。猫毛靠我自己可以打扫,浮毛还得借助宠物空气净化器这种专业工具。所以我最近着手做功课,打算入手一台…...

第十九课 Vue组件中的方法

Vue组件中的方法 组件中的方法拓展与实例对象中的方法拓展类似 <div id"app"><test></test> </div> <script>Vue.component(test, {template: <input type"button" value"这是个按钮组件" click"fun()…...

【JavaScript】V8,Nodejs 与浏览器

V8 V8 是一个 JavaScript engine&#xff0c;负责编译并执行 JavaScript 源代码&#xff0c;处理对象的内存分配&#xff0c;并对不再需要的对象进行垃圾收集。 V8 包含两个主要组件&#xff1a; Memory Heap&#xff1a;负责存储分配。 Call Stack&#xff1a;代码执行时&am…...

内存马浅析

之前在jianshu上写了很多博客&#xff0c;但是安全相关的最近很多都被锁了。所以准备陆陆续续转到csdn来。内存马前几年一直是个很热门的漏洞攻击手段&#xff0c;因为相对于落地的木马&#xff0c;无文件攻击的内存马隐蔽性、持久性更强&#xff0c;适用的漏洞场景也更多。 J…...

聊一聊Elasticsearch的基本原理与形成机制

1、搜索引擎的基本原理 通常搜索引擎包括&#xff1a;数据采集、文本分析、索引存储、搜索等模块&#xff0c;它们之间的协作流程如下图&#xff1a; 数据采集模块负责采集需要搜索的数据源。 文本分析模块是将结构化数据中的长文本切分成有实际意义的词&#xff0c;这样用户…...

应急救援无人车:用科技守护安全!

一、核心功能 快速进入危险区域&#xff1a; 救援无人车能够迅速进入地震、火灾、洪水等自然灾害或重大事故的现场&#xff0c;这些区域往往对人类救援人员构成极大威胁。 通过自主导航和环境感知技术&#xff0c;无人车能够避开危险区域&#xff0c;确保自身安全的同时&…...

详解Java之Spring MVC篇二

目录 获取Cookie/Session 理解Cookie 理解Session Cookie和Session的区别 获取Cookie 获取Session 获取Header 获取User-Agent 获取Cookie/Session 理解Cookie HTTP协议自身是“无状态”协议&#xff0c;但是在实际开发中&#xff0c;我们很多时候是需要知道请求之间的…...

flutter鸿蒙next 使用 InheritedWidget 实现跨 Widget 传递状态

在 Flutter 中&#xff0c;状态管理是开发过程中一个至关重要的部分。Flutter 提供了多种方式来实现组件间的状态传递&#xff0c;其中一种比较底层的方式是使用 InheritedWidget。虽然 InheritedWidget 主要用于将数据传递给其子树中的小部件&#xff0c;但它也是许多更高级状…...

计算机的错误计算(一百四十六)

摘要 探讨 MATLAB 中正切函数 tan(x)、余切函数 cot(x) 关于 附近数的计算精度问题。 例1. 已知 计算 直接贴图吧&#xff1a; 另外&#xff0c;16位的正确值分别为 -0.7837941516239115e10、-0.1275845192169577e-9、0.4782331334117711e7 与 0.2091030357653982e-…...

国标GB28181视频平台EasyCVR私有化视频平台工地防盗视频监控系统方案

一、方案背景 在当代建筑施工领域&#xff0c;安全监管和防盗监控是保障工程顺利进行和资产安全的关键措施。随着科技进步&#xff0c;传统的监控系统已不足以应对现代工地的安全挑战。因此&#xff0c;基于国标GB28181视频平台EasyCVR的工地防盗视频监控系统应运而生&#xf…...

CUDA系统学习之一软件堆栈架构

一、CPU与GPU体系架构 计算单元分布 CPU: 少量强大的ALU(算术逻辑单元)&#xff0c;通常4-8个核心GPU: 大量小型ALU&#xff0c;成百上千个计算核心特点&#xff1a;GPU更适合并行计算&#xff0c;可以同时处理大量数据控制单元(Control) CPU: 较大的控制单元&#xff0c;复杂的…...

SpringBoot项目中替换指定版本的tomcat

需求&#xff1a;项目使用的SpringBoot框架&#xff0c;因低版本的tomcat的有安全漏洞&#xff0c;根据安全要求需要将项目的tomcat版本升级到9.0.89以上版本。 解决办法&#xff1a; 1、在pom.xml中排除SpringBoot的默认tomcat依赖&#xff1b; <dependency><groupId…...

隐私优先方案:OpenClaw+Qwen3-32B-RTX4090D离线处理医疗记录

隐私优先方案&#xff1a;OpenClawQwen3-32B-RTX4090D离线处理医疗记录 1. 为什么医疗数据必须留在本地&#xff1f; 去年协助某诊所搭建病历管理系统时&#xff0c;我亲历了一次数据泄露恐慌。当诊所负责人发现云端OCR服务商要求上传患者检查报告时&#xff0c;他立即叫停了…...

告别手动重标:基于Python脚本的Labelme数据集增强与JSON同步更新实战

1. 为什么我们需要自动化处理Labelme标注数据 做计算机视觉项目的朋友都知道&#xff0c;数据标注是个体力活。特别是使用Labelme这类工具进行语义分割标注时&#xff0c;每张图片都要手动勾勒物体轮廓&#xff0c;工作量巨大。更让人头疼的是&#xff0c;当我们对原始图片进行…...

多无人机协同打击任务分配方法

随着无人机技术的不断成熟和完善&#xff0c;其军事应用的优势日益显现&#xff0c;近年来其在军事冲突中 所发挥的作用更使人们认识到&#xff0c;无人机在未来战争中将成为重要的军事装备。随着无人机在军 事中的大量应用&#xff0c;无人机集群协同执行任务将成为典型的应用…...

Nunchaku-flux-1-dev在AI编程教学中的应用:代码纠错与优化

Nunchaku-flux-1-dev在AI编程教学中的应用&#xff1a;代码纠错与优化 1. 引言 编程学习过程中&#xff0c;很多初学者都会遇到这样的困境&#xff1a;写出的代码运行报错&#xff0c;却不知道错在哪里&#xff1b;代码虽然能运行&#xff0c;但效率低下、结构混乱&#xff0…...

工业能量:04.选型小Tips:预算2000元玩转工厂电源

04.选型小Tips:预算2000元玩转工厂电源(新手也能选对不踩坑,PLC机器人稳稳的)** 在工厂里,最昂贵的不是设备,而是“停机一秒的代价”。 哎,师傅们,槐树底下风儿吹得正凉快,今天咱不拆原理、不讲高端配置,就聊最接地气的——2000块钱怎么给车间PLC和机器人挑个靠谱心脏…...

终极Hasklig字体完全指南:如何通过编程连字技术提升代码可读性

终极Hasklig字体完全指南&#xff1a;如何通过编程连字技术提升代码可读性 【免费下载链接】Hasklig Hasklig - a code font with monospaced ligatures 项目地址: https://gitcode.com/gh_mirrors/ha/Hasklig Hasklig是一款专为编程设计的等宽字体&#xff0c;通过创新…...

终极视频硬字幕提取指南:本地OCR识别87种语言的完整解决方案

终极视频硬字幕提取指南&#xff1a;本地OCR识别87种语言的完整解决方案 【免费下载链接】video-subtitle-extractor 视频硬字幕提取&#xff0c;生成srt文件。无需申请第三方API&#xff0c;本地实现文本识别。基于深度学习的视频字幕提取框架&#xff0c;包含字幕区域检测、字…...

Scarab:重新定义空洞骑士模组管理体验

Scarab&#xff1a;重新定义空洞骑士模组管理体验 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 在独立游戏模组管理领域&#xff0c;手动复制文件、解决版本冲突和跟踪更新的…...

Leaflet坐标系实战:从设置到动态切换的完整指南

1. Leaflet坐标系基础概念解析 第一次接触Leaflet坐标系时&#xff0c;我也被各种专业术语搞得晕头转向。简单来说&#xff0c;坐标系就是用来确定地图上每个点位置的规则系统。就像我们在地球上使用经纬度定位一样&#xff0c;数字地图也需要明确的坐标参考。 Leaflet默认支持…...

构建语音驱动的智能Agent:集成SenseVoice-Small与AI决策框架

构建语音驱动的智能Agent&#xff1a;集成SenseVoice-Small与AI决策框架 你有没有想过&#xff0c;对着电脑说句话&#xff0c;它就能帮你写代码、查资料、甚至控制智能家居&#xff1f;这听起来像是科幻电影里的场景&#xff0c;但现在&#xff0c;通过将强大的语音识别模型与…...