当前位置: 首页 > news >正文

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

CLIP 模型在视觉-语言预训练领域已经取得了重要进展。然而,原始 CLIP 模型的一个显著局限性是处理长文本描述的能力受限。原始 CLIP 模型的训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征,常常忽视一些较小但潜在关键的细节。为了解决这些限制,该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型,旨在提升对视频的长文本描述的理解能力。其首先构建了一个大规模的视频-长描述配对数据集 VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化高维特征空间的学习。

此外,该工作提出能够理解长描述的视频 CLIP 模型应当体现两个特征:给定一个视频及其相关描述,CLIP 类模型应该对(1)具有更丰富和更精确细节的描述以及(2)在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此,其提出两个新的预训练任务:细节描述排序(DDR)和幻觉描述排序(HDR)。此外,该工作也建立了一个新的视频长描述排序基准测评集(LVDR),来更全面地评估视频 CLIP 模型的性能。

基于多任务课程规划的大语言模型蒸馏算法

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,这篇文章介绍了一个名为 TAPIR 的知识蒸馏框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。并调整多任务配比进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。

该工作创新性地用显式的任务标签配比代替隐式的句向量多样性。在任务重采样的过程中,大大增加数学推理代码类任务的数据比例。首次提出了模型拟合难度 (MFD) 指标,来表示数据难度大小,并在多轮迭代优化的过程中提升困难数据占比。提升模型从弱到强的泛化速度。在 AlpacaEval 排行榜上,我们微调后的 LLaMA2-7B 底座获得了7.8的相对分数,超过了参数量、数据量都远大于我们的知名开源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我们持续优化了 Qwen 系列模型的指令回答能力,优化 Qwen1.5系列模型在 AlpacaEval 榜单上提升3-8个百分点。

产品化服务

上述科研成果也在人工智能平台PAI的各个模块进行了深度的集成和整合,持续为PAI客户提供AI模型训练和推理相关服务。其中,VideoCLIP-XL作为文视频质量评估模块,与EasyAnimate视频生成解决方案无缝融合,支持用户轻松实现文视频语义一致性计算和数据过滤,从而训练AIGC视频生成大模型。在智码实验室,我们也上架了“VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取”的notebook。

用于数据增强和改写的蒸馏模型也已经上架PAI平台,为用户提供简单易用的大模型蒸馏解决方案。基于Qwen2的开源模型,PAI也在开源了DistilQwen2蒸馏小模型系列,进一步提升了模型的指令跟随能力,在HuggingFace和ModelScope开源社区开放下载。

此外,PAI-QuickStart集成了超过50个热门大语言模型,及其多种训练和推理方式,使客户更加简单地微调和部署大语言模型。在未来,我们也将在PAI平台上持续提供业界领先的算法和模型能力给广大客户。

资源链接

文-视频多模态

  • EasyAnimate开源项目:GitHub - aigc-apps/EasyAnimate: 📺 An End-to-End Solution for High-Resolution and Long Video Generation Based on Transformer Diffusion

  • VideoCLIP-XL:https://huggingface.co/alibaba-pai/VideoCLIP-XL

  • VideoCLIP-XL-v2:https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2

  • LVDR数据集:https://huggingface.co/alibaba-pai/LVDR

  • VILD数据集:https://huggingface.co/alibaba-pai/VILD

  • VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取:智码实验室

大模型蒸馏

  • 大语言模型数据增强与模型蒸馏解决方案:大语言模型数据增强与模型蒸馏解决方案_人工智能平台 PAI(PAI)-阿里云帮助中心

  • DistilQwen2蒸馏小模型系列

alibaba-pai/DistilQwen2-7B-Instruct:

  • https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct

  • https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

alibaba-pai/DistilQwen2-1.5B-Instruct:

  • https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct

  • https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

论文汇总

论文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

论文作者:汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文

论文pdf链接:https://arxiv.org/abs/2410.00741

论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

论文作者:岳元浩、汪诚愚、黄俊、王鹏

论文pdf链接:https://arxiv.org/abs/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com

相关文章:

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究&#…...

Spark的Shuffle过程

一、Shuffle 的作用是什么? Shuffle 操作可以理解为将集群中各个节点上的数据进行重新整理和分类的过程。这一概念源自 Hadoop 的 MapReduce 模型,Shuffle 是连接 Map 阶段和 Reduce 阶段的关键环节。在分布式计算中,每个计算节点通常只处理任…...

Java+Swing可视化图像处理软件

JavaSwing可视化图像处理软件 一、系统介绍二、功能展示1.图片裁剪2.图片缩放3.图片旋转4.图像灰度处理5.图像变形6.图像扭曲7.图像移动 三、系统实现1.ImageProcessing.java 四、其它1.其他系统实现2.获取源码 一、系统介绍 该系统实现了图片裁剪、缩放、旋转、图像灰度处理、…...

RDD转换算子:【mapValues、mapPartitions】

文章目录 1、mapValues算子功能语法举例 2、mapPartitions算子功能语法举例 1、mapValues算子 功能 针对二元组KV类型的RDD,对RDD中每个元素的Value进行map处理,结果放入一个新的RDD中 语法 def mapValues(self: RDD[Tuple[K,V]], f: (V) -> U) -…...

数组和指针的复杂关系

C语言中指针和数组的关系似乎很“纠结”,让人爱恨交织。本文试图帮助读者理清它们之间的复杂关系! 数组名的理解 数组元素在内存中是连续存放的,在C语言中,数组名有特殊的含义,它表示数组首元素的地址。因此&#xf…...

Linux系统I/O调优实例

文章目录 一 、资源限制二、测试硬盘速度: 一 、资源限制 限制用户资源配置文件:/etc/security/limits.conf [rootxuegod63 ~]# vim /etc/security/limits.conf 每行的格式: 用户名/用户组名 类型(软限制/硬限制) 选项 值 通常我们在服务器…...

记录Ubuntu OS的异常

PS: 参加过408改卷的ZJU ghsongzju.edu.cn 开启嘲讽: 你们知道408有多简单吗,操作系统真实水平自己知道就行~~ dmesg dmesg 是一个用于显示内核环形缓冲区消息的命令,主要用于查看系统启动时的消息、驱动程序加载信息、硬件错误…...

Vue 3 单元测试与E2E测试

在Vue 3应用的开发过程中,测试是一个至关重要的环节。它不仅能够确保代码的正确性,还能在后续的代码重构和升级过程中提供安全保障。本文将深入探讨Vue 3的单元测试(Unit Testing)和端到端测试(End-to-End Testing, E2…...

猫用空气净化器哪个牌子好?求除毛好、噪音小的宠物空气净化器!

换毛季家里孩子不省心,疯狂掉落的猫毛和空气中乱飞的浮毛可把我折磨死了。每天下班都要抽出时间来清理,不然这个家就不能要了。猫毛靠我自己可以打扫,浮毛还得借助宠物空气净化器这种专业工具。所以我最近着手做功课,打算入手一台…...

第十九课 Vue组件中的方法

Vue组件中的方法 组件中的方法拓展与实例对象中的方法拓展类似 <div id"app"><test></test> </div> <script>Vue.component(test, {template: <input type"button" value"这是个按钮组件" click"fun()…...

【JavaScript】V8,Nodejs 与浏览器

V8 V8 是一个 JavaScript engine&#xff0c;负责编译并执行 JavaScript 源代码&#xff0c;处理对象的内存分配&#xff0c;并对不再需要的对象进行垃圾收集。 V8 包含两个主要组件&#xff1a; Memory Heap&#xff1a;负责存储分配。 Call Stack&#xff1a;代码执行时&am…...

内存马浅析

之前在jianshu上写了很多博客&#xff0c;但是安全相关的最近很多都被锁了。所以准备陆陆续续转到csdn来。内存马前几年一直是个很热门的漏洞攻击手段&#xff0c;因为相对于落地的木马&#xff0c;无文件攻击的内存马隐蔽性、持久性更强&#xff0c;适用的漏洞场景也更多。 J…...

聊一聊Elasticsearch的基本原理与形成机制

1、搜索引擎的基本原理 通常搜索引擎包括&#xff1a;数据采集、文本分析、索引存储、搜索等模块&#xff0c;它们之间的协作流程如下图&#xff1a; 数据采集模块负责采集需要搜索的数据源。 文本分析模块是将结构化数据中的长文本切分成有实际意义的词&#xff0c;这样用户…...

应急救援无人车:用科技守护安全!

一、核心功能 快速进入危险区域&#xff1a; 救援无人车能够迅速进入地震、火灾、洪水等自然灾害或重大事故的现场&#xff0c;这些区域往往对人类救援人员构成极大威胁。 通过自主导航和环境感知技术&#xff0c;无人车能够避开危险区域&#xff0c;确保自身安全的同时&…...

详解Java之Spring MVC篇二

目录 获取Cookie/Session 理解Cookie 理解Session Cookie和Session的区别 获取Cookie 获取Session 获取Header 获取User-Agent 获取Cookie/Session 理解Cookie HTTP协议自身是“无状态”协议&#xff0c;但是在实际开发中&#xff0c;我们很多时候是需要知道请求之间的…...

flutter鸿蒙next 使用 InheritedWidget 实现跨 Widget 传递状态

在 Flutter 中&#xff0c;状态管理是开发过程中一个至关重要的部分。Flutter 提供了多种方式来实现组件间的状态传递&#xff0c;其中一种比较底层的方式是使用 InheritedWidget。虽然 InheritedWidget 主要用于将数据传递给其子树中的小部件&#xff0c;但它也是许多更高级状…...

计算机的错误计算(一百四十六)

摘要 探讨 MATLAB 中正切函数 tan(x)、余切函数 cot(x) 关于 附近数的计算精度问题。 例1. 已知 计算 直接贴图吧&#xff1a; 另外&#xff0c;16位的正确值分别为 -0.7837941516239115e10、-0.1275845192169577e-9、0.4782331334117711e7 与 0.2091030357653982e-…...

国标GB28181视频平台EasyCVR私有化视频平台工地防盗视频监控系统方案

一、方案背景 在当代建筑施工领域&#xff0c;安全监管和防盗监控是保障工程顺利进行和资产安全的关键措施。随着科技进步&#xff0c;传统的监控系统已不足以应对现代工地的安全挑战。因此&#xff0c;基于国标GB28181视频平台EasyCVR的工地防盗视频监控系统应运而生&#xf…...

CUDA系统学习之一软件堆栈架构

一、CPU与GPU体系架构 计算单元分布 CPU: 少量强大的ALU(算术逻辑单元)&#xff0c;通常4-8个核心GPU: 大量小型ALU&#xff0c;成百上千个计算核心特点&#xff1a;GPU更适合并行计算&#xff0c;可以同时处理大量数据控制单元(Control) CPU: 较大的控制单元&#xff0c;复杂的…...

SpringBoot项目中替换指定版本的tomcat

需求&#xff1a;项目使用的SpringBoot框架&#xff0c;因低版本的tomcat的有安全漏洞&#xff0c;根据安全要求需要将项目的tomcat版本升级到9.0.89以上版本。 解决办法&#xff1a; 1、在pom.xml中排除SpringBoot的默认tomcat依赖&#xff1b; <dependency><groupId…...

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 &#xff08;1&#xff09;设置网关 打开VMware虚拟机&#xff0c;点击编辑…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎&#xff1a;品融电商&#xff0c;一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中&#xff0c;品牌如何破浪前行&#xff1f;自建团队成本高、效果难控&#xff1b;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结&#xff1a; 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析&#xff1a; 实际业务去理解体会统一注…...

AI编程--插件对比分析:CodeRider、GitHub Copilot及其他

AI编程插件对比分析&#xff1a;CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展&#xff0c;AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者&#xff0c;分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南

&#x1f680; C extern 关键字深度解析&#xff1a;跨文件编程的终极指南 &#x1f4c5; 更新时间&#xff1a;2025年6月5日 &#x1f3f7;️ 标签&#xff1a;C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言&#x1f525;一、extern 是什么&#xff1f;&…...

UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中&#xff0c;UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

Angular微前端架构:Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例&#xff0c;其中使用的是 Module Federation 和 npx-build-plus 实现了主应用&#xff08;Shell&#xff09;与子应用&#xff08;Remote&#xff09;的集成。 &#x1f6e0;️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

LangFlow技术架构分析

&#x1f527; LangFlow 的可视化技术栈 前端节点编辑器 底层框架&#xff1a;基于 &#xff08;一个现代化的 React 节点绘图库&#xff09; 功能&#xff1a; 拖拽式构建 LangGraph 状态机 实时连线定义节点依赖关系 可视化调试循环和分支逻辑 与 LangGraph 的深…...

VisualXML全新升级 | 新增数据库编辑功能

VisualXML是一个功能强大的网络总线设计工具&#xff0c;专注于简化汽车电子系统中复杂的网络数据设计操作。它支持多种主流总线网络格式的数据编辑&#xff08;如DBC、LDF、ARXML、HEX等&#xff09;&#xff0c;并能够基于Excel表格的方式生成和转换多种数据库文件。由此&…...

智能职业发展系统:AI驱动的职业规划平台技术解析

智能职业发展系统&#xff1a;AI驱动的职业规划平台技术解析 引言&#xff1a;数字时代的职业革命 在当今瞬息万变的就业市场中&#xff0c;传统的职业规划方法已无法满足个人和企业的需求。据统计&#xff0c;全球每年有超过2亿人面临职业转型困境&#xff0c;而企业也因此遭…...