当前位置: 首页 > news >正文

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

CLIP 模型在视觉-语言预训练领域已经取得了重要进展。然而,原始 CLIP 模型的一个显著局限性是处理长文本描述的能力受限。原始 CLIP 模型的训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征,常常忽视一些较小但潜在关键的细节。为了解决这些限制,该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型,旨在提升对视频的长文本描述的理解能力。其首先构建了一个大规模的视频-长描述配对数据集 VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化高维特征空间的学习。

此外,该工作提出能够理解长描述的视频 CLIP 模型应当体现两个特征:给定一个视频及其相关描述,CLIP 类模型应该对(1)具有更丰富和更精确细节的描述以及(2)在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此,其提出两个新的预训练任务:细节描述排序(DDR)和幻觉描述排序(HDR)。此外,该工作也建立了一个新的视频长描述排序基准测评集(LVDR),来更全面地评估视频 CLIP 模型的性能。

基于多任务课程规划的大语言模型蒸馏算法

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,这篇文章介绍了一个名为 TAPIR 的知识蒸馏框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。并调整多任务配比进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。

该工作创新性地用显式的任务标签配比代替隐式的句向量多样性。在任务重采样的过程中,大大增加数学推理代码类任务的数据比例。首次提出了模型拟合难度 (MFD) 指标,来表示数据难度大小,并在多轮迭代优化的过程中提升困难数据占比。提升模型从弱到强的泛化速度。在 AlpacaEval 排行榜上,我们微调后的 LLaMA2-7B 底座获得了7.8的相对分数,超过了参数量、数据量都远大于我们的知名开源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我们持续优化了 Qwen 系列模型的指令回答能力,优化 Qwen1.5系列模型在 AlpacaEval 榜单上提升3-8个百分点。

产品化服务

上述科研成果也在人工智能平台PAI的各个模块进行了深度的集成和整合,持续为PAI客户提供AI模型训练和推理相关服务。其中,VideoCLIP-XL作为文视频质量评估模块,与EasyAnimate视频生成解决方案无缝融合,支持用户轻松实现文视频语义一致性计算和数据过滤,从而训练AIGC视频生成大模型。在智码实验室,我们也上架了“VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取”的notebook。

用于数据增强和改写的蒸馏模型也已经上架PAI平台,为用户提供简单易用的大模型蒸馏解决方案。基于Qwen2的开源模型,PAI也在开源了DistilQwen2蒸馏小模型系列,进一步提升了模型的指令跟随能力,在HuggingFace和ModelScope开源社区开放下载。

此外,PAI-QuickStart集成了超过50个热门大语言模型,及其多种训练和推理方式,使客户更加简单地微调和部署大语言模型。在未来,我们也将在PAI平台上持续提供业界领先的算法和模型能力给广大客户。

资源链接

文-视频多模态

  • EasyAnimate开源项目:GitHub - aigc-apps/EasyAnimate: 📺 An End-to-End Solution for High-Resolution and Long Video Generation Based on Transformer Diffusion

  • VideoCLIP-XL:https://huggingface.co/alibaba-pai/VideoCLIP-XL

  • VideoCLIP-XL-v2:https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2

  • LVDR数据集:https://huggingface.co/alibaba-pai/LVDR

  • VILD数据集:https://huggingface.co/alibaba-pai/VILD

  • VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取:智码实验室

大模型蒸馏

  • 大语言模型数据增强与模型蒸馏解决方案:大语言模型数据增强与模型蒸馏解决方案_人工智能平台 PAI(PAI)-阿里云帮助中心

  • DistilQwen2蒸馏小模型系列

alibaba-pai/DistilQwen2-7B-Instruct:

  • https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct

  • https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

alibaba-pai/DistilQwen2-1.5B-Instruct:

  • https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct

  • https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

论文汇总

论文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

论文作者:汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文

论文pdf链接:https://arxiv.org/abs/2410.00741

论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

论文作者:岳元浩、汪诚愚、黄俊、王鹏

论文pdf链接:https://arxiv.org/abs/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com

相关文章:

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究&#…...

Spark的Shuffle过程

一、Shuffle 的作用是什么? Shuffle 操作可以理解为将集群中各个节点上的数据进行重新整理和分类的过程。这一概念源自 Hadoop 的 MapReduce 模型,Shuffle 是连接 Map 阶段和 Reduce 阶段的关键环节。在分布式计算中,每个计算节点通常只处理任…...

Java+Swing可视化图像处理软件

JavaSwing可视化图像处理软件 一、系统介绍二、功能展示1.图片裁剪2.图片缩放3.图片旋转4.图像灰度处理5.图像变形6.图像扭曲7.图像移动 三、系统实现1.ImageProcessing.java 四、其它1.其他系统实现2.获取源码 一、系统介绍 该系统实现了图片裁剪、缩放、旋转、图像灰度处理、…...

RDD转换算子:【mapValues、mapPartitions】

文章目录 1、mapValues算子功能语法举例 2、mapPartitions算子功能语法举例 1、mapValues算子 功能 针对二元组KV类型的RDD,对RDD中每个元素的Value进行map处理,结果放入一个新的RDD中 语法 def mapValues(self: RDD[Tuple[K,V]], f: (V) -> U) -…...

数组和指针的复杂关系

C语言中指针和数组的关系似乎很“纠结”,让人爱恨交织。本文试图帮助读者理清它们之间的复杂关系! 数组名的理解 数组元素在内存中是连续存放的,在C语言中,数组名有特殊的含义,它表示数组首元素的地址。因此&#xf…...

Linux系统I/O调优实例

文章目录 一 、资源限制二、测试硬盘速度: 一 、资源限制 限制用户资源配置文件:/etc/security/limits.conf [rootxuegod63 ~]# vim /etc/security/limits.conf 每行的格式: 用户名/用户组名 类型(软限制/硬限制) 选项 值 通常我们在服务器…...

记录Ubuntu OS的异常

PS: 参加过408改卷的ZJU ghsongzju.edu.cn 开启嘲讽: 你们知道408有多简单吗,操作系统真实水平自己知道就行~~ dmesg dmesg 是一个用于显示内核环形缓冲区消息的命令,主要用于查看系统启动时的消息、驱动程序加载信息、硬件错误…...

Vue 3 单元测试与E2E测试

在Vue 3应用的开发过程中,测试是一个至关重要的环节。它不仅能够确保代码的正确性,还能在后续的代码重构和升级过程中提供安全保障。本文将深入探讨Vue 3的单元测试(Unit Testing)和端到端测试(End-to-End Testing, E2…...

猫用空气净化器哪个牌子好?求除毛好、噪音小的宠物空气净化器!

换毛季家里孩子不省心,疯狂掉落的猫毛和空气中乱飞的浮毛可把我折磨死了。每天下班都要抽出时间来清理,不然这个家就不能要了。猫毛靠我自己可以打扫,浮毛还得借助宠物空气净化器这种专业工具。所以我最近着手做功课,打算入手一台…...

第十九课 Vue组件中的方法

Vue组件中的方法 组件中的方法拓展与实例对象中的方法拓展类似 <div id"app"><test></test> </div> <script>Vue.component(test, {template: <input type"button" value"这是个按钮组件" click"fun()…...

【JavaScript】V8,Nodejs 与浏览器

V8 V8 是一个 JavaScript engine&#xff0c;负责编译并执行 JavaScript 源代码&#xff0c;处理对象的内存分配&#xff0c;并对不再需要的对象进行垃圾收集。 V8 包含两个主要组件&#xff1a; Memory Heap&#xff1a;负责存储分配。 Call Stack&#xff1a;代码执行时&am…...

内存马浅析

之前在jianshu上写了很多博客&#xff0c;但是安全相关的最近很多都被锁了。所以准备陆陆续续转到csdn来。内存马前几年一直是个很热门的漏洞攻击手段&#xff0c;因为相对于落地的木马&#xff0c;无文件攻击的内存马隐蔽性、持久性更强&#xff0c;适用的漏洞场景也更多。 J…...

聊一聊Elasticsearch的基本原理与形成机制

1、搜索引擎的基本原理 通常搜索引擎包括&#xff1a;数据采集、文本分析、索引存储、搜索等模块&#xff0c;它们之间的协作流程如下图&#xff1a; 数据采集模块负责采集需要搜索的数据源。 文本分析模块是将结构化数据中的长文本切分成有实际意义的词&#xff0c;这样用户…...

应急救援无人车:用科技守护安全!

一、核心功能 快速进入危险区域&#xff1a; 救援无人车能够迅速进入地震、火灾、洪水等自然灾害或重大事故的现场&#xff0c;这些区域往往对人类救援人员构成极大威胁。 通过自主导航和环境感知技术&#xff0c;无人车能够避开危险区域&#xff0c;确保自身安全的同时&…...

详解Java之Spring MVC篇二

目录 获取Cookie/Session 理解Cookie 理解Session Cookie和Session的区别 获取Cookie 获取Session 获取Header 获取User-Agent 获取Cookie/Session 理解Cookie HTTP协议自身是“无状态”协议&#xff0c;但是在实际开发中&#xff0c;我们很多时候是需要知道请求之间的…...

flutter鸿蒙next 使用 InheritedWidget 实现跨 Widget 传递状态

在 Flutter 中&#xff0c;状态管理是开发过程中一个至关重要的部分。Flutter 提供了多种方式来实现组件间的状态传递&#xff0c;其中一种比较底层的方式是使用 InheritedWidget。虽然 InheritedWidget 主要用于将数据传递给其子树中的小部件&#xff0c;但它也是许多更高级状…...

计算机的错误计算(一百四十六)

摘要 探讨 MATLAB 中正切函数 tan(x)、余切函数 cot(x) 关于 附近数的计算精度问题。 例1. 已知 计算 直接贴图吧&#xff1a; 另外&#xff0c;16位的正确值分别为 -0.7837941516239115e10、-0.1275845192169577e-9、0.4782331334117711e7 与 0.2091030357653982e-…...

国标GB28181视频平台EasyCVR私有化视频平台工地防盗视频监控系统方案

一、方案背景 在当代建筑施工领域&#xff0c;安全监管和防盗监控是保障工程顺利进行和资产安全的关键措施。随着科技进步&#xff0c;传统的监控系统已不足以应对现代工地的安全挑战。因此&#xff0c;基于国标GB28181视频平台EasyCVR的工地防盗视频监控系统应运而生&#xf…...

CUDA系统学习之一软件堆栈架构

一、CPU与GPU体系架构 计算单元分布 CPU: 少量强大的ALU(算术逻辑单元)&#xff0c;通常4-8个核心GPU: 大量小型ALU&#xff0c;成百上千个计算核心特点&#xff1a;GPU更适合并行计算&#xff0c;可以同时处理大量数据控制单元(Control) CPU: 较大的控制单元&#xff0c;复杂的…...

SpringBoot项目中替换指定版本的tomcat

需求&#xff1a;项目使用的SpringBoot框架&#xff0c;因低版本的tomcat的有安全漏洞&#xff0c;根据安全要求需要将项目的tomcat版本升级到9.0.89以上版本。 解决办法&#xff1a; 1、在pom.xml中排除SpringBoot的默认tomcat依赖&#xff1b; <dependency><groupId…...

【5.10】指针算法-快慢指针将有序链表转二叉搜索树

一、题目 给定一个单链表&#xff0c;其中的 元素按升序排序 &#xff0c;将其转换为 高度平衡的二叉搜索树 。 本题中&#xff0c;一个高度平衡二叉树是指一个二叉树每个节点的左右两个子树的高度差的绝对值不超过 1。 示例: 给定的有序链表&#xff1a; [ -10 , -3 , 0 , …...

机器学习—前向传播的一般实现

可以写一个函数来实现一个密集的层&#xff0c;那是神经网络的单层&#xff0c;所以定义稠密函数&#xff0c;它将上一层的激活作为输入以及给定层神经元的参数w和b。看下边图片所展示的例子&#xff0c;把所有这些权重向量堆叠成一个矩阵&#xff0c;wnp.array([[1,-3,5][2,4,…...

极狐GitLab 签约足下科技,加速国产智驾操作系统的发展与普及

客户背景 足下科技是一家致力于成为智能汽车软件平台、产品与服务领导者的高科技企业&#xff0c;成立于 2022年 3 月&#xff0c;总部位于深圳市。足下科技自主研发的智能驾驶操作系统 Earth 和 Air 工具链&#xff0c;协助OEM和Tier1厂商降低算法和软件开发难度&#xff0c;…...

20241102在荣品PRO-RK3566开发板的预置Android13下适配宸芯的数传模块CX6603N

20241102在荣品PRO-RK3566开发板的预置Android13下适配宸芯的数传模块CX6603N 2024/11/2 18:04 在WIN10使用程序&#xff1a;ViewLink-4.0.7_0708-windows-x64.exe 在荣品PRO-RK3566开发板的预置Android13下使用&#xff1a;ViewLink-2023_12_21-release-0.2.6.apk adb install…...

力扣(leetcode)题目总结——哈希表篇

leetcode 经典题分类 链表数组字符串哈希表二分法双指针滑动窗口递归/回溯动态规划二叉树辅助栈 本系列专栏&#xff1a;点击进入 leetcode题目分类 关注走一波 前言&#xff1a;本系列文章初衷是为了按类别整理出力扣&#xff08;leetcode&#xff09;最经典题目&#xff0c…...

AWS RDS Oracle hit ORA-39405

报错信息&#xff1a; ORA-39405: Oracle Data Pump does not support importing from a source database with TSTZ version 42 into a target database with TSTZ version 35. 分析过程&#xff1a; 这个报错是由于timezone_file的版本&#xff0c;源端比目标端高&#xf…...

Dinky中配置Flink集群

需要启动yarn-session 进程&#xff0c;在集群服务器 cd /pwd//flink/bin yarn-session -d 启动成功后可以在yarn的资源管理队列进行查看 启动成功后会给出&#xff1a;JobManager Web Interface 在dinky中进行配置&#xff1a; 集群配置 Hadoop 配置&#xff1a; H…...

通讯录(C 语言)

目录 一、通讯录设计思路1. 伪代码设计思路2. 代码设计思路 二、代码实现三、程序运行演示四、整体分析 一、通讯录设计思路 1. 伪代码设计思路 通讯录可以用来存储 100 个人的信息&#xff0c;每个人的信息包括&#xff1a;姓名、性别、年龄、电话、住址。 提供方法&#x…...

对比Java和TypeScript中的服务注册和查找机制

文章目录 一、Java中的服务注册和查找二、TypeScript中的服务注册和查找2.1 使用依赖注入&#xff08;DI&#xff09;框架2.2 injectable原理2.3 使用TypeScript的反射系统实现依赖注入 三、优缺点分析3.1 Java的ServiceLoader3.2 TypeScript的服务注册和查找 四、结论 在构建大…...

Flutter 主流常用第三方库、插件收集

一、Flutter 学习资料 FlutterFlutter官网Flutter中文网咸鱼技术掘金Flutter专栏 Flutter - Dart中(.)、(..)、(...)语法使用_flutter ...-CSDN博客 Flutter pubspec.yaml 配置文件_flutter yaml配置git-CSDN博客 Flutter 添加 example流程_建flutter 工程 怎么自动有example-C…...