当前位置：首页 > news >正文

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

news 2026/2/9 22:04:45

近期，阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议，聚焦于自然语言处理技术在各个应用场景的学术研究，尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新，在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

CLIP 模型在视觉-语言预训练领域已经取得了重要进展。然而，原始 CLIP 模型的一个显著局限性是处理长文本描述的能力受限。原始 CLIP 模型的训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征，常常忽视一些较小但潜在关键的细节。为了解决这些限制，该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型，旨在提升对视频的长文本描述的理解能力。其首先构建了一个大规模的视频-长描述配对数据集 VILD，并在预训练阶段提出了一种文本相似度引导的主成分匹配方法（TPCM）来优化高维特征空间的学习。

此外，该工作提出能够理解长描述的视频 CLIP 模型应当体现两个特征：给定一个视频及其相关描述，CLIP 类模型应该对（1）具有更丰富和更精确细节的描述以及（2）在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此，其提出两个新的预训练任务：细节描述排序（DDR）和幻觉描述排序（HDR）。此外，该工作也建立了一个新的视频长描述排序基准测评集（LVDR），来更全面地评估视频 CLIP 模型的性能。

基于多任务课程规划的大语言模型蒸馏算法

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型，使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型（如GPT-4， Qwen-max）来自动蒸馏和标注指令的方法，但这些研究往往忽视了微调训练集中任务的多样性分布，以及训练集中指令难度的差异，这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战，这篇文章介绍了一个名为 TAPIR 的知识蒸馏框架，它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力，在蒸馏和多轮迭代过程中，使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令，进行难度重采样。并调整多任务配比进行训练集中的任务多样性分布的重采样，并根据相应多任务特点自动优化教师模型的回答风格。

该工作创新性地用显式的任务标签配比代替隐式的句向量多样性。在任务重采样的过程中，大大增加数学推理代码类任务的数据比例。首次提出了模型拟合难度 (MFD) 指标，来表示数据难度大小，并在多轮迭代优化的过程中提升困难数据占比。提升模型从弱到强的泛化速度。在 AlpacaEval 排行榜上，我们微调后的 LLaMA2-7B 底座获得了7.8的相对分数，超过了参数量、数据量都远大于我们的知名开源模型模型（LLaMA2-Chat-13B，Vicuna 13B）。我们持续优化了 Qwen 系列模型的指令回答能力，优化 Qwen1.5系列模型在 AlpacaEval 榜单上提升3-8个百分点。

产品化服务

上述科研成果也在人工智能平台PAI的各个模块进行了深度的集成和整合，持续为PAI客户提供AI模型训练和推理相关服务。其中，VideoCLIP-XL作为文视频质量评估模块，与EasyAnimate视频生成解决方案无缝融合，支持用户轻松实现文视频语义一致性计算和数据过滤，从而训练AIGC视频生成大模型。在智码实验室，我们也上架了“VideoCLIP-XL：面向超长文本的文视频跨模态特征抽取”的notebook。

用于数据增强和改写的蒸馏模型也已经上架PAI平台，为用户提供简单易用的大模型蒸馏解决方案。基于Qwen2的开源模型，PAI也在开源了DistilQwen2蒸馏小模型系列，进一步提升了模型的指令跟随能力，在HuggingFace和ModelScope开源社区开放下载。

此外，PAI-QuickStart集成了超过50个热门大语言模型，及其多种训练和推理方式，使客户更加简单地微调和部署大语言模型。在未来，我们也将在PAI平台上持续提供业界领先的算法和模型能力给广大客户。

资源链接

文-视频多模态

EasyAnimate开源项目：GitHub - aigc-apps/EasyAnimate: 📺 An End-to-End Solution for High-Resolution and Long Video Generation Based on Transformer Diffusion
VideoCLIP-XL：https://huggingface.co/alibaba-pai/VideoCLIP-XL
VideoCLIP-XL-v2：https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2
LVDR数据集：https://huggingface.co/alibaba-pai/LVDR
VILD数据集：https://huggingface.co/alibaba-pai/VILD
VideoCLIP-XL：面向超长文本的文视频跨模态特征抽取：智码实验室

大模型蒸馏

大语言模型数据增强与模型蒸馏解决方案：大语言模型数据增强与模型蒸馏解决方案_人工智能平台 PAI(PAI)-阿里云帮助中心
DistilQwen2蒸馏小模型系列

alibaba-pai/DistilQwen2-7B-Instruct：

https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct
https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

alibaba-pai/DistilQwen2-1.5B-Instruct：

https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct
https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

论文汇总

论文名字：VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

论文作者：汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文

论文pdf链接：https://arxiv.org/abs/2410.00741

论文名字：Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

论文作者：岳元浩、汪诚愚、黄俊、王鹏

论文pdf链接：https://arxiv.org/abs/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用，重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询：chengyu.wcy@alibaba-inc.com。

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

基于多任务课程规划的大语言模型蒸馏算法

产品化服务

资源链接

论文汇总

相关文章：

【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

Spark的Shuffle过程

Java+Swing可视化图像处理软件

RDD转换算子：【mapValues、mapPartitions】

数组和指针的复杂关系

Linux系统I/O调优实例

记录Ubuntu OS的异常

Vue 3 单元测试与E2E测试

猫用空气净化器哪个牌子好？求除毛好、噪音小的宠物空气净化器！

第十九课 Vue组件中的方法

【JavaScript】V8，Nodejs 与浏览器

内存马浅析

聊一聊Elasticsearch的基本原理与形成机制

应急救援无人车:用科技守护安全！

详解Java之Spring MVC篇二

flutter鸿蒙next 使用 InheritedWidget 实现跨 Widget 传递状态

计算机的错误计算（一百四十六）

国标GB28181视频平台EasyCVR私有化视频平台工地防盗视频监控系统方案

CUDA系统学习之一软件堆栈架构

SpringBoot项目中替换指定版本的tomcat

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

2.Vue编写一个app

大语言模型如何处理长文本？常用文本分割技术详解

Neo4j 集群管理：原理、技术与最佳实践深度解析

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

Mobile ALOHA全身模仿学习

AI，如何重构理解、匹配与决策？

Pinocchio 库详解及其在足式机器人上的应用

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

Golang——9、反射和文件操作