当前位置: 首页 > news >正文

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1:背景动机

目录

  • 1 简单概括
  • 2 几个重要发现
  • 3 主要贡献
  • 4 背景知识
  • 5 方法简介

论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE

论文地址:Online,ArXiv,GItHub

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

1 简单概括

在现实世界中物体的类别数量,包括大预言模型的Token数量,通常是巨大的,每个实例可能包含多个标签。为了利用机器学习来区分这些大量的标签,极限标签分类(XLC)任务应运而生。然而,随着类别数量的增加,分类器中参数和非线性操作的数量也会增加。这就导致了分类器计算过载问题(CCOP)。为了解决这个问题,本文提出了一个多头编码(MHE)机制,它用多头分类器取代了传统的分类器。在训练过程中,MHE将极端标签分解成多个短局部标签的乘积,每个头部都在这些局部标签上进行训练。在测试过程中,可以直接从每个头部的局部预测中计算出预测标签。这在几何上减少了计算负荷。然后,根据不同XLC任务的特点,如单标签、多标签和模型预训练任务,提出了3种基于mhe的实现方法,即多头产品、多头级联和多头采样,以更有效地应对CCOP。此外,本文从理论上证明了MHE可以通过将低秩近似问题从Frobenius-norm推广到交叉熵来实现与香草分类器近似等效的性能。实验结果表明,该方法在显著简化XLC任务的训练和推理过程的同时,达到了最先进的性能。
在这里插入图片描述

ChatGPT-4O的Token数量是惊人的,Token数量的增多,是为了提升输出结果向人类知识对齐;

2 几个重要发现

  • 在单标签分类中,多头编码(MHE)等同于独热编码(OHE)。
    在这里插入图片描述
  • 使用交叉熵(Cross-Entropy)训练低秩网络,以softmax作为损失函数,可以恢复与普通分类器相同的准确率,只要权重为秩 R ( [ W , B ] ) > 1 R([W,B])>1 R([W,B])>1即可。也就是,只要存在偏置的情况下,多头编码可完美回复分类精度。在这里插入图片描述
  • 当标签与数据过拟合时,模型泛化与标签的语义无关。
    在这里插入图片描述
  • 对于极限分类问题,标签预处理技术,如标签层级树(HLT)和标签聚类(LC),是不必要的,因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度,而且可以实现多gpu并行加速。
    在这里插入图片描述

3 主要贡献

  • 针对极限标签分类(XLC)任务中参数过重的问题,提出了一种MHE机制,并对其参数进行几何缩减,同时从理论上分析了其表示能力。
  • 将低秩逼近问题从Frobenius -范数度量推广到交叉熵(CE)度量,发现非线性运算可以大大降低分类器对其权重秩的依赖。
  • 设计了三种基于mhe的方法,从统一的角度应用不同的极限标签分类(XLC)任务,实验结果表明,这三种方法都达到了SOTA性能,并提供了强有力的基准。
  • MHE可以任意划分标签空间,使其灵活适用于任何XLC任务,包括图像分类、人脸识别、多标签极限分类和神经机器翻译(NMT)等。
  • MHC对标签空间没有限制,放弃了标签层级树(HLT)和标签聚类(LC)等技术,从而大大简化了模型在XMC任务上的训练和推理过程。

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号,获取更多资讯
在这里插入图片描述

4 背景知识

在现实世界中,存在着数以百万计的生物物种、无数的非生命物体和巨大的自然语言词汇。为了区分这些海量实例的类别,需要使用极限标签分类(XLC) [ 1,2 ] ,导致分类器中参数数量和非线性操作的急剧增加。这种现象被称为分类器计算过载问题(CCOP),由于棘手的计算和存储需求,使得使用单热编码(OHE)或多标签学习算法的现有机器学习方法变得难以实用。

目前,XLC 的主要任务包括极限单标签分类(XSLC)、极限多标签分类(XMLC)和模型预训练。对于XSLC,采用基于采样的[ 1,3,4 ]和基于softmax的[ 2,5,6 ]方法来训练神经语言模型,降低了计算输出的复杂度。对于XMLC,例如多标签文本分类,许多研究人员利用一对多[ 7,8,9,10 ] ,层次标签树(HLT ) [ 11,12,13,14,15 ] ,标签聚类( LC) [ 16 , 17 , 18 , 19 ]等,标签预处理技术分解极端将标签放入小且易于处理的标签空间中。对于模型预训练任务,例如人脸识别,预训练模型必须在包含数百万张人脸的数据集上进行训练。因此, [ 20 ]和[ 21 ]中的作者采用哈希森林或随机采样方法来近似原始 OHE。

5 方法简介

在这里插入图片描述

图 1 :深度神经网络由三部分组成:输入、主干和分类器。在多头编码中,在训练期间将标签分解到多头分类器的输出上,并在测试中组合输出以获得预测标签。

与上述方法不同的是,如图1所示,本文将原始分类器分解为多个头,并将极端标签概念化为高维空间中的点。在训练过程中,极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积,从而几何地减少极端标签的编码长度。测试时,每个头贡献一个坐标分量,形成高维空间中的一个点,可以将其投影到整数轴上以获得极值标签。由于极端标签可以根据局部标签的编码信息计算出来,因此本文将这种机制称为多头编码(MHE)。

基于它们的推理方法和应用场景,MHE可以应用于各种XLC任务,例如XSLC、XMLC和模型预训练。本文提出了 MHE 的三种算法实现,如图2所示。首先,为XSLC设计了多头积(MHP)算法。该算法直接采用乘积运算来组合分类头,计算速度快,性能值得称赞。其次,为XMLC设计了多头级联(MHC)算法。 MHC也采用乘积运算,但在头之间构建顺序级联以消除多标签表示中的歧义。最后,设计了多头采样(MHS)算法用于模型预训练。 MHS 不结合多头。相反,每次只训练与真实标签相对应的本地头。这三种算法在各种 XLC 任务中都取得了相当大的性能和速度优势。
在这里插入图片描述

三个基于mhe的XLC任务培训和测试流程。红色虚线框表示的部分是为了 方便理解,在实践中不需要。

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

相关文章:

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1:背景动机

目录 1 简单概括2 几个重要发现3 主要贡献4 背景知识5 方法简介 论文:Multi-Head Encoding for Extreme Label Classification 作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang 单位:山东大学 代码:https://gi…...

使用hardhat进行合约测试

演示源码:hardhat-demo: 演示基于hardhat的HelloWord合约测试案例。 环境 NodeJs 创建工程 1.创建一个hardhat工程根目录(hardhat-demo),然后进入该目录执行。 npx hardhat执行该命令,会进行hardhat工程初始化。 提示我们是否安装该版本h…...

基于生成式对抗网络(GAN)的前沿研究与应用

引言 人工智能(AI)领域在过去几年中经历了快速的发展,尤其是深度学习的兴起带来了许多变革。其中,生成式对抗网络(Generative Adversarial Network, GAN)因其强大的生成能力成为了研究热点。自2014年Ian G…...

Apache zookeeper集群搭建

文章目录 引言I 集群搭建保证服务器基础环境一致JDK安装与配置环境变量安装与修改zk配置文件同步zk安装包与配置文件zk集群启停查看进程、状态、日志II 扩展:shell脚本一键启停引言 springCloud 脚手架项目功能模块:Java分布式锁 https://blog.csdn.net/z929118967/article/d…...

cmake使用记录

Android相关 编译一个动态库,到指定的目录 cmake_minimum_required(VERSION 3.22.1) set(CMAKE_LIBRARY_OUTPUT_DIRECTORY ${CMAKE_CURRENT_SOURCE_DIR}/../v2x_algo_output/${ANDROID_ABI}) project("serial_port") include_directories(include) add_…...

nginx http反向代理

系统:Ubuntu_24.0.4 1、安装nginx sudo apt-get update sudo apt-get install nginx sudo systemctl start nginx 2、配置nginx.conf文件 /etc/nginx/nginx.conf,但可以在 /etc/nginx/sites-available/ 目录下创建一个新的配置文件,并在…...

实数的奥秘:柯西序列深度解析

实数的奥秘:柯西序列深度解析 一、柯西序列的概念与性质二、柯西序列定义无理数三、柯西序列定义实数系统 实数,是初中学到的概念,我知都知道它是有理数和无理数的统称。 然而,实数可不只是小数点后的一堆零碎儿,它背后…...

信息系统管理师试题-人力资源

信息系统管理师试题-人力资源 当组织计划的人力资源需求超过供给时,可通过下列方法解决,其中不包括() A降低录用标准,招聘新员工 B增加临时性员工和使用退休员工 C减少加班数量或工作时间 D提高员工工作效率 答案C 下…...

补偿电阻对ota零极点的影响

本文内容主要是关于补偿电阻对零极点产生的影响。 1.极点分析 该补偿电阻并不会影响在输出端的主极点,受影响的主要是镜像极点。 这里我们可以先单看电流镜部分,这个补偿电阻的作用在于将极点推向原来的两倍,从而达到增加带宽的目的[1]。 …...

UVM: uvm_sequence

topcic sequence overview sequence excution flow sequence class callbacks sequencer driver communication...

编译技术实验三之编译器的构造和设计

一、实验目的: 我们将设计多个不同的综合实验项目提供给学生选择。(如:LL(1)文法自动生成语法分析程序的设计;单词的自动识别与智能纠错;语言的程序编辑器;数学计算式的识别等)学生可在这些项目中选择1个项…...

数据挖掘——数据预处理

数据挖掘——数据预处理 数据预处理数据预处理 ——主要任务数据清洗如何处理丢失的数据如何处理噪声数据如何处理不一致数据 数据集成相关分析相关系数(也成为皮尔逊相关系数)协方差 数据规约降维法:PCA主成分分析降数据——抽样法数据压缩 数据预处理 数据预处理…...

ECharts饼图下钻

背景:项目上需要对Echarts饼图进行功能定制,实现点击颜色块,下钻显示下一层级占比说明:饼图实现点击下钻/面包屑返回的功能 数据结构 [{name: a,value: 1,children: [...]},... ]点击下钻 // 为图表绑定点击事件(需要…...

【RK3568笔记】Android修改开机动画

概述 Android 的开机动画是由一系列连续的 PNG 图片作为帧组成的动画形式,不是一张 GIF 图片。将各帧 PNG 图片以压缩方式进行保存(压缩方式要求是存储压缩),并将保存的文件名命名为 bootanimation.zip,这个 bootanim…...

嵌入式技术之Linux(Ubuntu) 一

一、Linux入门 1.硬件和操作系统以及用户的关系 一个传感器,获得数据后,需要向服务器发送数据。传感器传数据给上位机。 上位机需要一个程序来接收数据,那么这个上位机是什么机器? 我们的笔记本电脑就可以当成上位机。 两个手…...

代码随想录day39 动态规划7

打家劫舍 题目:198.打家劫舍 213.打家劫舍II 337.打家劫舍III 需要重做:全部 198.打家劫舍 思路:第i个房子偷与不偷,取决于第i-2个房子和第i-1个房子 注意:注意下标的一致性。现在的下标含义是房子的下标&#x…...

ESP32-S3模组上实现低功耗(5)

接前一篇文章:ESP32-S3模组上实现低功耗(4) 本文内容参考: 系统低功耗模式介绍 - ESP32-S3 - — ESP-IDF 编程指南 latest 文档 电源管理 - ESP32-S3 - — ESP-IDF 编程指南 latest 文档...

PDF转文本以及转图片:itextpdf

文章目录 🐒个人主页:信计2102罗铠威🏅JavaEE系列专栏📖前言:🎀 1. itextpdf1.1导入itextpdf的maven依赖1.2 提取文本代码1.3 pdf转换成图片代码(本地图片地址还是线上PDF的URL地址均支持&#…...

AnaConda下载PyTorch慢的解决办法

使用Conda下载比较慢,改为pip下载 复制下载链接到迅雷下载 激活虚拟环境,安装whl,即可安装成功 pip install D:\openai.wiki\ChatGLM2-6B\torch-2.4.1cu121-cp38-cp38-win_amd64.whl...

移动端自动化测试Appium-java

一、Appium的简介 移动端的自动化测试框架 模拟人的操作进行功能自动化常用于功能测试、兼容性测试 跨平台的自动化测试 二、Appium的原理 核心是web服务器,接受客户端的连接,接收客户端的命令,在手机设备上执行命令,收集命令…...

VASP 教程:VASP 结合 Phonopy 计算硅的比热容

VASP 全称为 Vienna Ab initio Simulation Package(The VASP Manual - VASP Wiki)是一个计算机程序,用于从第一性原理进行原子尺度材料建模,例如电子结构计算和量子力学分子动力学。 Phonopy(Welcome to phonopy — Ph…...

互联网大厂Java求职面试:云原生微服务架构设计与AI大模型集成实战

互联网大厂Java求职面试:云原生微服务架构设计与AI大模型集成实战 面试场景设定 人物设定: 李明(技术总监):拥有15年分布式系统架构经验,主导过多个亿级用户系统的重构,对云原生和AI融合有深…...

【Prometheus+Grafana实战:搭建监控系统(含告警配置)】

什么是Prometheus和Grafana? Prometheus:一款开源的监控告警工具,擅长时序数据存储和多维度查询(通过PromQL),采用Pull模型主动抓取目标指标。Grafana:数据可视化平台,支持多种数据…...

一文速通Python并行计算:11 Python多进程编程-进程之间的数据安全传输-基于队列和管道

一文速通 Python 并行计算:11 Python 多进程编程-进程之间的数据安全传输-基于队列和管道 摘要: Python 多进程中,Queue 和 Pipe 提供进程间安全通信。Queue 依赖锁和缓冲区,保障数据原子性和有序性;Pipe 实现点对点单…...

apache的commons-pool2原理与使用详解

Apache Commons Pool2 是一个高效的对象池化框架,通过复用昂贵资源(如数据库连接、线程、网络连接)优化系统性能。 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击…...

Python爬虫实战:抓取百度15天天气预报数据

🌐 编程基础第一期《9-30》–使用python中的第三方模块requests,和三个内置模块(re、json、pprint),实现百度地图的近15天天气信息抓取 记得安装 pip install requests📑 项目介绍 网络爬虫是Python最受欢迎的应用场景之一&…...

arcgis字段计算器中计算矢量面的每个点坐标

python脚本 函数 def ExportCoordinates(feat):coors = []partnum = 0partcount = feat.partCountwhile partnum < partcount:part = feat.getPart(partnum)pnt = part.next()while pnt:coors.append("({}, {})".format(pnt.X,pnt.Y))pnt = part.next()if not p…...

mysql执行sql语句报错事务锁住

报错情况 1205 - Lock wait timeout exceeded; try restarting transaction先找出长时间运行的事务 SELECT * FROM information_schema.INNODB_TRX ORDER BY trx_started ASC;终止长时间运行的事务 KILL [PROCESS_ID];...

BiLSTM与Transformer:位置编码的隐式vs显式之争

BiLSTM 与使用位置编码的LLM(如Transformer)的核心区别 一、架构原理对比 维度BiLSTM带位置编码的LLM(如Transformer)基础单元LSTM单元(记忆细胞、门控机制)自注意力机制(Self-Attention)信息传递双向链式传播(前向+后向LSTM)并行多头注意力,全局上下文关联位置信息…...

AI in Game,大模型能力与实时音视频技术融合,交出AI应用新答卷

随着AI的技术进步和工具普及&#xff0c;尤其是在这两年的跃进之后&#xff0c;AI在游戏行业内的应用已经逐步由理念设想推向落地实践。从蔡浩宇披露的AI新游《Whispers From The Star》到GDC上各大厂家呈现的游戏AI新亮点&#xff0c;我们看到了更多AI与游戏的结合方式&#x…...