【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力
目录
- 1 MHE的表示能力
- 2 基于Frobenius-范数的低秩逼近
- 3 基于CE的低秩近似
论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE
论文地址:Online,ArXiv,GItHub
背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6
请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^
关注微信公众号,获取更多资讯
1 MHE的表示能力
正如推论1所证明的那样,MHE的本质是一种通过多个一阶头的乘积逼近高阶极值标签的低秩逼近方法。
因此:MHE在分类问题中是否保证足够健壮的性能?
为了回答上述问题,我们将MHE推广到更一般的低秩近似问题,从Frobenius-norm度量扩展到交叉熵。如图4-a所示,如果有 G G G组具有MHE的多头,每组多头形成一个 H H H阶张量。然后,将所有这些张量相加,得到最终的输出
I Y i ≈ σ ( O ~ ) = σ ( ∑ g G O g 1 ⊗ O g 2 ⊗ ⋯ ⊗ O g H ) ( 16 a ) = σ ( ∑ g G ( W g 1 F ) ⊗ ( W g 2 F ) ⊗ ⋯ ⊗ ( W g G F ) ) , ( 16 b ) \mathbb{I}_{Y_i} \approx \sigma(\tilde{\bm O}) = \sigma(\sum_g^G \bm{O}_g^1 \otimes \bm{O}_g^2 \otimes \cdots \otimes \bm{O}_g^H) \qquad (16a) \\ = \sigma(\sum_g^G (\mathcal{W}_g^1F) \otimes (\mathcal{W}_g^2F) \otimes \cdots \otimes (\mathcal{W}_g^GF)), \qquad (16b) IYi≈σ(O~)=σ(g∑GOg1⊗Og2⊗⋯⊗OgH)(16a)=σ(g∑G(Wg1F)⊗(Wg2F)⊗⋯⊗(WgGF)),(16b)其中 g g g为组的索引。实际上,等式\ref{eq9_}是张量的CP分解, G G G是张量的秩。这将张量分解成一个分量秩一张量的和。从理论上讲,其他张量分解方法也可以用来近似 O \bm O O,当它被视为一个矢量化的高阶张量。
分类器的低秩逼近能力。(a)使用MHE的 G G G组多头分类器(G-MHE)。(b)在原点分类器上增加瓶颈层,实现 W \mathcal{W} W的低秩特性。
2 基于Frobenius-范数的低秩逼近
等式16说明了输出 O ~ \tilde{\bm O} O~的低秩近似本质上是为了限制其权重的秩。因此,我们研究低秩权重对分类器性能的影响。为了约束 W \mathcal{W} W的rank,在特征层 F \bm F F和输出层 O \bm O O之间增加一个线性瓶颈层 O b \bm{O}_b Ob,如图4-b所示。设 F \bm F F和 O b \bm {O}_b Ob之间的权值为 W 1 \mathcal{W}_1 W1, O b \bm{O}_b Ob和 O \bm O O之间的权值为 W 2 \mathcal{W}_2 W2,有
O = W 2 W 1 F + B = W ~ F + B , ( 17 ) s . t . R ( W ~ ) = r ≤ m i n ( ∣ F ∣ , ∣ O b ∣ ) , \bm {O} = \mathcal{W}_2\mathcal{W}_1 \bm{F} + \bm{B} = \tilde{\mathcal{W}} \bm{F} + \bm{B}, \qquad (17)\\ s.t. \ R(\tilde{\mathcal{W}}) = r \le min(|\bm{F}|,|\bm{O}_b|), \qquad \quad \ \ \ \ \ \ \ O=W2W1F+B=W~F+B,(17)s.t. R(W~)=r≤min(∣F∣,∣Ob∣), 其中 W ~ = W 2 W 1 \tilde{\mathcal{W}} = \mathcal{W}_2\mathcal{W}_1 W~=W2W1, R ( ⋅ ) R(\cdot) R(⋅)是矩阵的秩。如果 W ~ \tilde{\mathcal{W}} W~被frobenius范数损失优化,有
m i n L = 1 2 ∣ ∣ I Y i − O ∣ ∣ F 2 = ∣ ∣ I Y i − W ~ F ∣ ∣ F 2 . ( 18 ) min \ L = \frac{1}{2} ||\mathbb{I}_{Y_i}-\bm{O}||_F^2 = ||\mathbb{I}_{Y_i}-\tilde{\mathcal{W}} \bm{F}||_F^2. \qquad (18) min L=21∣∣IYi−O∣∣F2=∣∣IYi−W~F∣∣F2.(18)等式18是一个低秩近似问题,它使 I Y i \mathbb{I}_{Y_i} IYi和 O \bm O O的所有元素尽可能接近。它产生了一个低秩近似 A r g m i n R ( W ~ ) ≤ r ∣ ∣ W − W ~ ∣ ∣ F 2 \mathop{Argmin}\limits_{R(\tilde{\mathcal{W}}) \le r} ||\mathcal{W}-\tilde{\mathcal{W}}||_F^2 R(W~)≤rArgmin∣∣W−W~∣∣F2。更进一步,我们有了下面的定理。
Theorem 2: 假设 F \mathcal F F为满行秩,用frobenius范数作为损失函数对式17中的线性神经网络进行训练,不会产生虚假的局部极小值,并且每个退化的鞍点 W \mathcal{W} W要么是全局极小值,要么是二阶鞍点。
定理2的证明在附录B中给出。该定理说明方程17的任何局部最优解 W ~ ∗ \tilde{\mathcal{W}}^* W~∗都是全局最优解,即通过任意 W ~ ∗ \tilde{\mathcal{W}}^* W~∗都可以得到 I Y i \mathbb{I}_{Y_i} IYi的最优逼近。值得注意的是,定理2中指定的完整行秩条件在XLC任务中很容易得到满足。这是因为特征的长度比类别的数量要小得多,例如 ∣ F F T ∣ = ∣ F ∣ , s . t . ∣ F ∣ ≪ C |\mathcal{F}\mathcal{F}^T| = |\mathcal{F}|, s.t. |F| \ll C ∣FFT∣=∣F∣,s.t.∣F∣≪C。
3 基于CE的低秩近似
更进一步,如果用softmax将等式17中低秩近似的损失从Frobenius-范数推广到交叉熵(CE),我们将得到一个更好的 I Y i \mathbb{I}_{Y_i} IYi近似。这是因为方程\ref{eq10_}中的frobenius -范数度量对于分类问题过于严格,即Frobenius -范数损失倾向于近似所有元素,而CE损失倾向于选择最大的元素。因此,需要将等式17中的低秩近似推广到CE损失,CE损失是分类问题中常用但研究较少的方法。
与等式17中使用的Frobenius -范数不同,对输出的非线性操作会影响其表示能力。这是因为Softmax(训练)和不可微Argmax(测试)可以近似为
Λ ( O i ) = l i m ϵ → 0 Λ ( σ ϵ ( O i ) ) = l i m ϵ → 0 Λ ( e O i ϵ ∑ j e O i ϵ ) , ( 19 ) \varLambda(\bm{O}_i) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda (\sigma_{\epsilon}(\bm{O}_i)) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda \left(\frac{e^{\frac{\bm{O}_i}{\epsilon}}}{\sum_j{e^{\frac{\bm{O}_i}{\epsilon}}}}\right), \qquad (19) Λ(Oi)=ϵ→0limΛ(σϵ(Oi))=ϵ→0limΛ(∑jeϵOieϵOi),(19)其中 ϵ \epsilon ϵ为Softmax的温度。由公式19可知,测试中使用的Argmax操作实际上与训练中使用的Softmax和CE操作是一致的。即Eq. 19相当于CE和Softmax, Softmax使元素之间的间隙变大,CE选择最大的元素。因此,我们将低秩近似问题从Frobenius -范数损失推广到CE损失。
Theorem 3: 当 F \mathcal F F可分离时,使用CE以softmax作为损失函数训练方程17中的两层线性网络,只要满足 R ( [ W ~ B ] ) > 1 R([{\tilde{\mathcal{W}} \atop \bm{B}}]) > 1 R([BW~])>1,就可以恢复与vanilla分类器 O = W F \mathcal{O} = \mathcal{W} \mathcal{F} O=WF相同的精度。
定理3的证明在附录C中给出。定理\ref{th3}表明,当偏差 B \bm B B存在时, R ( W ~ ) R(\tilde{\mathcal{W}}) R(W~)的最小值可以等于 1 1 1,这意味着OHE和MHE之间的性能差距相当小。同时,定理3也说明了当深度神经网络对数据进行过拟合时,其泛化与标签的语义信息无关。这意味着标签预处理技术,如HLT和标签聚类,是不必要的,因为低秩近似仍然独立于标签定位。
为了验证这个定理,我们生成 N × N N\times N N×N高斯随机样本,其中 N = 100 N=100 N=100和 ∣ O b ∣ = 1 |\bm{O}_b|=1 ∣Ob∣=1。如图5-a所示,训练精度和 R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))不随时代的增加而增加。然而,在图5-b中, R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))与训练精度呈正相关,并且随着epoch的增加接近 100 % 100\% 100%。然后,为了验证Softmax对CE的选择性,我们使用ResNet-18 在CIFAR-100 上进行了实验,并将 ∣ O b ∣ |\bm{O}_b| ∣Ob∣设置为不同的长度。结果如图5-c所示。我们发现,当 ∣ O b ∣ |\bm{O}_b| ∣Ob∣设置适当时,可以很好地保证模型的测试精度。实验部分进一步证实了这一说法。
图5:不同损失函数和 R ( W ~ ) R(\tilde{W}) R(W~)的实验。(a, b)两层线性网络在高斯分布随机样本上的性能。 (c ) ResNet-18在CIFAR-100数据集上的性能。
此外,当使用CE和Softmax对方程17中的模型进行训练时,低秩矩阵 W ~ \tilde{\mathcal{W}} W~的逼近误差可以通过以下定理进行分析。
Theorem 4: 设 W ∗ \mathcal{W}^* W∗为方程17中模型的局部最小值,和 Δ = W ~ − W ∗ \Delta = \tilde{\mathcal{W}}-\mathcal{W}^* Δ=W~−W∗,使用CE和softmax作为损失函数训练方程17中的双层线性网络,有
E ≤ ∑ j C ∣ e Δ j − 1 ∣ , ( 20 ) E \le \sum_j^{C} |e^{\Delta_j}-1|, \qquad (20) E≤j∑C∣eΔj−1∣,(20)其中 E E E是 σ ( O ) \sigma(\mathcal{O}) σ(O)到 σ ( O ∗ ) \sigma(\mathcal{O}^*) σ(O∗)的近似误差。
定理4的证明在附录D中给出。定理4表明,近似误差 E E E与类数 C C C和 W ~ \tilde{\mathcal{W}} W~的秩有关。它说明了一个重要的结论:当 Δ j > 0 \Delta_j > 0 Δj>0, E E E呈指数下降时,当 Δ j → 0 \Delta_j \rightarrow 0 Δj→0, E E E呈线性下降时。这与深度学习方法一致,在训练开始时损失急剧下降。
背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6
相关文章:

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力
目录 1 MHE的表示能力2 基于Frobenius-范数的低秩逼近3 基于CE的低秩近似 论文:Multi-Head Encoding for Extreme Label Classification 作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang 单位:山东大学 代码:h…...
Github - unexpected disconnect while reading sideband packet
Open git global config: git config --global -eLet’s try to resolve the issue by increasing buffer: git config --global http.postBuffer 52428800Try to clone again. If that doesn’t work! > You can try the partial fetch method and disabling compressi…...

Ubuntu 环境安装 之 RabbitMQ 快速入手
Hi~!这里是奋斗的明志,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 🌱🌱个人主页:奋斗的明志 🌱🌱所属专栏:RabbitMQ 📚本系列文章为个人学…...

UE5中实现右键开镜效果
右键之后添加时间轴,然后设置视野即可。Set Field Of View 时间轴设置,第一个点设置0,90度,因为默认的就是90度 第二个点看武器的类型或者倍境来设置,时间就是开镜时间,值越小开镜速度越快,第二个值就是视野…...

Apache HTTPD 换行解析漏洞(CVE-2017-15715)
漏洞简介 pache HTTPD是一款HTTP服务器,它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞,在解析PHP时,1.php\x0A将被按照PHP后缀进行解析,导致绕过一些服务器的安全策略。 漏洞环境 vulhub/httpd/CVE-2…...

Excel重新踩坑5:二级下拉列表制作;★数据透视表;
0、在excel中函数公式不仅可以写在单元格里面,还可以写在公式里面。 1、二级下拉列表制作: 2、数据透视表: 概念:通过拖拉就能实现复杂函数才能实现的数据统计问题。 概览:在插入选项中有个数据透视表,数…...
力扣--35.搜索插入位置
题目 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2 示例 …...
C# 设计模式(行为型模式):模板方法模式
C# 设计模式(行为型模式):模板方法模式 在开发过程中,我们经常会遇到一类问题:一些操作的整体步骤是固定的,但某些具体步骤的实现会因为场景不同而有所变化。模板方法模式(Template Method Pat…...

Leetcode打卡:设计一个ATM机器
执行结果:通过 题目 2241 设计一个ATM机器 一个 ATM 机器,存有 5 种面值的钞票:20 ,50 ,100 ,200 和 500 美元。初始时,ATM 机是空的。用户可以用它存或者取任意数目的钱。 取款时,…...
【TCP】SYN、ACK、FIN、RST、PSH、URG的全称
在 TCP 协议中,SYN、ACK、FIN、RST、PSH 和 URG 都是控制标志位(Flags),每个标志位对应不同的功能。它们的全称如下: URG:(URGent)紧急 ACK:(ACKnowledgment)确认 PSH:(PuSH)推送 RS…...

【OceanBase】使用 Superset 连接 OceanBase 数据库并进行数据可视化分析
文章目录 前言一、前提条件二、操作步骤2.1 准备云主机实例2.2 安装docker-compose2.3 使用docker-compose安装Superset2.3.1 克隆 Superset 的 GitHub 存储库2.3.2 通过 Docker Compose 启动 Superset 2.4 开通 OB Cloud 云数据库2.5 获取连接串2.6 使用 Superset 连接 OceanB…...

【通识安全】应急救护常识23则
一、异物入眼 任何细小的物体或液体,哪怕是一粒沙子或是一滴洗涤剂进入眼中,都会引起眼部疼痛,甚至损伤眼角膜。 急救办法:首先是用力且频繁地眨眼,用泪水将异物冲刷出去。如果不奏效,就将眼皮捏起&#…...
C语言:cJSON将struct结构体与JSON互相转换
文章目录 struct 转 jsonjson 转 struct 文档: https://github.com/DaveGamble/cJSON 项目结构 . ├── libs │ ├── cJSON.c │ └── cJSON.h └── main.c示例 struct 转 json #include "libs/cJSON.h" #include <stdio.h>// defi…...
在Linux中,如何查看和修改网络接口配置?
在Linux中,查看和修改网络接口配置主要依赖于几个命令行工具。这里详细介绍两种传统的命令行方式以及一些图形化工具(前提:系统支持): 一、临时性修改 1. 使用ifconfig命令(部分系统已被弃用)…...

使用深度学习来实现图像超分辨率 综述!
今天给大家介绍一篇图像超分辨率邻域的综述,这篇综述总结了图像超分辨率领域的几方面:problem settings、数据集、performance metrics、SR方法、特定领域应用以结构组件形式,同时,总结超分方法的优点与限制。讨论了存在的问题和挑…...

基于深度学习的视觉检测小项目(六) 项目的信号和变量的规划
• 关于前后端分离 当前流行的一种常见的前后端分离模式是vueflask,vueflask模式的前端和后端之间进行数据的传递通常是借助 API(应用程序编程接口)来完成的。vue通过调用后端提供的 API 来获取或提交数据。例如,前端可能通过发送…...

【Android项目学习】3. MVVMHabit
项目链接 文章目录 一. 项目结构1. 项目整体划分2. 模块细分 二. Android知识点学习1. registerActivityLifecycleCallbacks方法2. 一. 项目结构 1. 项目整体划分 MVVMHabit是以谷歌DataBindingLiveDataViewModel框架为基础,整合OkhttpRxJavaRetrofitGlide等流行…...
在Linux中,如何配置负载均衡器以分配网络流量?
NGINX NGINX是一款高性能的HTTP和反向代理服务器,也常用作负载均衡器。它支持多种负载均衡算法,如轮询、加权轮询、IP哈希等。 配置步骤: 安装NGINX:根据您的Linux发行版,使用相应的包管理器安装NGINX。配置负载均衡…...

手机投屏到电视的3种选择:无线本地投屏,无线远程投屏,AirPlay投屏
现在大部分手机投屏都要求连接相同的WiFi,这就意味着手机投屏到电视必须是近距离投屏,稍微远一点就会脱离WiFi连接范围,投屏失败。 如果想将手机远程投屏到安卓电视,要怎样做? 第一步,在手机和安卓电视都安…...
MySQL关联关系理论与实践
MySQL 是一种关系型数据库管理系统,以其高性能、灵活性和易用性在开发者中广受欢迎。在 MySQL 中,数据存储以表格形式存在,表与表之间的关联关系构成了关系型数据库的核心。本篇文章将介绍 MySQL 关联关系的理论基础和常见实践,包括表的类型、主外键的使用,以及连接查询的…...
PHP和Node.js哪个更爽?
先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...

Docker 运行 Kafka 带 SASL 认证教程
Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明:server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...
【算法训练营Day07】字符串part1
文章目录 反转字符串反转字符串II替换数字 反转字符串 题目链接:344. 反转字符串 双指针法,两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...

【JavaWeb】Docker项目部署
引言 之前学习了Linux操作系统的常见命令,在Linux上安装软件,以及如何在Linux上部署一个单体项目,大多数同学都会有相同的感受,那就是麻烦。 核心体现在三点: 命令太多了,记不住 软件安装包名字复杂&…...

dify打造数据可视化图表
一、概述 在日常工作和学习中,我们经常需要和数据打交道。无论是分析报告、项目展示,还是简单的数据洞察,一个清晰直观的图表,往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server,由蚂蚁集团 AntV 团队…...

10-Oracle 23 ai Vector Search 概述和参数
一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI,使用客户端或是内部自己搭建集成大模型的终端,加速与大型语言模型(LLM)的结合,同时使用检索增强生成(Retrieval Augmented Generation &#…...

排序算法总结(C++)
目录 一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序 三、总结 一、稳定性 排序算法的稳定性是指:同样大小的样本 **(同样大小的数据)**在排序之后不会改变原始的相对次序。 稳定性对基础类型对象…...
解决:Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist
现象: android studio报错: [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决: 不要动CMakeLists.…...