当前位置: 首页 > news >正文

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录

  • 1 MHE的表示能力
  • 2 基于Frobenius-范数的低秩逼近
  • 3 基于CE的低秩近似

论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE

论文地址:Online,ArXiv,GItHub

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号,获取更多资讯
在这里插入图片描述

1 MHE的表示能力

正如推论1所证明的那样,MHE的本质是一种通过多个一阶头的乘积逼近高阶极值标签的低秩逼近方法。
因此:MHE在分类问题中是否保证足够健壮的性能?

为了回答上述问题,我们将MHE推广到更一般的低秩近似问题,从Frobenius-norm度量扩展到交叉熵。如图4-a所示,如果有 G G G组具有MHE的多头,每组多头形成一个 H H H阶张量。然后,将所有这些张量相加,得到最终的输出
I Y i ≈ σ ( O ~ ) = σ ( ∑ g G O g 1 ⊗ O g 2 ⊗ ⋯ ⊗ O g H ) ( 16 a ) = σ ( ∑ g G ( W g 1 F ) ⊗ ( W g 2 F ) ⊗ ⋯ ⊗ ( W g G F ) ) , ( 16 b ) \mathbb{I}_{Y_i} \approx \sigma(\tilde{\bm O}) = \sigma(\sum_g^G \bm{O}_g^1 \otimes \bm{O}_g^2 \otimes \cdots \otimes \bm{O}_g^H) \qquad (16a) \\ = \sigma(\sum_g^G (\mathcal{W}_g^1F) \otimes (\mathcal{W}_g^2F) \otimes \cdots \otimes (\mathcal{W}_g^GF)), \qquad (16b) IYiσ(O~)=σ(gGOg1Og2OgH)(16a)=σ(gG(Wg1F)(Wg2F)(WgGF)),(16b)其中 g g g为组的索引。实际上,等式\ref{eq9_}是张量的CP分解, G G G是张量的秩。这将张量分解成一个分量秩一张量的和。从理论上讲,其他张量分解方法也可以用来近似 O \bm O O,当它被视为一个矢量化的高阶张量。
在这里插入图片描述

分类器的低秩逼近能力。(a)使用MHE的 G G G组多头分类器(G-MHE)。(b)在原点分类器上增加瓶颈层,实现 W \mathcal{W} W的低秩特性。

2 基于Frobenius-范数的低秩逼近

等式16说明了输出 O ~ \tilde{\bm O} O~的低秩近似本质上是为了限制其权重的秩。因此,我们研究低秩权重对分类器性能的影响。为了约束 W \mathcal{W} W的rank,在特征层 F \bm F F和输出层 O \bm O O之间增加一个线性瓶颈层 O b \bm{O}_b Ob,如图4-b所示。设 F \bm F F O b \bm {O}_b Ob之间的权值为 W 1 \mathcal{W}_1 W1, O b \bm{O}_b Ob O \bm O O之间的权值为 W 2 \mathcal{W}_2 W2,有
O = W 2 W 1 F + B = W ~ F + B , ( 17 ) s . t . R ( W ~ ) = r ≤ m i n ( ∣ F ∣ , ∣ O b ∣ ) , \bm {O} = \mathcal{W}_2\mathcal{W}_1 \bm{F} + \bm{B} = \tilde{\mathcal{W}} \bm{F} + \bm{B}, \qquad (17)\\ s.t. \ R(\tilde{\mathcal{W}}) = r \le min(|\bm{F}|,|\bm{O}_b|), \qquad \quad \ \ \ \ \ \ \ O=W2W1F+B=W~F+B,17s.t. R(W~)=rmin(F,Ob),       其中 W ~ = W 2 W 1 \tilde{\mathcal{W}} = \mathcal{W}_2\mathcal{W}_1 W~=W2W1, R ( ⋅ ) R(\cdot) R()是矩阵的秩。如果 W ~ \tilde{\mathcal{W}} W~被frobenius范数损失优化,有
m i n L = 1 2 ∣ ∣ I Y i − O ∣ ∣ F 2 = ∣ ∣ I Y i − W ~ F ∣ ∣ F 2 . ( 18 ) min \ L = \frac{1}{2} ||\mathbb{I}_{Y_i}-\bm{O}||_F^2 = ||\mathbb{I}_{Y_i}-\tilde{\mathcal{W}} \bm{F}||_F^2. \qquad (18) min L=21∣∣IYiOF2=∣∣IYiW~FF2.(18)等式18是一个低秩近似问题,它使 I Y i \mathbb{I}_{Y_i} IYi O \bm O O的所有元素尽可能接近。它产生了一个低秩近似 A r g m i n R ( W ~ ) ≤ r ∣ ∣ W − W ~ ∣ ∣ F 2 \mathop{Argmin}\limits_{R(\tilde{\mathcal{W}}) \le r} ||\mathcal{W}-\tilde{\mathcal{W}}||_F^2 R(W~)rArgmin∣∣WW~F2。更进一步,我们有了下面的定理。

Theorem 2: 假设 F \mathcal F F为满行秩,用frobenius范数作为损失函数对式17中的线性神经网络进行训练,不会产生虚假的局部极小值,并且每个退化的鞍点 W \mathcal{W} W要么是全局极小值,要么是二阶鞍点。

定理2的证明在附录B中给出。该定理说明方程17的任何局部最优解 W ~ ∗ \tilde{\mathcal{W}}^* W~都是全局最优解,即通过任意 W ~ ∗ \tilde{\mathcal{W}}^* W~都可以得到 I Y i \mathbb{I}_{Y_i} IYi的最优逼近。值得注意的是,定理2中指定的完整行秩条件在XLC任务中很容易得到满足。这是因为特征的长度比类别的数量要小得多,例如 ∣ F F T ∣ = ∣ F ∣ , s . t . ∣ F ∣ ≪ C |\mathcal{F}\mathcal{F}^T| = |\mathcal{F}|, s.t. |F| \ll C FFT=F,s.t.∣FC

3 基于CE的低秩近似

更进一步,如果用softmax将等式17中低秩近似的损失从Frobenius-范数推广到交叉熵(CE),我们将得到一个更好的 I Y i \mathbb{I}_{Y_i} IYi近似。这是因为方程\ref{eq10_}中的frobenius -范数度量对于分类问题过于严格,即Frobenius -范数损失倾向于近似所有元素,而CE损失倾向于选择最大的元素。因此,需要将等式17中的低秩近似推广到CE损失,CE损失是分类问题中常用但研究较少的方法。

与等式17中使用的Frobenius -范数不同,对输出的非线性操作会影响其表示能力。这是因为Softmax(训练)和不可微Argmax(测试)可以近似为
Λ ( O i ) = l i m ϵ → 0 Λ ( σ ϵ ( O i ) ) = l i m ϵ → 0 Λ ( e O i ϵ ∑ j e O i ϵ ) , ( 19 ) \varLambda(\bm{O}_i) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda (\sigma_{\epsilon}(\bm{O}_i)) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda \left(\frac{e^{\frac{\bm{O}_i}{\epsilon}}}{\sum_j{e^{\frac{\bm{O}_i}{\epsilon}}}}\right), \qquad (19) Λ(Oi)=ϵ0limΛ(σϵ(Oi))=ϵ0limΛ(jeϵOieϵOi),(19)其中 ϵ \epsilon ϵ为Softmax的温度。由公式19可知,测试中使用的Argmax操作实际上与训练中使用的Softmax和CE操作是一致的。即Eq. 19相当于CE和Softmax, Softmax使元素之间的间隙变大,CE选择最大的元素。因此,我们将低秩近似问题从Frobenius -范数损失推广到CE损失。

Theorem 3: F \mathcal F F可分离时,使用CE以softmax作为损失函数训练方程17中的两层线性网络,只要满足 R ( [ W ~ B ] ) > 1 R([{\tilde{\mathcal{W}} \atop \bm{B}}]) > 1 R([BW~])>1,就可以恢复与vanilla分类器 O = W F \mathcal{O} = \mathcal{W} \mathcal{F} O=WF相同的精度。

定理3的证明在附录C中给出。定理\ref{th3}表明,当偏差 B \bm B B存在时, R ( W ~ ) R(\tilde{\mathcal{W}}) R(W~)的最小值可以等于 1 1 1,这意味着OHE和MHE之间的性能差距相当小。同时,定理3也说明了当深度神经网络对数据进行过拟合时,其泛化与标签的语义信息无关。这意味着标签预处理技术,如HLT和标签聚类,是不必要的,因为低秩近似仍然独立于标签定位。

为了验证这个定理,我们生成 N × N N\times N N×N高斯随机样本,其中 N = 100 N=100 N=100 ∣ O b ∣ = 1 |\bm{O}_b|=1 Ob=1。如图5-a所示,训练精度和 R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))不随时代的增加而增加。然而,在图5-b中, R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))与训练精度呈正相关,并且随着epoch的增加接近 100 % 100\% 100%。然后,为了验证Softmax对CE的选择性,我们使用ResNet-18 在CIFAR-100 上进行了实验,并将 ∣ O b ∣ |\bm{O}_b| Ob设置为不同的长度。结果如图5-c所示。我们发现,当 ∣ O b ∣ |\bm{O}_b| Ob设置适当时,可以很好地保证模型的测试精度。实验部分进一步证实了这一说法。

在这里插入图片描述

图5:不同损失函数和 R ( W ~ ) R(\tilde{W}) R(W~)的实验。(a, b)两层线性网络在高斯分布随机样本上的性能。 (c ) ResNet-18在CIFAR-100数据集上的性能。

此外,当使用CE和Softmax对方程17中的模型进行训练时,低秩矩阵 W ~ \tilde{\mathcal{W}} W~的逼近误差可以通过以下定理进行分析。

Theorem 4: W ∗ \mathcal{W}^* W为方程17中模型的局部最小值,和 Δ = W ~ − W ∗ \Delta = \tilde{\mathcal{W}}-\mathcal{W}^* Δ=W~W,使用CE和softmax作为损失函数训练方程17中的双层线性网络,有
E ≤ ∑ j C ∣ e Δ j − 1 ∣ , ( 20 ) E \le \sum_j^{C} |e^{\Delta_j}-1|, \qquad (20) EjCeΔj1∣,(20)其中 E E E σ ( O ) \sigma(\mathcal{O}) σ(O) σ ( O ∗ ) \sigma(\mathcal{O}^*) σ(O)的近似误差。

定理4的证明在附录D中给出。定理4表明,近似误差 E E E与类数 C C C W ~ \tilde{\mathcal{W}} W~的秩有关。它说明了一个重要的结论:当 Δ j > 0 \Delta_j > 0 Δj>0, E E E呈指数下降时,当 Δ j → 0 \Delta_j \rightarrow 0 Δj0, E E E呈线性下降时。这与深度学习方法一致,在训练开始时损失急剧下降。

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

相关文章:

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录 1 MHE的表示能力2 基于Frobenius-范数的低秩逼近3 基于CE的低秩近似 论文:Multi-Head Encoding for Extreme Label Classification 作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang 单位:山东大学 代码:h…...

Github - unexpected disconnect while reading sideband packet

Open git global config: git config --global -eLet’s try to resolve the issue by increasing buffer: git config --global http.postBuffer 52428800Try to clone again. If that doesn’t work! > You can try the partial fetch method and disabling compressi…...

Ubuntu 环境安装 之 RabbitMQ 快速入手

Hi~!这里是奋斗的明志,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 🌱🌱个人主页:奋斗的明志 🌱🌱所属专栏:RabbitMQ 📚本系列文章为个人学…...

UE5中实现右键开镜效果

右键之后添加时间轴,然后设置视野即可。Set Field Of View 时间轴设置,第一个点设置0,90度,因为默认的就是90度 第二个点看武器的类型或者倍境来设置,时间就是开镜时间,值越小开镜速度越快,第二个值就是视野…...

Apache HTTPD 换行解析漏洞(CVE-2017-15715)

漏洞简介 pache HTTPD是一款HTTP服务器,它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞,在解析PHP时,1.php\x0A将被按照PHP后缀进行解析,导致绕过一些服务器的安全策略。 漏洞环境 vulhub/httpd/CVE-2…...

Excel重新踩坑5:二级下拉列表制作;★数据透视表;

0、在excel中函数公式不仅可以写在单元格里面,还可以写在公式里面。 1、二级下拉列表制作: 2、数据透视表: 概念:通过拖拉就能实现复杂函数才能实现的数据统计问题。 概览:在插入选项中有个数据透视表,数…...

力扣--35.搜索插入位置

题目 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2 示例 …...

C# 设计模式(行为型模式):模板方法模式

C# 设计模式(行为型模式):模板方法模式 在开发过程中,我们经常会遇到一类问题:一些操作的整体步骤是固定的,但某些具体步骤的实现会因为场景不同而有所变化。模板方法模式(Template Method Pat…...

Leetcode打卡:设计一个ATM机器

执行结果:通过 题目 2241 设计一个ATM机器 一个 ATM 机器,存有 5 种面值的钞票:20 ,50 ,100 ,200 和 500 美元。初始时,ATM 机是空的。用户可以用它存或者取任意数目的钱。 取款时&#xff0c…...

【TCP】SYN、ACK、FIN、RST、PSH、URG的全称

在 TCP 协议中,SYN、ACK、FIN、RST、PSH 和 URG 都是控制标志位(Flags),每个标志位对应不同的功能。它们的全称如下: URG:(URGent)紧急 ACK:(ACKnowledgment)确认 PSH:(PuSH)推送 RS…...

【OceanBase】使用 Superset 连接 OceanBase 数据库并进行数据可视化分析

文章目录 前言一、前提条件二、操作步骤2.1 准备云主机实例2.2 安装docker-compose2.3 使用docker-compose安装Superset2.3.1 克隆 Superset 的 GitHub 存储库2.3.2 通过 Docker Compose 启动 Superset 2.4 开通 OB Cloud 云数据库2.5 获取连接串2.6 使用 Superset 连接 OceanB…...

【通识安全】应急救护常识23则

一、异物入眼 任何细小的物体或液体,哪怕是一粒沙子或是一滴洗涤剂进入眼中,都会引起眼部疼痛,甚至损伤眼角膜。 急救办法:首先是用力且频繁地眨眼,用泪水将异物冲刷出去。如果不奏效,就将眼皮捏起&#…...

C语言:cJSON将struct结构体与JSON互相转换

文章目录 struct 转 jsonjson 转 struct 文档&#xff1a; https://github.com/DaveGamble/cJSON 项目结构 . ├── libs │ ├── cJSON.c │ └── cJSON.h └── main.c示例 struct 转 json #include "libs/cJSON.h" #include <stdio.h>// defi…...

在Linux中,如何查看和修改网络接口配置?

在Linux中&#xff0c;查看和修改网络接口配置主要依赖于几个命令行工具。这里详细介绍两种传统的命令行方式以及一些图形化工具&#xff08;前提&#xff1a;系统支持&#xff09;&#xff1a; 一、临时性修改 1. 使用ifconfig命令&#xff08;部分系统已被弃用&#xff09;…...

使用深度学习来实现图像超分辨率 综述!

今天给大家介绍一篇图像超分辨率邻域的综述&#xff0c;这篇综述总结了图像超分辨率领域的几方面&#xff1a;problem settings、数据集、performance metrics、SR方法、特定领域应用以结构组件形式&#xff0c;同时&#xff0c;总结超分方法的优点与限制。讨论了存在的问题和挑…...

基于深度学习的视觉检测小项目(六) 项目的信号和变量的规划

• 关于前后端分离 当前流行的一种常见的前后端分离模式是vueflask&#xff0c;vueflask模式的前端和后端之间进行数据的传递通常是借助 API&#xff08;应用程序编程接口&#xff09;来完成的。vue通过调用后端提供的 API 来获取或提交数据。例如&#xff0c;前端可能通过发送…...

【Android项目学习】3. MVVMHabit

项目链接 文章目录 一. 项目结构1. 项目整体划分2. 模块细分 二. Android知识点学习1. registerActivityLifecycleCallbacks方法2. 一. 项目结构 1. 项目整体划分 MVVMHabit是以谷歌DataBindingLiveDataViewModel框架为基础&#xff0c;整合OkhttpRxJavaRetrofitGlide等流行…...

在Linux中,如何配置负载均衡器以分配网络流量?

NGINX NGINX是一款高性能的HTTP和反向代理服务器&#xff0c;也常用作负载均衡器。它支持多种负载均衡算法&#xff0c;如轮询、加权轮询、IP哈希等。 配置步骤&#xff1a; 安装NGINX&#xff1a;根据您的Linux发行版&#xff0c;使用相应的包管理器安装NGINX。配置负载均衡…...

手机投屏到电视的3种选择:无线本地投屏,无线远程投屏,AirPlay投屏

现在大部分手机投屏都要求连接相同的WiFi&#xff0c;这就意味着手机投屏到电视必须是近距离投屏&#xff0c;稍微远一点就会脱离WiFi连接范围&#xff0c;投屏失败。 如果想将手机远程投屏到安卓电视&#xff0c;要怎样做&#xff1f; 第一步&#xff0c;在手机和安卓电视都安…...

MySQL关联关系理论与实践

MySQL 是一种关系型数据库管理系统,以其高性能、灵活性和易用性在开发者中广受欢迎。在 MySQL 中,数据存储以表格形式存在,表与表之间的关联关系构成了关系型数据库的核心。本篇文章将介绍 MySQL 关联关系的理论基础和常见实践,包括表的类型、主外键的使用,以及连接查询的…...

conda相比python好处

Conda 作为 Python 的环境和包管理工具&#xff0c;相比原生 Python 生态&#xff08;如 pip 虚拟环境&#xff09;有许多独特优势&#xff0c;尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处&#xff1a; 一、一站式环境管理&#xff1a…...

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略&#xff0c;并且实现了基本的选区操作&#xff0c;还调研了自绘选区的实现。那么相对的&#xff0c;我们还需要设计编辑器的选区表达&#xff0c;也可以称为模型选区。编辑器中应用变更时的操作范围&#xff0c;就是以模型选区为基准来…...

【HTTP三个基础问题】

面试官您好&#xff01;HTTP是超文本传输协议&#xff0c;是互联网上客户端和服务器之间传输超文本数据&#xff08;比如文字、图片、音频、视频等&#xff09;的核心协议&#xff0c;当前互联网应用最广泛的版本是HTTP1.1&#xff0c;它基于经典的C/S模型&#xff0c;也就是客…...

2023赣州旅游投资集团

单选题 1.“不登高山&#xff0c;不知天之高也&#xff1b;不临深溪&#xff0c;不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...

面向无人机海岸带生态系统监测的语义分割基准数据集

描述&#xff1a;海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而&#xff0c;目前该领域仍面临一个挑战&#xff0c;即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

【堆垛策略】设计方法

堆垛策略的设计是积木堆叠系统的核心&#xff0c;直接影响堆叠的稳定性、效率和容错能力。以下是分层次的堆垛策略设计方法&#xff0c;涵盖基础规则、优化算法和容错机制&#xff1a; 1. 基础堆垛规则 (1) 物理稳定性优先 重心原则&#xff1a; 大尺寸/重量积木在下&#xf…...

云原生周刊:k0s 成为 CNCF 沙箱项目

开源项目推荐 HAMi HAMi&#xff08;原名 k8s‑vGPU‑scheduler&#xff09;是一款 CNCF Sandbox 级别的开源 K8s 中间件&#xff0c;通过虚拟化 GPU/NPU 等异构设备并支持内存、计算核心时间片隔离及共享调度&#xff0c;为容器提供统一接口&#xff0c;实现细粒度资源配额…...

React从基础入门到高级实战:React 实战项目 - 项目五:微前端与模块化架构

React 实战项目&#xff1a;微前端与模块化架构 欢迎来到 React 开发教程专栏 的第 30 篇&#xff01;在前 29 篇文章中&#xff0c;我们从 React 的基础概念逐步深入到高级技巧&#xff0c;涵盖了组件设计、状态管理、路由配置、性能优化和企业级应用等核心内容。这一次&…...

边缘计算网关提升水产养殖尾水处理的远程运维效率

一、项目背景 随着水产养殖行业的快速发展&#xff0c;养殖尾水的处理成为了一个亟待解决的环保问题。传统的尾水处理方式不仅效率低下&#xff0c;而且难以实现精准监控和管理。为了提升尾水处理的效果和效率&#xff0c;同时降低人力成本&#xff0c;某大型水产养殖企业决定…...

Netty自定义协议解析

目录 自定义协议设计 实现消息解码器 实现消息编码器 自定义消息对象 配置ChannelPipeline Netty提供了强大的编解码器抽象基类,这些基类能够帮助开发者快速实现自定义协议的解析。 自定义协议设计 在实现自定义协议解析之前,需要明确协议的具体格式。例如,一个简单的…...