当前位置: 首页 > news >正文

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录

  • 1 MHE的表示能力
  • 2 基于Frobenius-范数的低秩逼近
  • 3 基于CE的低秩近似

论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE

论文地址:Online,ArXiv,GItHub

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号,获取更多资讯
在这里插入图片描述

1 MHE的表示能力

正如推论1所证明的那样,MHE的本质是一种通过多个一阶头的乘积逼近高阶极值标签的低秩逼近方法。
因此:MHE在分类问题中是否保证足够健壮的性能?

为了回答上述问题,我们将MHE推广到更一般的低秩近似问题,从Frobenius-norm度量扩展到交叉熵。如图4-a所示,如果有 G G G组具有MHE的多头,每组多头形成一个 H H H阶张量。然后,将所有这些张量相加,得到最终的输出
I Y i ≈ σ ( O ~ ) = σ ( ∑ g G O g 1 ⊗ O g 2 ⊗ ⋯ ⊗ O g H ) ( 16 a ) = σ ( ∑ g G ( W g 1 F ) ⊗ ( W g 2 F ) ⊗ ⋯ ⊗ ( W g G F ) ) , ( 16 b ) \mathbb{I}_{Y_i} \approx \sigma(\tilde{\bm O}) = \sigma(\sum_g^G \bm{O}_g^1 \otimes \bm{O}_g^2 \otimes \cdots \otimes \bm{O}_g^H) \qquad (16a) \\ = \sigma(\sum_g^G (\mathcal{W}_g^1F) \otimes (\mathcal{W}_g^2F) \otimes \cdots \otimes (\mathcal{W}_g^GF)), \qquad (16b) IYiσ(O~)=σ(gGOg1Og2OgH)(16a)=σ(gG(Wg1F)(Wg2F)(WgGF)),(16b)其中 g g g为组的索引。实际上,等式\ref{eq9_}是张量的CP分解, G G G是张量的秩。这将张量分解成一个分量秩一张量的和。从理论上讲,其他张量分解方法也可以用来近似 O \bm O O,当它被视为一个矢量化的高阶张量。
在这里插入图片描述

分类器的低秩逼近能力。(a)使用MHE的 G G G组多头分类器(G-MHE)。(b)在原点分类器上增加瓶颈层,实现 W \mathcal{W} W的低秩特性。

2 基于Frobenius-范数的低秩逼近

等式16说明了输出 O ~ \tilde{\bm O} O~的低秩近似本质上是为了限制其权重的秩。因此,我们研究低秩权重对分类器性能的影响。为了约束 W \mathcal{W} W的rank,在特征层 F \bm F F和输出层 O \bm O O之间增加一个线性瓶颈层 O b \bm{O}_b Ob,如图4-b所示。设 F \bm F F O b \bm {O}_b Ob之间的权值为 W 1 \mathcal{W}_1 W1, O b \bm{O}_b Ob O \bm O O之间的权值为 W 2 \mathcal{W}_2 W2,有
O = W 2 W 1 F + B = W ~ F + B , ( 17 ) s . t . R ( W ~ ) = r ≤ m i n ( ∣ F ∣ , ∣ O b ∣ ) , \bm {O} = \mathcal{W}_2\mathcal{W}_1 \bm{F} + \bm{B} = \tilde{\mathcal{W}} \bm{F} + \bm{B}, \qquad (17)\\ s.t. \ R(\tilde{\mathcal{W}}) = r \le min(|\bm{F}|,|\bm{O}_b|), \qquad \quad \ \ \ \ \ \ \ O=W2W1F+B=W~F+B,17s.t. R(W~)=rmin(F,Ob),       其中 W ~ = W 2 W 1 \tilde{\mathcal{W}} = \mathcal{W}_2\mathcal{W}_1 W~=W2W1, R ( ⋅ ) R(\cdot) R()是矩阵的秩。如果 W ~ \tilde{\mathcal{W}} W~被frobenius范数损失优化,有
m i n L = 1 2 ∣ ∣ I Y i − O ∣ ∣ F 2 = ∣ ∣ I Y i − W ~ F ∣ ∣ F 2 . ( 18 ) min \ L = \frac{1}{2} ||\mathbb{I}_{Y_i}-\bm{O}||_F^2 = ||\mathbb{I}_{Y_i}-\tilde{\mathcal{W}} \bm{F}||_F^2. \qquad (18) min L=21∣∣IYiOF2=∣∣IYiW~FF2.(18)等式18是一个低秩近似问题,它使 I Y i \mathbb{I}_{Y_i} IYi O \bm O O的所有元素尽可能接近。它产生了一个低秩近似 A r g m i n R ( W ~ ) ≤ r ∣ ∣ W − W ~ ∣ ∣ F 2 \mathop{Argmin}\limits_{R(\tilde{\mathcal{W}}) \le r} ||\mathcal{W}-\tilde{\mathcal{W}}||_F^2 R(W~)rArgmin∣∣WW~F2。更进一步,我们有了下面的定理。

Theorem 2: 假设 F \mathcal F F为满行秩,用frobenius范数作为损失函数对式17中的线性神经网络进行训练,不会产生虚假的局部极小值,并且每个退化的鞍点 W \mathcal{W} W要么是全局极小值,要么是二阶鞍点。

定理2的证明在附录B中给出。该定理说明方程17的任何局部最优解 W ~ ∗ \tilde{\mathcal{W}}^* W~都是全局最优解,即通过任意 W ~ ∗ \tilde{\mathcal{W}}^* W~都可以得到 I Y i \mathbb{I}_{Y_i} IYi的最优逼近。值得注意的是,定理2中指定的完整行秩条件在XLC任务中很容易得到满足。这是因为特征的长度比类别的数量要小得多,例如 ∣ F F T ∣ = ∣ F ∣ , s . t . ∣ F ∣ ≪ C |\mathcal{F}\mathcal{F}^T| = |\mathcal{F}|, s.t. |F| \ll C FFT=F,s.t.∣FC

3 基于CE的低秩近似

更进一步,如果用softmax将等式17中低秩近似的损失从Frobenius-范数推广到交叉熵(CE),我们将得到一个更好的 I Y i \mathbb{I}_{Y_i} IYi近似。这是因为方程\ref{eq10_}中的frobenius -范数度量对于分类问题过于严格,即Frobenius -范数损失倾向于近似所有元素,而CE损失倾向于选择最大的元素。因此,需要将等式17中的低秩近似推广到CE损失,CE损失是分类问题中常用但研究较少的方法。

与等式17中使用的Frobenius -范数不同,对输出的非线性操作会影响其表示能力。这是因为Softmax(训练)和不可微Argmax(测试)可以近似为
Λ ( O i ) = l i m ϵ → 0 Λ ( σ ϵ ( O i ) ) = l i m ϵ → 0 Λ ( e O i ϵ ∑ j e O i ϵ ) , ( 19 ) \varLambda(\bm{O}_i) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda (\sigma_{\epsilon}(\bm{O}_i)) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda \left(\frac{e^{\frac{\bm{O}_i}{\epsilon}}}{\sum_j{e^{\frac{\bm{O}_i}{\epsilon}}}}\right), \qquad (19) Λ(Oi)=ϵ0limΛ(σϵ(Oi))=ϵ0limΛ(jeϵOieϵOi),(19)其中 ϵ \epsilon ϵ为Softmax的温度。由公式19可知,测试中使用的Argmax操作实际上与训练中使用的Softmax和CE操作是一致的。即Eq. 19相当于CE和Softmax, Softmax使元素之间的间隙变大,CE选择最大的元素。因此,我们将低秩近似问题从Frobenius -范数损失推广到CE损失。

Theorem 3: F \mathcal F F可分离时,使用CE以softmax作为损失函数训练方程17中的两层线性网络,只要满足 R ( [ W ~ B ] ) > 1 R([{\tilde{\mathcal{W}} \atop \bm{B}}]) > 1 R([BW~])>1,就可以恢复与vanilla分类器 O = W F \mathcal{O} = \mathcal{W} \mathcal{F} O=WF相同的精度。

定理3的证明在附录C中给出。定理\ref{th3}表明,当偏差 B \bm B B存在时, R ( W ~ ) R(\tilde{\mathcal{W}}) R(W~)的最小值可以等于 1 1 1,这意味着OHE和MHE之间的性能差距相当小。同时,定理3也说明了当深度神经网络对数据进行过拟合时,其泛化与标签的语义信息无关。这意味着标签预处理技术,如HLT和标签聚类,是不必要的,因为低秩近似仍然独立于标签定位。

为了验证这个定理,我们生成 N × N N\times N N×N高斯随机样本,其中 N = 100 N=100 N=100 ∣ O b ∣ = 1 |\bm{O}_b|=1 Ob=1。如图5-a所示,训练精度和 R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))不随时代的增加而增加。然而,在图5-b中, R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))与训练精度呈正相关,并且随着epoch的增加接近 100 % 100\% 100%。然后,为了验证Softmax对CE的选择性,我们使用ResNet-18 在CIFAR-100 上进行了实验,并将 ∣ O b ∣ |\bm{O}_b| Ob设置为不同的长度。结果如图5-c所示。我们发现,当 ∣ O b ∣ |\bm{O}_b| Ob设置适当时,可以很好地保证模型的测试精度。实验部分进一步证实了这一说法。

在这里插入图片描述

图5:不同损失函数和 R ( W ~ ) R(\tilde{W}) R(W~)的实验。(a, b)两层线性网络在高斯分布随机样本上的性能。 (c ) ResNet-18在CIFAR-100数据集上的性能。

此外,当使用CE和Softmax对方程17中的模型进行训练时,低秩矩阵 W ~ \tilde{\mathcal{W}} W~的逼近误差可以通过以下定理进行分析。

Theorem 4: W ∗ \mathcal{W}^* W为方程17中模型的局部最小值,和 Δ = W ~ − W ∗ \Delta = \tilde{\mathcal{W}}-\mathcal{W}^* Δ=W~W,使用CE和softmax作为损失函数训练方程17中的双层线性网络,有
E ≤ ∑ j C ∣ e Δ j − 1 ∣ , ( 20 ) E \le \sum_j^{C} |e^{\Delta_j}-1|, \qquad (20) EjCeΔj1∣,(20)其中 E E E σ ( O ) \sigma(\mathcal{O}) σ(O) σ ( O ∗ ) \sigma(\mathcal{O}^*) σ(O)的近似误差。

定理4的证明在附录D中给出。定理4表明,近似误差 E E E与类数 C C C W ~ \tilde{\mathcal{W}} W~的秩有关。它说明了一个重要的结论:当 Δ j > 0 \Delta_j > 0 Δj>0, E E E呈指数下降时,当 Δ j → 0 \Delta_j \rightarrow 0 Δj0, E E E呈线性下降时。这与深度学习方法一致,在训练开始时损失急剧下降。

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

相关文章:

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录 1 MHE的表示能力2 基于Frobenius-范数的低秩逼近3 基于CE的低秩近似 论文:Multi-Head Encoding for Extreme Label Classification 作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang 单位:山东大学 代码:h…...

Github - unexpected disconnect while reading sideband packet

Open git global config: git config --global -eLet’s try to resolve the issue by increasing buffer: git config --global http.postBuffer 52428800Try to clone again. If that doesn’t work! > You can try the partial fetch method and disabling compressi…...

Ubuntu 环境安装 之 RabbitMQ 快速入手

Hi~!这里是奋斗的明志,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 🌱🌱个人主页:奋斗的明志 🌱🌱所属专栏:RabbitMQ 📚本系列文章为个人学…...

UE5中实现右键开镜效果

右键之后添加时间轴,然后设置视野即可。Set Field Of View 时间轴设置,第一个点设置0,90度,因为默认的就是90度 第二个点看武器的类型或者倍境来设置,时间就是开镜时间,值越小开镜速度越快,第二个值就是视野…...

Apache HTTPD 换行解析漏洞(CVE-2017-15715)

漏洞简介 pache HTTPD是一款HTTP服务器,它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞,在解析PHP时,1.php\x0A将被按照PHP后缀进行解析,导致绕过一些服务器的安全策略。 漏洞环境 vulhub/httpd/CVE-2…...

Excel重新踩坑5:二级下拉列表制作;★数据透视表;

0、在excel中函数公式不仅可以写在单元格里面,还可以写在公式里面。 1、二级下拉列表制作: 2、数据透视表: 概念:通过拖拉就能实现复杂函数才能实现的数据统计问题。 概览:在插入选项中有个数据透视表,数…...

力扣--35.搜索插入位置

题目 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2 示例 …...

C# 设计模式(行为型模式):模板方法模式

C# 设计模式(行为型模式):模板方法模式 在开发过程中,我们经常会遇到一类问题:一些操作的整体步骤是固定的,但某些具体步骤的实现会因为场景不同而有所变化。模板方法模式(Template Method Pat…...

Leetcode打卡:设计一个ATM机器

执行结果:通过 题目 2241 设计一个ATM机器 一个 ATM 机器,存有 5 种面值的钞票:20 ,50 ,100 ,200 和 500 美元。初始时,ATM 机是空的。用户可以用它存或者取任意数目的钱。 取款时&#xff0c…...

【TCP】SYN、ACK、FIN、RST、PSH、URG的全称

在 TCP 协议中,SYN、ACK、FIN、RST、PSH 和 URG 都是控制标志位(Flags),每个标志位对应不同的功能。它们的全称如下: URG:(URGent)紧急 ACK:(ACKnowledgment)确认 PSH:(PuSH)推送 RS…...

【OceanBase】使用 Superset 连接 OceanBase 数据库并进行数据可视化分析

文章目录 前言一、前提条件二、操作步骤2.1 准备云主机实例2.2 安装docker-compose2.3 使用docker-compose安装Superset2.3.1 克隆 Superset 的 GitHub 存储库2.3.2 通过 Docker Compose 启动 Superset 2.4 开通 OB Cloud 云数据库2.5 获取连接串2.6 使用 Superset 连接 OceanB…...

【通识安全】应急救护常识23则

一、异物入眼 任何细小的物体或液体,哪怕是一粒沙子或是一滴洗涤剂进入眼中,都会引起眼部疼痛,甚至损伤眼角膜。 急救办法:首先是用力且频繁地眨眼,用泪水将异物冲刷出去。如果不奏效,就将眼皮捏起&#…...

C语言:cJSON将struct结构体与JSON互相转换

文章目录 struct 转 jsonjson 转 struct 文档&#xff1a; https://github.com/DaveGamble/cJSON 项目结构 . ├── libs │ ├── cJSON.c │ └── cJSON.h └── main.c示例 struct 转 json #include "libs/cJSON.h" #include <stdio.h>// defi…...

在Linux中,如何查看和修改网络接口配置?

在Linux中&#xff0c;查看和修改网络接口配置主要依赖于几个命令行工具。这里详细介绍两种传统的命令行方式以及一些图形化工具&#xff08;前提&#xff1a;系统支持&#xff09;&#xff1a; 一、临时性修改 1. 使用ifconfig命令&#xff08;部分系统已被弃用&#xff09;…...

使用深度学习来实现图像超分辨率 综述!

今天给大家介绍一篇图像超分辨率邻域的综述&#xff0c;这篇综述总结了图像超分辨率领域的几方面&#xff1a;problem settings、数据集、performance metrics、SR方法、特定领域应用以结构组件形式&#xff0c;同时&#xff0c;总结超分方法的优点与限制。讨论了存在的问题和挑…...

基于深度学习的视觉检测小项目(六) 项目的信号和变量的规划

• 关于前后端分离 当前流行的一种常见的前后端分离模式是vueflask&#xff0c;vueflask模式的前端和后端之间进行数据的传递通常是借助 API&#xff08;应用程序编程接口&#xff09;来完成的。vue通过调用后端提供的 API 来获取或提交数据。例如&#xff0c;前端可能通过发送…...

【Android项目学习】3. MVVMHabit

项目链接 文章目录 一. 项目结构1. 项目整体划分2. 模块细分 二. Android知识点学习1. registerActivityLifecycleCallbacks方法2. 一. 项目结构 1. 项目整体划分 MVVMHabit是以谷歌DataBindingLiveDataViewModel框架为基础&#xff0c;整合OkhttpRxJavaRetrofitGlide等流行…...

在Linux中,如何配置负载均衡器以分配网络流量?

NGINX NGINX是一款高性能的HTTP和反向代理服务器&#xff0c;也常用作负载均衡器。它支持多种负载均衡算法&#xff0c;如轮询、加权轮询、IP哈希等。 配置步骤&#xff1a; 安装NGINX&#xff1a;根据您的Linux发行版&#xff0c;使用相应的包管理器安装NGINX。配置负载均衡…...

手机投屏到电视的3种选择:无线本地投屏,无线远程投屏,AirPlay投屏

现在大部分手机投屏都要求连接相同的WiFi&#xff0c;这就意味着手机投屏到电视必须是近距离投屏&#xff0c;稍微远一点就会脱离WiFi连接范围&#xff0c;投屏失败。 如果想将手机远程投屏到安卓电视&#xff0c;要怎样做&#xff1f; 第一步&#xff0c;在手机和安卓电视都安…...

MySQL关联关系理论与实践

MySQL 是一种关系型数据库管理系统,以其高性能、灵活性和易用性在开发者中广受欢迎。在 MySQL 中,数据存储以表格形式存在,表与表之间的关联关系构成了关系型数据库的核心。本篇文章将介绍 MySQL 关联关系的理论基础和常见实践,包括表的类型、主外键的使用,以及连接查询的…...

多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度​

一、引言&#xff1a;多云环境的技术复杂性本质​​ 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时&#xff0c;​​基础设施的技术债呈现指数级积累​​。网络连接、身份认证、成本管理这三大核心挑战相互嵌套&#xff1a;跨云网络构建数据…...

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)

笔记整理&#xff1a;刘治强&#xff0c;浙江大学硕士生&#xff0c;研究方向为知识图谱表示学习&#xff0c;大语言模型 论文链接&#xff1a;http://arxiv.org/abs/2407.16127 发表会议&#xff1a;ISWC 2024 1. 动机 传统的知识图谱补全&#xff08;KGC&#xff09;模型通过…...

k8s业务程序联调工具-KtConnect

概述 原理 工具作用是建立了一个从本地到集群的单向VPN&#xff0c;根据VPN原理&#xff0c;打通两个内网必然需要借助一个公共中继节点&#xff0c;ktconnect工具巧妙的利用k8s原生的portforward能力&#xff0c;简化了建立连接的过程&#xff0c;apiserver间接起到了中继节…...

学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”

2025年#高考 将在近日拉开帷幕&#xff0c;#AI 监考一度冲上热搜。当AI深度融入高考&#xff0c;#时间同步 不再是辅助功能&#xff0c;而是决定AI监考系统成败的“生命线”。 AI亮相2025高考&#xff0c;40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕&#xff0c;江西、…...

面向无人机海岸带生态系统监测的语义分割基准数据集

描述&#xff1a;海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而&#xff0c;目前该领域仍面临一个挑战&#xff0c;即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

Web中间件--tomcat学习

Web中间件–tomcat Java虚拟机详解 什么是JAVA虚拟机 Java虚拟机是一个抽象的计算机&#xff0c;它可以执行Java字节码。Java虚拟机是Java平台的一部分&#xff0c;Java平台由Java语言、Java API和Java虚拟机组成。Java虚拟机的主要作用是将Java字节码转换为机器代码&#x…...

ui框架-文件列表展示

ui框架-文件列表展示 介绍 UI框架的文件列表展示组件&#xff0c;可以展示文件夹&#xff0c;支持列表展示和图标展示模式。组件提供了丰富的功能和可配置选项&#xff0c;适用于文件管理、文件上传等场景。 功能特性 支持列表模式和网格模式的切换展示支持文件和文件夹的层…...

简约商务通用宣传年终总结12套PPT模版分享

IOS风格企业宣传PPT模版&#xff0c;年终工作总结PPT模版&#xff0c;简约精致扁平化商务通用动画PPT模版&#xff0c;素雅商务PPT模版 简约商务通用宣传年终总结12套PPT模版分享:商务通用年终总结类PPT模版https://pan.quark.cn/s/ece1e252d7df...

以太网PHY布局布线指南

1. 简介 对于以太网布局布线遵循以下准则很重要&#xff0c;因为这将有助于减少信号发射&#xff0c;最大程度地减少噪声&#xff0c;确保器件作用&#xff0c;最大程度地减少泄漏并提高信号质量。 2. PHY设计准则 2.1 DRC错误检查 首先检查DRC规则是否设置正确&#xff0c;然…...

【Vue】scoped+组件通信+props校验

【scoped作用及原理】 【作用】 默认写在组件中style的样式会全局生效, 因此很容易造成多个组件之间的样式冲突问题 故而可以给组件加上scoped 属性&#xff0c; 令样式只作用于当前组件的标签 作用&#xff1a;防止不同vue组件样式污染 【原理】 给组件加上scoped 属性后…...