当前位置: 首页 > news >正文

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录

  • 1 MHE的表示能力
  • 2 基于Frobenius-范数的低秩逼近
  • 3 基于CE的低秩近似

论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE

论文地址:Online,ArXiv,GItHub

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号,获取更多资讯
在这里插入图片描述

1 MHE的表示能力

正如推论1所证明的那样,MHE的本质是一种通过多个一阶头的乘积逼近高阶极值标签的低秩逼近方法。
因此:MHE在分类问题中是否保证足够健壮的性能?

为了回答上述问题,我们将MHE推广到更一般的低秩近似问题,从Frobenius-norm度量扩展到交叉熵。如图4-a所示,如果有 G G G组具有MHE的多头,每组多头形成一个 H H H阶张量。然后,将所有这些张量相加,得到最终的输出
I Y i ≈ σ ( O ~ ) = σ ( ∑ g G O g 1 ⊗ O g 2 ⊗ ⋯ ⊗ O g H ) ( 16 a ) = σ ( ∑ g G ( W g 1 F ) ⊗ ( W g 2 F ) ⊗ ⋯ ⊗ ( W g G F ) ) , ( 16 b ) \mathbb{I}_{Y_i} \approx \sigma(\tilde{\bm O}) = \sigma(\sum_g^G \bm{O}_g^1 \otimes \bm{O}_g^2 \otimes \cdots \otimes \bm{O}_g^H) \qquad (16a) \\ = \sigma(\sum_g^G (\mathcal{W}_g^1F) \otimes (\mathcal{W}_g^2F) \otimes \cdots \otimes (\mathcal{W}_g^GF)), \qquad (16b) IYiσ(O~)=σ(gGOg1Og2OgH)(16a)=σ(gG(Wg1F)(Wg2F)(WgGF)),(16b)其中 g g g为组的索引。实际上,等式\ref{eq9_}是张量的CP分解, G G G是张量的秩。这将张量分解成一个分量秩一张量的和。从理论上讲,其他张量分解方法也可以用来近似 O \bm O O,当它被视为一个矢量化的高阶张量。
在这里插入图片描述

分类器的低秩逼近能力。(a)使用MHE的 G G G组多头分类器(G-MHE)。(b)在原点分类器上增加瓶颈层,实现 W \mathcal{W} W的低秩特性。

2 基于Frobenius-范数的低秩逼近

等式16说明了输出 O ~ \tilde{\bm O} O~的低秩近似本质上是为了限制其权重的秩。因此,我们研究低秩权重对分类器性能的影响。为了约束 W \mathcal{W} W的rank,在特征层 F \bm F F和输出层 O \bm O O之间增加一个线性瓶颈层 O b \bm{O}_b Ob,如图4-b所示。设 F \bm F F O b \bm {O}_b Ob之间的权值为 W 1 \mathcal{W}_1 W1, O b \bm{O}_b Ob O \bm O O之间的权值为 W 2 \mathcal{W}_2 W2,有
O = W 2 W 1 F + B = W ~ F + B , ( 17 ) s . t . R ( W ~ ) = r ≤ m i n ( ∣ F ∣ , ∣ O b ∣ ) , \bm {O} = \mathcal{W}_2\mathcal{W}_1 \bm{F} + \bm{B} = \tilde{\mathcal{W}} \bm{F} + \bm{B}, \qquad (17)\\ s.t. \ R(\tilde{\mathcal{W}}) = r \le min(|\bm{F}|,|\bm{O}_b|), \qquad \quad \ \ \ \ \ \ \ O=W2W1F+B=W~F+B,17s.t. R(W~)=rmin(F,Ob),       其中 W ~ = W 2 W 1 \tilde{\mathcal{W}} = \mathcal{W}_2\mathcal{W}_1 W~=W2W1, R ( ⋅ ) R(\cdot) R()是矩阵的秩。如果 W ~ \tilde{\mathcal{W}} W~被frobenius范数损失优化,有
m i n L = 1 2 ∣ ∣ I Y i − O ∣ ∣ F 2 = ∣ ∣ I Y i − W ~ F ∣ ∣ F 2 . ( 18 ) min \ L = \frac{1}{2} ||\mathbb{I}_{Y_i}-\bm{O}||_F^2 = ||\mathbb{I}_{Y_i}-\tilde{\mathcal{W}} \bm{F}||_F^2. \qquad (18) min L=21∣∣IYiOF2=∣∣IYiW~FF2.(18)等式18是一个低秩近似问题,它使 I Y i \mathbb{I}_{Y_i} IYi O \bm O O的所有元素尽可能接近。它产生了一个低秩近似 A r g m i n R ( W ~ ) ≤ r ∣ ∣ W − W ~ ∣ ∣ F 2 \mathop{Argmin}\limits_{R(\tilde{\mathcal{W}}) \le r} ||\mathcal{W}-\tilde{\mathcal{W}}||_F^2 R(W~)rArgmin∣∣WW~F2。更进一步,我们有了下面的定理。

Theorem 2: 假设 F \mathcal F F为满行秩,用frobenius范数作为损失函数对式17中的线性神经网络进行训练,不会产生虚假的局部极小值,并且每个退化的鞍点 W \mathcal{W} W要么是全局极小值,要么是二阶鞍点。

定理2的证明在附录B中给出。该定理说明方程17的任何局部最优解 W ~ ∗ \tilde{\mathcal{W}}^* W~都是全局最优解,即通过任意 W ~ ∗ \tilde{\mathcal{W}}^* W~都可以得到 I Y i \mathbb{I}_{Y_i} IYi的最优逼近。值得注意的是,定理2中指定的完整行秩条件在XLC任务中很容易得到满足。这是因为特征的长度比类别的数量要小得多,例如 ∣ F F T ∣ = ∣ F ∣ , s . t . ∣ F ∣ ≪ C |\mathcal{F}\mathcal{F}^T| = |\mathcal{F}|, s.t. |F| \ll C FFT=F,s.t.∣FC

3 基于CE的低秩近似

更进一步,如果用softmax将等式17中低秩近似的损失从Frobenius-范数推广到交叉熵(CE),我们将得到一个更好的 I Y i \mathbb{I}_{Y_i} IYi近似。这是因为方程\ref{eq10_}中的frobenius -范数度量对于分类问题过于严格,即Frobenius -范数损失倾向于近似所有元素,而CE损失倾向于选择最大的元素。因此,需要将等式17中的低秩近似推广到CE损失,CE损失是分类问题中常用但研究较少的方法。

与等式17中使用的Frobenius -范数不同,对输出的非线性操作会影响其表示能力。这是因为Softmax(训练)和不可微Argmax(测试)可以近似为
Λ ( O i ) = l i m ϵ → 0 Λ ( σ ϵ ( O i ) ) = l i m ϵ → 0 Λ ( e O i ϵ ∑ j e O i ϵ ) , ( 19 ) \varLambda(\bm{O}_i) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda (\sigma_{\epsilon}(\bm{O}_i)) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda \left(\frac{e^{\frac{\bm{O}_i}{\epsilon}}}{\sum_j{e^{\frac{\bm{O}_i}{\epsilon}}}}\right), \qquad (19) Λ(Oi)=ϵ0limΛ(σϵ(Oi))=ϵ0limΛ(jeϵOieϵOi),(19)其中 ϵ \epsilon ϵ为Softmax的温度。由公式19可知,测试中使用的Argmax操作实际上与训练中使用的Softmax和CE操作是一致的。即Eq. 19相当于CE和Softmax, Softmax使元素之间的间隙变大,CE选择最大的元素。因此,我们将低秩近似问题从Frobenius -范数损失推广到CE损失。

Theorem 3: F \mathcal F F可分离时,使用CE以softmax作为损失函数训练方程17中的两层线性网络,只要满足 R ( [ W ~ B ] ) > 1 R([{\tilde{\mathcal{W}} \atop \bm{B}}]) > 1 R([BW~])>1,就可以恢复与vanilla分类器 O = W F \mathcal{O} = \mathcal{W} \mathcal{F} O=WF相同的精度。

定理3的证明在附录C中给出。定理\ref{th3}表明,当偏差 B \bm B B存在时, R ( W ~ ) R(\tilde{\mathcal{W}}) R(W~)的最小值可以等于 1 1 1,这意味着OHE和MHE之间的性能差距相当小。同时,定理3也说明了当深度神经网络对数据进行过拟合时,其泛化与标签的语义信息无关。这意味着标签预处理技术,如HLT和标签聚类,是不必要的,因为低秩近似仍然独立于标签定位。

为了验证这个定理,我们生成 N × N N\times N N×N高斯随机样本,其中 N = 100 N=100 N=100 ∣ O b ∣ = 1 |\bm{O}_b|=1 Ob=1。如图5-a所示,训练精度和 R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))不随时代的增加而增加。然而,在图5-b中, R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))与训练精度呈正相关,并且随着epoch的增加接近 100 % 100\% 100%。然后,为了验证Softmax对CE的选择性,我们使用ResNet-18 在CIFAR-100 上进行了实验,并将 ∣ O b ∣ |\bm{O}_b| Ob设置为不同的长度。结果如图5-c所示。我们发现,当 ∣ O b ∣ |\bm{O}_b| Ob设置适当时,可以很好地保证模型的测试精度。实验部分进一步证实了这一说法。

在这里插入图片描述

图5:不同损失函数和 R ( W ~ ) R(\tilde{W}) R(W~)的实验。(a, b)两层线性网络在高斯分布随机样本上的性能。 (c ) ResNet-18在CIFAR-100数据集上的性能。

此外,当使用CE和Softmax对方程17中的模型进行训练时,低秩矩阵 W ~ \tilde{\mathcal{W}} W~的逼近误差可以通过以下定理进行分析。

Theorem 4: W ∗ \mathcal{W}^* W为方程17中模型的局部最小值,和 Δ = W ~ − W ∗ \Delta = \tilde{\mathcal{W}}-\mathcal{W}^* Δ=W~W,使用CE和softmax作为损失函数训练方程17中的双层线性网络,有
E ≤ ∑ j C ∣ e Δ j − 1 ∣ , ( 20 ) E \le \sum_j^{C} |e^{\Delta_j}-1|, \qquad (20) EjCeΔj1∣,(20)其中 E E E σ ( O ) \sigma(\mathcal{O}) σ(O) σ ( O ∗ ) \sigma(\mathcal{O}^*) σ(O)的近似误差。

定理4的证明在附录D中给出。定理4表明,近似误差 E E E与类数 C C C W ~ \tilde{\mathcal{W}} W~的秩有关。它说明了一个重要的结论:当 Δ j > 0 \Delta_j > 0 Δj>0, E E E呈指数下降时,当 Δ j → 0 \Delta_j \rightarrow 0 Δj0, E E E呈线性下降时。这与深度学习方法一致,在训练开始时损失急剧下降。

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

相关文章:

【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力

目录 1 MHE的表示能力2 基于Frobenius-范数的低秩逼近3 基于CE的低秩近似 论文:Multi-Head Encoding for Extreme Label Classification 作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang 单位:山东大学 代码:h…...

Github - unexpected disconnect while reading sideband packet

Open git global config: git config --global -eLet’s try to resolve the issue by increasing buffer: git config --global http.postBuffer 52428800Try to clone again. If that doesn’t work! > You can try the partial fetch method and disabling compressi…...

Ubuntu 环境安装 之 RabbitMQ 快速入手

Hi~!这里是奋斗的明志,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 🌱🌱个人主页:奋斗的明志 🌱🌱所属专栏:RabbitMQ 📚本系列文章为个人学…...

UE5中实现右键开镜效果

右键之后添加时间轴,然后设置视野即可。Set Field Of View 时间轴设置,第一个点设置0,90度,因为默认的就是90度 第二个点看武器的类型或者倍境来设置,时间就是开镜时间,值越小开镜速度越快,第二个值就是视野…...

Apache HTTPD 换行解析漏洞(CVE-2017-15715)

漏洞简介 pache HTTPD是一款HTTP服务器,它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞,在解析PHP时,1.php\x0A将被按照PHP后缀进行解析,导致绕过一些服务器的安全策略。 漏洞环境 vulhub/httpd/CVE-2…...

Excel重新踩坑5:二级下拉列表制作;★数据透视表;

0、在excel中函数公式不仅可以写在单元格里面,还可以写在公式里面。 1、二级下拉列表制作: 2、数据透视表: 概念:通过拖拉就能实现复杂函数才能实现的数据统计问题。 概览:在插入选项中有个数据透视表,数…...

力扣--35.搜索插入位置

题目 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2 示例 …...

C# 设计模式(行为型模式):模板方法模式

C# 设计模式(行为型模式):模板方法模式 在开发过程中,我们经常会遇到一类问题:一些操作的整体步骤是固定的,但某些具体步骤的实现会因为场景不同而有所变化。模板方法模式(Template Method Pat…...

Leetcode打卡:设计一个ATM机器

执行结果:通过 题目 2241 设计一个ATM机器 一个 ATM 机器,存有 5 种面值的钞票:20 ,50 ,100 ,200 和 500 美元。初始时,ATM 机是空的。用户可以用它存或者取任意数目的钱。 取款时&#xff0c…...

【TCP】SYN、ACK、FIN、RST、PSH、URG的全称

在 TCP 协议中,SYN、ACK、FIN、RST、PSH 和 URG 都是控制标志位(Flags),每个标志位对应不同的功能。它们的全称如下: URG:(URGent)紧急 ACK:(ACKnowledgment)确认 PSH:(PuSH)推送 RS…...

【OceanBase】使用 Superset 连接 OceanBase 数据库并进行数据可视化分析

文章目录 前言一、前提条件二、操作步骤2.1 准备云主机实例2.2 安装docker-compose2.3 使用docker-compose安装Superset2.3.1 克隆 Superset 的 GitHub 存储库2.3.2 通过 Docker Compose 启动 Superset 2.4 开通 OB Cloud 云数据库2.5 获取连接串2.6 使用 Superset 连接 OceanB…...

【通识安全】应急救护常识23则

一、异物入眼 任何细小的物体或液体,哪怕是一粒沙子或是一滴洗涤剂进入眼中,都会引起眼部疼痛,甚至损伤眼角膜。 急救办法:首先是用力且频繁地眨眼,用泪水将异物冲刷出去。如果不奏效,就将眼皮捏起&#…...

C语言:cJSON将struct结构体与JSON互相转换

文章目录 struct 转 jsonjson 转 struct 文档&#xff1a; https://github.com/DaveGamble/cJSON 项目结构 . ├── libs │ ├── cJSON.c │ └── cJSON.h └── main.c示例 struct 转 json #include "libs/cJSON.h" #include <stdio.h>// defi…...

在Linux中,如何查看和修改网络接口配置?

在Linux中&#xff0c;查看和修改网络接口配置主要依赖于几个命令行工具。这里详细介绍两种传统的命令行方式以及一些图形化工具&#xff08;前提&#xff1a;系统支持&#xff09;&#xff1a; 一、临时性修改 1. 使用ifconfig命令&#xff08;部分系统已被弃用&#xff09;…...

使用深度学习来实现图像超分辨率 综述!

今天给大家介绍一篇图像超分辨率邻域的综述&#xff0c;这篇综述总结了图像超分辨率领域的几方面&#xff1a;problem settings、数据集、performance metrics、SR方法、特定领域应用以结构组件形式&#xff0c;同时&#xff0c;总结超分方法的优点与限制。讨论了存在的问题和挑…...

基于深度学习的视觉检测小项目(六) 项目的信号和变量的规划

• 关于前后端分离 当前流行的一种常见的前后端分离模式是vueflask&#xff0c;vueflask模式的前端和后端之间进行数据的传递通常是借助 API&#xff08;应用程序编程接口&#xff09;来完成的。vue通过调用后端提供的 API 来获取或提交数据。例如&#xff0c;前端可能通过发送…...

【Android项目学习】3. MVVMHabit

项目链接 文章目录 一. 项目结构1. 项目整体划分2. 模块细分 二. Android知识点学习1. registerActivityLifecycleCallbacks方法2. 一. 项目结构 1. 项目整体划分 MVVMHabit是以谷歌DataBindingLiveDataViewModel框架为基础&#xff0c;整合OkhttpRxJavaRetrofitGlide等流行…...

在Linux中,如何配置负载均衡器以分配网络流量?

NGINX NGINX是一款高性能的HTTP和反向代理服务器&#xff0c;也常用作负载均衡器。它支持多种负载均衡算法&#xff0c;如轮询、加权轮询、IP哈希等。 配置步骤&#xff1a; 安装NGINX&#xff1a;根据您的Linux发行版&#xff0c;使用相应的包管理器安装NGINX。配置负载均衡…...

手机投屏到电视的3种选择:无线本地投屏,无线远程投屏,AirPlay投屏

现在大部分手机投屏都要求连接相同的WiFi&#xff0c;这就意味着手机投屏到电视必须是近距离投屏&#xff0c;稍微远一点就会脱离WiFi连接范围&#xff0c;投屏失败。 如果想将手机远程投屏到安卓电视&#xff0c;要怎样做&#xff1f; 第一步&#xff0c;在手机和安卓电视都安…...

MySQL关联关系理论与实践

MySQL 是一种关系型数据库管理系统,以其高性能、灵活性和易用性在开发者中广受欢迎。在 MySQL 中,数据存储以表格形式存在,表与表之间的关联关系构成了关系型数据库的核心。本篇文章将介绍 MySQL 关联关系的理论基础和常见实践,包括表的类型、主外键的使用,以及连接查询的…...

Matlab信号处理避坑指南:freqz函数里那个容易被忽略的‘whole’参数到底有什么用?

Matlab信号处理避坑指南&#xff1a;freqz函数里那个容易被忽略的‘whole’参数到底有什么用&#xff1f; 在数字信号处理领域&#xff0c;Matlab的freqz函数是分析滤波器频率响应的利器。但许多工程师在使用过程中&#xff0c;往往对那个看似不起眼的whole参数视而不见&#x…...

微软这个开源语音 AI 火了:GitHub 星标逼近 4 万,为什么大家都在讨论它?

聊天机器人这边还没卷明白&#xff0c;微软又把语音 AI 推上了热榜。这次火起来的项目&#xff0c;叫 VibeVoice。 它不是一个单点模型&#xff0c;而是一整套开源语音 AI 方案。GitHub 仓库当前星标已经逼近 4 万&#xff0c;确实是最近开源圈里最受关注的项目之一。更重要的是…...

如何用解构赋值快速提取数组前几个元素到独立变量

数组解构可安全提取前若干元素&#xff0c;长度不足时对应变量为undefined&#xff1b;支持跳过元素、设置默认值、获取剩余元素&#xff08;...rest须在末尾&#xff09;&#xff1b;嵌套解构需严格匹配结构&#xff0c;函数参数解构需防null/undefined报错。用 const [a, b, …...

mysql如何给已有数据表添加索引_使用CREATE INDEX提升查询速度

MySQL建索引需严格校验语法、字段与表名&#xff1b;优先用ALTER TABLE ADD INDEX&#xff1b;复合索引顺序须匹配查询条件&#xff1b;避免冗余索引&#xff1b;大表操作选低峰期&#xff1b;唯一索引承载约束语义&#xff1b;建索引后需ANALYZE TABLE更新统计信息。CREATE IN…...

077_D11、卡车小镇.Trucktown.适合3-8岁资料网盘下载

D11、卡车小镇.Trucktown.适合3-8岁资料网盘下载 如果你正在寻找一份适合低龄儿童启蒙观看或亲子共学的英语类动画资源&#xff0c;那么 D11、卡车小镇.Trucktown.适合3-8岁资料网盘下载 这类内容通常会是很多家长关注的方向。尤其是在家庭英语启蒙、日常磨耳朵和兴趣培养场景…...

Anthropic造了个“太危险不敢发“的AI,OpenAI 7天后正面刚

4月7号&#xff0c;Anthropic发了一篇博客&#xff0c;标题平平无奇&#xff0c;“Claude Mythos Preview”。 但博客里有一句话&#xff0c;直接把安全圈炸了&#xff1a;“这是我们有史以来构建的最强大的AI模型。” 三天后&#xff0c;Tom’s Hardware挖出了更猛的细节&…...

Qwen2.5-14B-Instruct镜像免配置:像素剧本圣殿Helm Chart一键部署K8s集群

Qwen2.5-14B-Instruct镜像免配置&#xff1a;像素剧本圣殿Helm Chart一键部署K8s集群 1. 产品概述 像素剧本圣殿&#xff08;Pixel Script Temple&#xff09;是一款基于Qwen2.5-14B-Instruct深度微调的专业剧本创作工具。它将顶尖的AI推理能力与8-Bit复古美学完美融合&#…...

告别卡顿!用GStreamer的nvv4l2decoder插件为你的RTSP播放器开启GPU硬解

告别卡顿&#xff01;用GStreamer的nvv4l2decoder插件为你的RTSP播放器开启GPU硬解 在实时视频处理领域&#xff0c;卡顿和延迟是开发者最头疼的问题之一。想象一下&#xff0c;当你正在构建一个多路视频分析系统时&#xff0c;CPU软解带来的高负载不仅让机器风扇狂转&#xff…...

MySQL数据库磁盘写满后如何紧急处理_清理日志与扩容空间

磁盘写满时MySQL卡住应先确认mysqld进程存活并检查deleted大文件&#xff1b;优先停用日志后删除slow/general log&#xff0c;binlog和redo log需停库操作&#xff1b;ibdata1膨胀只能通过导出、删文件、启用innodb_file_per_table重建解决。MySQL磁盘写满时&#xff0c;SHOW …...

从SiamFC到SiamMask:用PySOT工具包复现孪生网络跟踪算法全流程(附避坑指南)

从SiamFC到SiamMask&#xff1a;PySOT工具包实战指南与深度解析 在计算机视觉领域&#xff0c;目标跟踪一直是一个极具挑战性的研究方向。随着深度学习技术的快速发展&#xff0c;基于孪生网络的跟踪算法因其出色的性能和实时性而备受关注。本文将带您深入探索从SiamFC到SiamMa…...