【PVCodeNet】《Palm Vein Recognition Network Combining Transformer and CNN》
[1]吴凯,沈文忠,贾丁丁,等.融合Transformer和CNN的手掌静脉识别网络[J].计算机工程与应用,2023,59(24):98-109.
文章目录
- 1、Background and Motivation
- 2、Related Work
- 3、Advantages / Contributions
- 4、Method
- 5、Experiments
- 5.1、Datasets and Metrics
- 5.2、Hyper-parameters
- 5.3、Ablation Experiments
- 5.4、Compare with other methods
- 6、Conclusion(own) / Future work
1、Background and Motivation
- 生物特征识别的重要性
- 掌静脉识别的优势
- 传统掌静脉识别方法的局限性
掌静脉识别流程包括手掌静脉图像的采集、图像预处理、特征提取、识别验证四个阶段。
为了进一步提升识别精度,本文设计了结合 Transformer Encoder 和 CNN 并运用扩大决策边界的损失函数 AAM-Loss(additive angular margin loss)的掌静脉特征编码识别网络 PVCodeNet。
2、Related Work
特征提取传统方法
- 基于结构特征的方法
- 基于子空间的方法
- 是基于纹理特征的方法
基于深度学习的特征提取
3、Advantages / Contributions
贡献:
- 提出新的掌静脉识别网络PVCodeNet
- 实现高精度识别
- 验证网络泛化性能
创新点
- 首次将Transformer Encoder应用于掌静脉识别
- 使用深度超参数化卷积(Do-Conv)
- 引入规一化的注意力机制(NAM)
- 使用扩大决策边界的损失函数(AAM-Loss)
4、Method
手掌关键点定位+ROI提取
选取食指与中指间隙 A、中指与无名指间隙 B 以及无名指与小指间隙 C 作为手掌关键点
L 设置为 20 个像素
图像增强
使用 CLAHE 对比度增强后,图像噪声也得到了增强,噪声对后续的掌静脉特征提取及匹配会产生影响,本文运用中值滤波图像去噪方法来降低图像噪声的干扰
在 resnet18 的基础上修改,网络结构由 1 个Transformer Encoder 模块和 4 个改进的 BasicBlock 组成
-
首次把 Transformer Encoder 模块应用于掌静脉识别任务中(Transformer Encoder拥有全局的感受野和矩阵并行运算的能力,本文把Transformer Encoder 应用于主干网络初始阶段进行特征提取可以快速获取全局的掌静脉特征信息,提取的特征信息更加充分和全面。)
-
使用改进的残差块 ImprovedBlock(本文在传统的卷积层基础上增加一个额外的深度卷积构成深度超参数化卷积Do-Conv,使网络呈现一种过参数化状态,增加了网络可学习的参数,因此提取出的静脉特征区分度更大,特征质量更高。)
-
使用扩大决策边界的损失函数 Additive Angular Margin Loss 取代 softmax
Transformer Encoder
ImprovedBlock
深度超参数化卷积 Do-Conv(Depthwise Over-parameterized Convolutional Layer)
核心思想:在训练阶段使用额外的深度卷积来增强传统的卷积层。具体来说,每个输入通道都与不同的二维卷积核进行卷积操作,这两个卷积的组合构成了一个过参数化结构,因为它增加了可学习的参数。然而,在推理阶段,这些额外的深度卷积会被折叠到传统的卷积层中,使得最终的计算量与没有过参数化的卷积层完全相同。
不同的是,Do-Conv 比传统卷积层 Conv 在训练时多了一次深度卷积,这样就会使网络呈现出一种过参数化状态,保证了足够的参数量,用更多的参数训练不但可以提升训练速度,而且可以使网络收敛到更好的参数组合使提取静脉特征更加具有区分性,尤其是对于纹理高度相似难以区分的困难样本提取出来的特征向量区分度更大。
来自
Cao J, Li Y, Sun M, et al. Do-conv: Depthwise over-parameterized convolutional layer[J]. IEEE Transactions on Image Processing, 2022, 31: 3726-3736.
注意力机制 NAM
Additive Angular Margin Loss
5、Experiments
5.1、Datasets and Metrics
- PolyU
- SEPAD-PV(该数据集是自己用红外相机采集的 108人的手掌静脉图像,每个人左右手在旋转不同角度下在两个时期分别采集10张,左右手视为不同的类,共 216 类 4320 张图像)
- Tongji
- SDUMLA(山东大学)
评价指标 EER(equal error rate)
5.2、Hyper-parameters
首先使用基准网路在 PolyU 数据集上探究了不同的超参数起始学习率 LR 和批次 Batchsize 组合对精度的影响,
特征向量维度对比实验
512 维最好
AAM-Loss 对比实验
AAM-loss 有两个超参,s 和 m
s 被固定设置为 30,实验 m 的值对结果的影响
结论:AAM-Loss 的参数设置 s 和 m 分别设置为 30 和 0.45
5.3、Ablation Experiments
AAM-Loss 的引入提升很大
Transformer Encoder 的引入在 EER 评价指标上表现的最明显
绘制出了余弦相似度分布图,静脉图像特征向量之间的夹角越小,余弦值就越大,对应的余弦相似度就越高。
本文的方法类内相似度分布更加集中
本文算法类内余弦相似度分布在 0.8~1 之间,更加接近于理想情况下同类样本余弦相似度为1的分布,降低了在匹配阶段类内与类间模板出现交集,导致类内样本被误识为类间样本的风险。
5.4、Compare with other methods
看看在其它数据集上的表现
拉满
与其他算法的对比
6、Conclusion(own) / Future work
- Do-ConV,直观上感觉是,1x1 = 1,(1x10) x (10x1) = 1,Flops 明显会增加,网络的参数量还是没有变化的
- AAM-loss,基于 softmax 改进
更多论文解读,请参考 【Paper Reading】
相关文章:

【PVCodeNet】《Palm Vein Recognition Network Combining Transformer and CNN》
[1]吴凯,沈文忠,贾丁丁,等.融合Transformer和CNN的手掌静脉识别网络[J].计算机工程与应用,2023,59(24):98-109. 文章目录 1、Background and Motivation2、Related Work3、Advantages / Contributions4、Method5、Experiments5.1、Datasets and Metrics5.2、Hyper-parameters5.…...
CentOS 7 磁盘分区详细教程
CentOS 7 磁盘分区详细教程 在服务器管理和运维过程中,磁盘分区是一项基础且重要的操作。合理的磁盘分区可以提高数据存储的安全性、高效性,方便系统管理与维护。本文将详细介绍在 CentOS 7 系统中进行磁盘分区的具体步骤和方法。 一、准备工作 1.1 确…...
从青涩到 AI:我与评估程序的三十年 “纠缠” 与重启(参数化)
接上篇:从青涩到 AI:我与评估程序的三十年 “纠缠” 与重启 主要对参数配置和模板文件处理进行了改动,将可参数化的数据放到了config.yaml文件中,再一个将模板文件(评估模板.xlsx)分离为(7年级模板.xls…...

x-cmd install | brows - 终端里的 GitHub Releases 浏览器,告别繁琐下载!
目录 核心功能与优势安装适用场景 还在为寻找 GitHub 项目的特定 Release 版本而苦恼吗?还在网页上翻来覆去地查找下载链接吗?现在,有了 brows,一切都将变得简单高效! brows 是一款专为终端设计的 GitHub Releases 浏览…...
【python】如何将文件夹及其子文件夹下的所有word文件汇总导出到一个excel文件里?
根据你的需求,这里提供一套完整的Python解决方案,支持递归遍历子文件夹、提取Word文档内容(段落+表格),并整合到Excel中。以下是代码实现及详细说明: 一个单元格一个word的全部内容 完整代码 # -*- coding: utf-8 -*- import os from docx import Document import pand…...
C++ 封装成DLL,C#调用
目录 前言 一、C DLL 封装 二、C# 调用 DLL 1、创建 C# 控制台项目,调用 三、注意事项 前言 在实际工程开发中,跨语言调用是常见的需求,尤其是在性能要求较高的模块中,常常采用 C 实现核心算法逻辑,并通过封装为 D…...

多模态知识图谱:重构大模型RAG效能新边界
当前企业级RAG(Retrieval-Augmented Generation)系统在非结构化数据处理中面临四大核心问题: 数据孤岛效应:异构数据源(文档/表格/图像/视频)独立存储,缺乏跨模态语义关联,导致知识检…...

实验八 版本控制
实验八 版本控制 一、实验目的 掌握Git基本命令的使用。 二、实验内容 1.理解版本控制工具的意义。 2.安装Windows和Linux下的git工具。 3.利用git bash结合常用Linux命令管理文件和目录。 4.利用git创建本地仓库并进行简单的版本控制实验。 三、主要实验步骤 1.下载并安…...
微服务相比传统服务的优势
这是一道面试题,咱们先来分析这道题考察的是什么。 如果分析面试官主要考察以下几个方面: 技术理解深度 你是否清楚微服务架构(Microservices)和传统单体架构(Monolithic)的本质区别。能否从设计理念、技术…...

JavaWeb:Web介绍
Web开篇 什么是web? Web网站工作流程 网站开发模式 Web前端开发 初识web Web标准 HtmlCss 什么是Html? 什么是CSS?...

教育行业网络安全:守护学校终端安全,筑牢教育行业网络安全防线!
教育行业面临的终端安全问题日益突出,主要源于教育信息化进程的加速、终端设备多样化以及网络环境的开放性。 以下是教育行业终端安全面临的主要挑战: 1、设备类型复杂化 问题:教育机构使用的终端设备包括PC、服务器等,操作系统…...
【论文速递】2025年04周 (Robotics/Embodied AI/LLM)
目录 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning摘要 Evolving Deeper LLM Thinking摘要 Kimi k1.5: Scaling Reinforcement Learning with LLMs摘要 Agent-R: Training Language Model Agents to Reflect via Iterative Self-Train…...

Spring Boot知识点详解
打包部署 <!‐‐ 这个插件,可以将应用打包成一个可执行的jar包;‐‐> <build><plugins> <plugin> <groupId>org.springframework.boot</groupId><artifactId>spring‐boot‐maven‐plugin</artifactId&g…...
LangChain与图数据库Neo4j LLMGraphTransformer融合:医疗辅助诊断、金融风控领域垂直领域、法律咨询场景问答系统的技术实践
LangChain与图数据库融合:垂直领域问答系统的技术实践 一、技术背景与核心价值 在垂直领域(如金融、医疗、法律)的问答场景中,传统RAG系统常面临实体关系推理不足和专业术语理解偏差的痛点。LangChain通过集成图数据库与知识图谱…...

DNS主从同步及解析
DNS 域名解析原理 域名系统的层次结构 :DNS 采用分层树状结构,顶级域名(如.com、.org、.net 等)位于顶层,下面是二级域名、三级域名等。例如,在域名 “www.example.com” 中,“com” 是顶级域名…...

在Windows11上用wsl配置docker register 镜像地址
一、下载软件 1、下载wsl:安装 WSL | Microsoft Learn,先按照旧版 WSL 的手动安装步骤 | Microsoft Learn的步骤走 注:如果wsl2怎么都安装不下来,可能是Hyper-V没有打开,打开控制面板->程序和功能->启用或关闭Windows功能,勾选Hyper-V 如果Windows功能里面没有Hyp…...
Spring—循环依赖与三级缓存
Spring中存在三级缓存: 第一层缓存(singletonObjects):单例对象缓存池,已经实例化并且属性赋值,这里的对象是成熟对象;第二层缓存(earlySingletonObjects):单…...

【Linux网络】构建UDP服务器与字典翻译系统
📢博客主页:https://blog.csdn.net/2301_779549673 📢博客仓库:https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! &…...

【PGCCC】Postgres 故障排除:修复重复的主键行
如何从表中删除不需要的重复行。这些重复行之所以“不需要”,是因为同一个值在指定为主键的列中出现多次。自从 glibc 好心地改变了排序方式后,我们发现这个问题有所增加。当用户升级操作系统并修改底层 glibc 库时,这可能会导致无效索引。 唯…...

DeepSeek+Cursor+Devbox+Sealos项目实战
黑马程序员DeepSeekCursorDevboxSealos带你零代码搞定实战项目开发部署视频教程,基于AI完成项目的设计、开发、测试、联调、部署全流程 原视频地址视频选的项目非常基础,基本就是过了个web开发流程,但我在实际跟着操作时,ai依然会…...

996引擎-拓展变量:物品变量
996引擎-拓展变量:物品变量 测试代码参考资料对于Lua来说,只有能保存数据库的变量才有意义。 至于临时变量,不像TXT那么束手束脚,通常使用Lua变量就能完成。 SELECT * FROM dbo.TBL_ITEM_EX_ABIL WHERE FLD_MAKEINDEX = 28620 <...
Java 设计模式心法之第3篇 - 总纲:三大流派与导航地图
前两章,我们修炼了 SOLID 这套强大的“内功心法”,为构建高质量软件打下了坚实根基。现在,是时候鸟瞰整个设计模式的“武林”了!本文将为您展开一幅由 GoF 四人帮精心绘制的 23 种经典设计模式的“全景导航地图”。我们将探索这些…...
【OpenCV图像处理实战】从基础操作到工业级应用
目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心代码实现(6个案例)案例1:图像基本操作案例2:边缘检测案例3&…...
如何识别金融欺诈行为并进行分析预警
金融行业以其高效便捷的服务深刻改变了人们的生活方式。然而,伴随技术进步而来的,是金融欺诈行为的日益猖獗。从信用卡盗刷到复杂的庞氏骗局,再到网络钓鱼和洗钱活动,金融欺诈的形式层出不穷,其规模和影响也在不断扩大。根据全球反欺诈组织(ACFE)的最新报告,仅2022年,…...

【踩坑记录】stm32 jlink程序烧录不进去
最近通过Jlink给STM32烧写程序时一直报错,但是换一个其他工程就可以烧录,对比了一下jink配置,发现是速率选太高了“SW Device”,将烧录速率调整到10MHz以下就可以了...
SpringSecurity源码解读AbstractAuthenticationProcessingFilter
一、介绍 AbstractAuthenticationProcessingFilter 是 Spring Security 框架里的一个抽象过滤器,它在处理基于表单的认证等认证流程时起着关键作用。它继承自 GenericFilterBean,并实现了 javax.servlet.Filter 接口。此过滤器的主要功能是拦截客户端发送的认证请求,对请求…...

RISC-V低功耗MCU动态时钟门控技术详解
我来分享一下RISC-V核低功耗MCU的动态时钟门控技术实现: 这款MCU通过硬件级时钟门控电路实现了模块级的功耗管理。当外设(如UART、SPI)处于闲置状态时,系统会自动切断其时钟信号,减少无效翻转功耗。同时支持多电压域协…...
网络设备配置实战:交换机与路由器的入门到精通
引言:网络设备——构建数字世界的基石 想象一下走进一个现代化的数据中心,成千上万的线缆如同神经网络般连接着各种设备,而交换机和路由器就是这些网络连接的智能枢纽。作为网络工程师,熟练掌握这些核心网络设备的配置与管理,就如同建筑师精通各种建筑工具和材料一样重要…...
移动通信行业术语
英文缩写英文全称中文名称解释/上下文举例IMSIP Multimedia SubsystemIP多媒体子系统SIPSession Initiation Protocol会话初始化协议常见小写sip同。ePDG/EPDGEvolved Packet Data Gateway演进分组数据网关 EPDG是LTE(4G)和后续蜂窝网络架构(…...

工厂模式:解耦对象创建与使用的设计模式
工厂模式:解耦对象创建与使用的设计模式 一、模式核心:封装对象创建逻辑,客户端无需关心具体实现 在软件开发中,当创建对象的逻辑复杂或频繁变化时,直接在客户端代码中 new 对象会导致耦合度高、难以维护。例如&…...