当前位置: 首页 > article >正文

【跨域姿态估计】Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning

论文信息论文题目Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning作者均来自浙江大学计算机科学与技术学院论文链接https://doi.org/10.1109/TCSVT.2025.3557844Github链接https://github.com/LeHan-ZJU/UDARP-9.4K动物姿态估计Animal Pose Estimation, APE近年来在神经科学、脑机接口、动物行为分析等场景中越来越重要但和人体姿态估计相比这一方向长期受到两个现实问题制约一是标注数据稀缺二是不同动物种类、不同采集场景之间存在显著域偏移。尤其当目标体型较小、背景复杂时模型往往很难直接迁移。论文作者正是围绕这个问题提出了一种新的跨域动物姿态估计框架 SA2Net试图从“骨架异常学习”的角度重新定义伪标签筛选问题。此外论文还提出了一个全新的大鼠姿态估计数据集UDARP-9.4K共包含 9399 张标注图像覆盖 5 个实验场景并带有关键点与检测框标注。一、论文主要思想这篇论文的出发点非常明确现有无监督域适应方法大多依赖伪标签而伪标签的质量决定了后续迁移训练的上限。已有方法通常通过“位置一致性”来判断目标域预测是否可靠即把一张图像及其增强版本分别送入模型如果两次预测的关键点位置足够一致就把它看成正确预测并作为伪标签。但作者指出这个准则有一个根本漏洞如果两次预测犯了同样的错误它们依然可能表现出高度一致从而被错误地当成高质量伪标签。这会造成大量 false positive严重污染后续训练。因此论文没有继续在“位置是否一致”上打补丁而是把问题提升为我们能不能直接判断一个预测得到的骨架是否“异常”作者认为姿态本质上不是一堆彼此独立的点而是一个有连接关系的骨架图。既然骨架天然是图结构那么相比欧式空间中的坐标比较在图空间中建模骨架异常更有希望识别那些“看起来一致、实际上错了”的预测。基于这个想法作者提出了 Skeleton Anomaly-aware LearningSAL机制让模型学会区分正常骨架和异常骨架再把这种“异常感知能力”反馈到跨域训练中用于更精准地生成伪标签并约束没有伪标签的目标域样本。换句话说这篇论文最核心的思想是**跨域动物姿态估计的关键不只是做域对齐而是先学会判断目标域预测出来的骨架到底靠不靠谱。**作者将“伪标签筛选”从简单的位置一致性问题转化为了“骨架异常识别”问题这也是整篇工作的理论支点。二、核心创新点1. 首次从骨架异常学习角度重构伪标签生成论文提出的 SAL 机制不再仅凭增强前后关键点坐标是否接近来选择伪标签而是将两组关键点构造成骨架图并在图空间中学习“正常/异常”分布。这样做的意义在于模型不仅看点的位置还看点与点之间形成的结构关系从而更容易识别那些整体结构不合理的预测结果。2. 将骨架异常知识反馈到域适应全过程作者没有把 SAL 当成一个独立的后处理模块而是设计了 Skeleton Anomaly-feedback based Domain AdaptationSADA框架把骨架异常知识反馈到目标域训练中。一方面它帮助从目标域中挑出更准确的伪标签另一方面对那些没有通过伪标签筛选的样本也通过图约束进行自监督学习尽量减少数据浪费。3. 提出面向小目标、多场景的大鼠姿态数据集 UDARP-9.4K论文同时构建了一个新的大鼠姿态估计数据集 UDARP-9.4K共 9399 张图像覆盖五个实验场景并带有关键点与检测框标注。作者特别强调这个数据集填补了“小尺寸动物、多实验场景”姿态数据的空白适合用于跨场景迁移和动物行为分析研究。4. 兼顾结构建模与对象特异特征对齐除了骨架异常学习外论文还设计了 OSFAObject-Specific Feature Align模块在跨域训练中隐式对齐对象特异特征。作者认为对姿态估计这种细粒度任务来说简单做整图级域对齐是不够的真正重要的是和动物身体结构相关的局部特征。OSFA 通过 cross-attention 强化这种跨域特征交互。三、方法介绍1. 整体框架SAL SADA 双阶段协同整篇方法可以概括为两个核心组件。第一部分是 SAL用源域标注数据构造骨架图样本对学习“异常骨架”的判别知识第二部分是 SADA把这种知识用于目标域伪标签生成、无伪标签样本约束以及跨域联合训练。2. 骨架图如何表示作者把姿态骨架建模成图其中每个关键点是一个节点。与仅使用坐标不同论文为每个节点设计了“坐标 局部夹角”的特征表示。其定义为Mei[j,k]yi,0j≤2 M_e^i[j,k] y_i,\quad 0j\le 2Mei​[j,k]yi​,0j≤2Mei[j,k]Ai[j−2],2j≤2C(ne,2) M_e^i[j,k] A_i[j-2],\quad 2j\le 2C(n_e,2)Mei​[j,k]Ai​[j−2],2j≤2C(ne​,2)这里前两维表示关键点坐标后面几维表示与该关键点相连边之间形成的角度。作者强调角度特征相比距离特征更不受尺度变化影响因此对小尺寸动物更友好。从图神经网络角度看作者还给出了异常信息传播的分析。对于异常节点vvv其在第l1l1l1层的表示为hv(l1)fgl(fagg(G(l),v))fgl(σ(∑u∈N(v)hu(l)hv(l))) h_v^{(l1)} f_g^l \big(f_{agg}(G^{(l)},v)\big) f_g^l\left(\sigma\left(\sum_{u\in N(v)} h_u^{(l)} h_v^{(l)}\right)\right)hv(l1)​fgl​(fagg​(G(l),v))fgl​​σ​u∈N(v)∑​hu(l)​hv(l)​​​这说明异常节点的信息会在消息传递过程中逐步汇入全局图特征因此 GNN 对骨架结构异常比单纯欧式空间比较更敏感。3. SAL 如何学习“正常/异常骨架”为了训练 SAL作者并不需要额外人工标注“异常骨架”而是从源域真实标注出发通过噪声模拟来构造正负样本对。具体来说先对源域关键点做几何变换再向两组关键点加入不同强度、不同模式的噪声。正样本加入小范围随机噪声负样本则加入更大范围噪声甚至加入“同步错误”来模拟增强前后犯同样错误的情况。这样构造出来的样本对就能逼近真实伪标签筛选时可能遇到的困难案例。这个设计非常巧妙。因为论文真正想解决的恰恰不是“两个预测不一致”的普通错误而是“两个预测一致但同时错了”的伪一致现象。SAL 通过专门构造这类困难负样本让模型在训练时就学会识别这种伪一致。4. 目标域伪标签生成在目标域中对于样本xtx_txt​及其增强版本Ma(xt)M_a(x_t)Ma​(xt​)先用预训练姿态模型得到两组预测关键点再交给 SAL 计算骨架相似性分数。论文用如下条件区分有无伪标签的样本xt∈Dtp,fSAL(P(xt),P(Ma(xt)))T x_t \in D_t^p,\quad f_{SAL}(P(x_t),P(M_a(x_t))) Txt​∈Dtp​,fSAL​(P(xt​),P(Ma​(xt​)))Txt∈Dtu,fSAL(P(xt),P(Ma(xt)))≤T x_t \in D_t^u,\quad f_{SAL}(P(x_t),P(M_a(x_t))) \le Txt​∈Dtu​,fSAL​(P(xt​),P(Ma​(xt​)))≤T其中阈值T0.5T0.5T0.5。通过这种方式目标域样本被分成“可作为伪标签监督的样本”和“暂时不能直接信任的样本”两类。相比传统位置一致性策略这种基于结构异常的判断更可靠。5. 没有伪标签的样本怎么用很多伪标签方法会丢弃低置信样本但作者认为这部分数据里仍然包含有价值的对象信息因此提出图约束项 Graph Constraint TermGCT进行自监督学习。首先用 soft-argmax 从热力图中获得可微分的关键点坐标例如横坐标定义为xi∑lw∑rheβhi[l,r]∑mw∑kheβhi[m,k] l x_i \sum_l^w \sum_r^h \frac{e^{\beta h_i[l,r]}}{\sum_m^w \sum_k^h e^{\beta h_i[m,k]}}\, lxi​l∑w​r∑h​∑mw​∑kh​eβhi​[m,k]eβhi​[l,r]​l然后通过 SAL 计算增强前后预测骨架的相似性并定义图约束损失LGCTe−fSAL(y^i,y^i′)⋅[h^−Ma(−a,h^′)]2 L_{GCT} e^{-f_{SAL}(\hat y_i,\hat y_i)} \cdot [\hat h - M_a(-a,\hat h)]^2LGCT​e−fSAL​(y^​i​,y^​i′​)⋅[h^−Ma​(−a,h^′)]2这个损失把“热图的一致性”与“骨架结构的一致性”结合起来若 SAL 判断两次预测在结构上更可信则一致性约束更有意义反之则降低其影响。这个设计避免了把明显错误的结构强行拉近。6. OSFA做更适合姿态估计的跨域对齐SADA 中还包含一个 OSFA 模块它采用双流输入和 cross-attention 机制隐式对齐对象特异特征。其核心表达式之一为fspc1softmax(Q1K1Tdk)V1⊕softmax(Q1K2Tdk)V2 f_{spc}^1 \text{softmax}\left(\frac{Q_1K_1^T}{\sqrt{d_k}}\right)V_1 \oplus \text{softmax}\left(\frac{Q_1K_2^T}{\sqrt{d_k}}\right)V_2fspc1​softmax(dk​​Q1​K1T​​)V1​⊕softmax(dk​​Q1​K2T​​)V2​这里一部分是域内自注意力提炼另一部分是跨域交互对齐最后在通道维拼接。作者的目的不是做粗粒度域混合而是强化对“动物自身相关区域”的感知。7. 实验结果说明了什么论文在 UDARP-9.4K、TigDog 和 AP-10K 三个数据集上进行了验证覆盖跨场景和跨物种两类任务。结果表明SA2Net 在多个设定下优于 DANN、DRDA、CC-SSL、MDAMT、ScarceNet 和 CapeFormer 等对比方法在伪标签质量评估中SAL 生成的伪标签精度也显著高于传统的 Position Consistency 策略。作者还通过特征聚类展示在欧式空间中正负样本容易混淆在 SAL 学到的图特征空间中正负样本分布更可分。这说明作者的核心判断是成立的对于跨域姿态估计真正关键的不是单纯比较关键点位置而是学习骨架结构本身的合理性。四、总结与展望总体来看这篇论文的价值不只在于提出了一个性能更好的模型更在于它提供了一种新的问题拆解方式。传统跨域姿态估计往往围绕“如何对齐源域和目标域”展开而这篇论文把关注点前移到了“如何判断目标域预测结果是否可信”上。作者用骨架图建模、异常学习、图约束自监督以及对象特异特征对齐构建出一条比较完整的技术链条也使得 SA2Net 在小目标、复杂背景和跨场景设定下表现出较强优势。我认为这篇工作的最大启发在于**对结构化预测任务而言伪标签质量控制不应只依赖输出层面的数值一致性而应借助任务本身的结构先验。**在动物姿态估计中这个结构先验是骨架在其他任务中也许可以是时序关系、拓扑关系或语义依赖。论文的思路具有一定可迁移性。当然作者也坦率指出了方法的局限当跨域双方在形态上差异极大时例如直立行走动物与四足动物之间已学习到的骨架知识会变得不够适用。这意味着该方法更适合“存在一定结构共性”的跨域迁移而对极端异构形态的开放域适应仍然不足。未来如果能结合更强的通用视觉先验或许能进一步提升方法的适用范围。从未来研究角度看这项工作至少还有三个值得延伸的方向。第一进一步处理跨物种极端形态差异引入更抽象的解剖学或语义先验第二把静态骨架异常推广到视频级时序异常感知在行为分析中会更有价值第三将这种“结构可靠性评估”思想迁移到其他关键点任务例如手势、医学骨架、机器人关节估计等。就这一点而言这篇论文不仅是一篇动物姿态估计论文也是一篇关于“如何更聪明地使用伪标签”的论文。

相关文章:

【跨域姿态估计】Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning

论文信息 论文题目 Cross-Domain Animal Pose Estimation With Skeleton Anomaly-Aware Learning 作者均来自浙江大学计算机科学与技术学院 论文链接 https://doi.org/10.1109/TCSVT.2025.3557844 Github链接 https://github.com/LeHan-ZJU/UDARP-9.4K动物姿态估计(…...

【Kafka系列·进阶第四篇】云原生收官实战:K8s容器化部署+运维自动化+集群迁移

大家好,在上一篇进阶第三篇中,我们完成了Kafka流处理与数据治理体系搭建,实现了实时数据计算、消息格式强校验、多租户权限隔离,让传统Kafka集群具备了企业级合规管控能力。但随着云原生架构普及,传统物理机/虚拟机部署…...

终极RDP Wrapper完整指南:3步解决Windows远程桌面限制 [特殊字符]

终极RDP Wrapper完整指南:3步解决Windows远程桌面限制 🚀 【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper Library 是一款革命性的开源工具,它让Windows家庭版也能拥…...

【Kafka系列·进阶第三篇】流处理与数据治理实战:Streams实时计算+Schema校验+多租户管控

大家好,在上一篇进阶第二篇中,我们完成了Kafka全链路性能调优,让集群实现高吞吐低延迟的双达标,彻底解决了高并发场景下的性能瓶颈。但很多同学会发现,普通的生产消费模式,只能实现消息的简单传输&#xff…...

数组arr

一.概念[必须是常量值] 1.概念2.一维数组的创及其初始化(怎么定义数组) 2.1数组创建2.2数组初始化2.2数组类型(去掉数组名)3.一维数组的使用 3.1数组下标(从0开始)3.2如何打印目标数组元素3.3如何打印数组所…...

大模型应用必看:分块策略详解(收藏版),轻松提升RAG系统召回率!

本文深入探讨了在RAG系统中,如何通过分块策略提升大模型的处理效率和召回率。文章详细介绍了固定大小、重叠、递归、文档特定、语义及混合等分块策略,并分析了每种策略的优缺点及适用场景。通过LangChain提供的多种文档分块方法,开发者可以轻…...

Pi0机器人控制初体验:Web界面操作详解,从安装到运行全流程

Pi0机器人控制初体验:Web界面操作详解,从安装到运行全流程 1. 项目概述 Pi0是一个创新的视觉-语言-动作流模型,专为通用机器人控制设计。这个项目提供了一个直观的Web演示界面,让用户能够通过浏览器轻松控制机器人。无论您是机器…...

02阶段:大模型部署机器人项目

一、ollama私有大模型本地部署 1.智聊机器人概述 ① 知道什么是聊天机器人 能够听懂人话,并且说出人话的程序。 1)基本定义:一个用来模拟人类对话或聊天的程序。 2)主要应用:客服支持、智能助手、社交互动、教育学习…...

没历史数据怎么建基站?NetSpatial:教你用AI看“卫星图”推演全城流量!

文章目录没历史数据怎么建基站?NetSpatial:教你用AI看“卫星图”推演全城流量!一、城市通信的“薛定谔状态”:从玄学选址到算力崩溃二、NetSpatial的破局本质:从“被动算命”到“主动沙盘推演”💡 深度拆解…...

Adobe-GenP 3.0:终极Adobe CC全系列激活指南

Adobe-GenP 3.0:终极Adobe CC全系列激活指南 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款功能强大的通用补丁工具,专…...

像素史诗效果展示:研报生成过程中的‘能量值’反馈与推理稳定性监测

像素史诗效果展示:研报生成过程中的能量值反馈与推理稳定性监测 1. 像素史诗智识终端概览 Pixel Epic Wisdom Terminal是一款基于AgentCPM-Report大模型构建的研究报告辅助系统,它将枯燥的科研工作转化为一场视觉化的像素冒险。系统采用16-bit复古游戏…...

立知-lychee-rerank-mm详细步骤:日志排查、重启、调试全流程

立知-lychee-rerank-mm详细步骤:日志排查、重启、调试全流程 1. 引言:当重排序模型“罢工”时 想象一下这个场景:你正在搭建一个智能问答系统,用户上传了一张“金毛犬在草地上奔跑”的图片,并问“这是什么品种的狗&a…...

从“普惠”到“全能”:全志T153工业芯如何以HZ-T153_MiniEVM重塑工控开发体验

1. 为什么工业控制需要"普惠型"芯片? 在工业自动化领域,设备制造商常常面临一个两难选择:要么采用性能强大但价格昂贵的外国芯片方案,要么选择价格低廉但功能受限的入门级控制器。全志T153的出现打破了这种局面&#xf…...

数字化电价执行错误识别新模式:原理、模型与工程实现

目录 一、研究背景与业务痛点(为什么要做数字化识别) 1.1 电价执行合规的核心意义 1.2 传统电价核查模式的核心痛点(附业务具象化) 1.3 数字化识别模式的核心价值 二、总体模型设计思路(核心逻辑拆解) 三、行业细分与用电行为定性分析(高风险场景聚焦) 3.1 高风险…...

IntelliJ IDEA 2026.1 安装配置与高效开发环境搭建 (保姆级图文教程)

IDEA 2026.1 部署工具包下载 0. 前言 在 2026 年,IntelliJ IDEA 2026.1 不仅仅是一个编辑器,它已经进化为深度集成 DeepSeek/GPT-4o、支持云原生架构的开发者大脑。对于 Java 程序员来说,环境搭建不仅仅是“装上软件”,更是性能…...

资源优化攻略:如何在消费级显卡上高效运行lora-scripts训练

资源优化攻略:如何在消费级显卡上高效运行lora-scripts训练 1. 理解LoRA训练的资源挑战 LoRA(Low-Rank Adaptation)技术已经成为微调大型模型的主流方法,它通过冻结预训练模型的权重,只训练少量低秩矩阵来实现高效适…...

Agent深度问题

一. skills和sub agent的区别 在 AI Agent 架构体系中,Skills(技能) 和 Sub Agent(子智能体) 是两种核心的能力扩展方案,二者的核心差异在于是否具备独立推理规划能力、是否拥有独立上下文生命周期,可通俗理解为「工具箱里的专用工具」与「可独立干活的专项专家」的区别…...

GTE-Pro与PyTorch Lightning整合:分布式训练优化

GTE-Pro与PyTorch Lightning整合:分布式训练优化 1. 为什么GTE-Pro需要PyTorch Lightning来加速训练 GTE-Pro作为一款企业级语义智能引擎,它的核心能力在于将文本转化为高维意义向量。但这种能力不是凭空而来的——它需要在海量文本数据上进行充分训练…...

系统部署自动化

系统部署自动化:提升效率的关键利器 在数字化转型的浪潮中,系统部署自动化已成为企业提升运维效率、降低人为错误的核心技术。传统的手动部署方式不仅耗时耗力,还容易因操作失误导致系统故障。而自动化部署通过脚本和工具实现一键式操作&…...

【ArkUI】简述 UIAbility 组件的生命周期、启动模式和基本用法

一、UIAbility 组件概述 UIAbility 组件是一种包含 UI 的应用组件,主要用于和用户交互。例如,图库类应用可以在 UIAbility 组件中展示图片瀑布流。 UIAbility 的设计理念是:支持应用组件级的跨端迁移和多端协同。支持多设备和多窗口形态。 UIAbility 组件是系统调度的基本单…...

基于机器视觉的苹果品质分级系统的设计与实现

前言 在对苹果品质进行分级时经常应用到的技术是机器视觉技术,此技术在当前的应用中已经逐渐成为最关键的检测方法之一。机器视觉技术由于受到图像处理技术的支持在苹果品质品质检测方面更加科学与专业,由此在以后的技术应用与发展中越来越有发展前途。 …...

智慧树自动刷课插件:3步实现无人值守学习

智慧树自动刷课插件:3步实现无人值守学习 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台的网课进度烦恼吗?智慧树自动刷课插件…...

FPGA新手避坑指南:手把手教你搞定RTL8211千兆网PHY的时序配置(附Verilog代码)

FPGA实战:RTL8211千兆网PHY时序配置全解析与避坑指南 刚接触FPGA与以太网通信的开发者,十有八九会在RTL8211这类千兆网PHY芯片上栽跟头——硬件连接看似正确,代码逻辑反复检查无误,但网络就是不通,或者频繁丢包。这往往…...

3分钟实现GitHub界面本地化:开源界面翻译工具的完整指南

3分钟实现GitHub界面本地化:开源界面翻译工具的完整指南 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 还在为GitHub的英…...

移动端电量优化技巧

移动端电量优化技巧:让你的手机续航更持久 在移动互联网时代,智能手机已经成为我们生活中不可或缺的一部分。随着应用功能的丰富和屏幕亮度的提升,电池续航问题也日益突出。如何在不影响使用体验的前提下,有效延长手机续航时间&a…...

移动端架构演进

移动端架构演进:从简单到智能的蜕变 移动互联网的飞速发展,推动了移动端架构的持续演进。从早期的单一功能应用,到如今复杂的智能化平台,移动端架构经历了多次重大变革。每一次演进不仅提升了开发效率和应用性能,也为…...

org.openpnp.vision.pipeline.stages.DetectLinesHough

文章目录org.openpnp.vision.pipeline.stages.DetectLinesHough功能参数例子测试图像generate_line_test_image.pycv-pipeline效果ENDorg.openpnp.vision.pipeline.stages.DetectLinesHough 功能 在图像中检测直线段 在DetectLinesHough之前,需要执行DetectEdgesC…...

【稀缺首发】SITS2026圆桌闭门纪要:全球仅12家机构获准验证的多模态推理新范式(含3项未公开Benchmark数据)

第一章:SITS2026圆桌:多模态大模型未来趋势 2026奇点智能技术大会(https://ml-summit.org) 在SITS2026圆桌论坛中,来自Meta、DeepMind、中科院自动化所与上海AI Lab的七位首席科学家共同指出:多模态大模型正从“跨模态对齐”迈向…...

LangChain、LangGraph入门

本文主要是基于学习的datawhale关于langchain、langgraoh课程,记录的学习过程与个人看法。 安装依赖 安装langchain、langgraph、openai依赖及用于管理环境变量(python-dotenv)的辅助依赖 pip install langchain langgraph openai langchain_openai python-doten…...

org.openpnp.vision.pipeline.stages.DetectFixedCirclesHough

文章目录org.openpnp.vision.pipeline.stages.DetectFixedCirclesHough功能参数固定参数(在 XML 中配置)动态参数(必须通过 pipeline.setProperty() 预先设置)例子效果ENDorg.openpnp.vision.pipeline.stages.DetectFixedCirclesH…...