当前位置: 首页 > article >正文

基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破

导读

应对气候变化对非洲象的生存威胁,本研究创新采用无人机航拍结合AI姿态分析技术,突破传统观测局限。团队在肯尼亚桑布鲁保护区对比测试DeepLabCut与YOLO-NAS-Pose两种模型,首次将后者引入野生动物研究。通过检测象群头部、脊柱等关键点(50像素分辨率),YOLO-NAS-Pose在RMSE、PCK、OKS等指标上全面超越实验室常用工具,实现多目标行为动态解析。该技术突破为裂变-融合社会结构的大象群体行为研究提供高精度自动化解决方案,推动无人机生态监测在保护生物学中的应用进程。>>更多资讯可加入CV技术群获取了解哦~

图片1.png

论文题目:

Whole-Herd Elephant Pose Estimation from Drone Data for Collective Behavior Analysis

论文链接:

https://arxiv.org/pdf/2411.00196


目录

一、方法

数据集

千款模型+海量数据,开箱即用!

DeepLabCut工作流程

YOLO-NAS-Pose工作流程

性能评估

无需代码,训练结果即时可见!

从实验到落地,全程高速零代码!

二、实验结果

三、讨论

四、结论


一、方法

  • 数据集

本研究采用配备广角摄像头的无人机技术观测象群,确保单帧画面可呈现整个群体。无人机数据采集带来特定挑战。"拯救大象"野外团队在保证数据质量最大化的同时,尽可能减少对大象的干扰以捕捉真实行为。此前研究表明无人机会引发大象不同程度的反应。虽然更高分辨率数据更具优势,但使用多架无人机可能改变大象自然行为。为此,无人机在肯尼亚允许的最高飞行高度(400英尺)进行操作,通过稳定云台平台以29帧/秒、3840×2160分辨率拍摄视频。研究期间无人机固定于设定高度进行俯拍,确保视角统一。在该飞行高度下,视频中幼象从鼻到尾约占8像素,成年象最多占70像素。图1展示了无人机视频的示例帧。

图片2.png

研究重点识别与社交行为相关的关键点,如头部朝向和耳朵扇动等。因此选择图2所示的8个关键点作为姿态估计目标。

图片3.png

数据集包含23段视频,每段约5分钟时长。从中选取俯拍帧,最终得到包含1308头大象的133帧图像。基于这些帧创建了人工标注的训练数据集,包括边界框和图2定义的关键点。标注时,对特别幼小的象崽若无法辨别耳朵,则仅标注脊柱关键点,耳朵标记为"遮挡"。

标注数据集按90-10-10比例划分为训练集-验证集-测试集。测试集来自完全独立的四段视频,确保与训练集和验证集无视频来源重叠。

  • 千款模型+海量数据,开箱即用!

平台汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!

IMG_2734.GIF

  • 预处理

在进入任一工作流程之前,都要对数据进行预处理,以满足 YOLOv5 模型对对象尺寸的要求。标记的视频帧被平铺为 800x800 像素,窗口间距有 33% 的重叠,以确保帧内大象有合适的对象尺寸。然后使用以下两个工作流程对数据进行姿态估计。

  • DeepLabCut工作流程

  • 大象检测器

首先采用YOLOv5模型和MegaDetector预训练模型对前文定义的数据集进行微调。这些模型被训练用于生成画面中大象的边界框。

当预测出边界框后,以检测框为中心截取正方形图像,其边长取边界框最大尺寸增加20%余量。这些图像块随后被调整为100×100像素。该格式用于训练DeepLabCut,通过提供居中放大的动物图像来消除背景不一致带来的干扰。

  • DeepLabCut

使用姿态数据集训练DeepLabCut模型。数据被转换为DLC训练格式,模型训练80万次迭代直至损失收敛。

  • YOLO-NAS-Pose工作流程

为了训练 YOLO-NAS-Pose 网络,使用了与训练检测器和 DeepLabCut 工作流程相同的数据集,并添加了手动注释的姿势。然后对模型进行训练,以提供整个图像的边界框和姿势。

  • 性能评估

采用独立测试集评估两种工作流程。YOLOv5检测器与YOLO-NAS-Pose的边界框准确性通过平均精度均值(mAP)评估。两种工作流程的姿态估计均采用均方根误差(RMSE)、正确关键点百分比(PCK)和物体关键点相似度(OKS)进行评估。为保证公平比较,由于DeepLabCut仅能在提取的边界框上进行姿态估计,评估时仅选取YOLO-NAS-Pose工作流程中正确检测的边界框。

图片4.png

为识别正确检测目标,YOLO-NAS-Pose输出的边界框经非极大值抑制(NMS)处理,最大重叠阈值设为0.5。经过去重的边界框按置信度排序后与真实标注计算交并比(IoU)。当预测框与真实标注框IoU≥0.5时视为候选匹配,若多个预测框对应同一真实框,则选取置信度最高者。

  • 可视化视频追踪

虽然连续视频并非训练或定量评估的必要条件,但个体连续影像对定性评估大有助益。通过DeepSORT算法对每帧检测个体生成追踪视频片段。该方法通过比较图像块位置、嵌入特征和物体运动动量来识别视频中的连续目标。由于部分个体分辨率过低,本研究排除边界框小于50像素的幼象,重点分析成年象行为。最终从训练集、验证集和测试集的原始视频中提取25段视频用于姿态估计评估。

如果你也想要使用模型进行训练或改进,Coovally——新一代AI开发平台,为研究者和产业开发者提供极简高效的AI训练与优化体验!Coovally支持计算机视觉全任务类型,包括目标检测、文字识别、实例分割、并且即将推出关键点检测、多模态3D检测、目标追踪等全新任务类型。

  • 无需代码,训练结果即时可见!

在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!

图片

  • 从实验到落地,全程高速零代码!

无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:

  • 免环境配置:直接调用预置框架(PyTorch、TensorFlow等);

  • 免复杂参数调整:内置自动化训练流程,小白也能轻松上手;

  • 高性能算力支持:分布式训练加速,快速产出可用模型;

  • 无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。

!!点击下方链接,立即体验Coovally!!

平台链接:https://www.coovally.com

无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!


二、实验结果

在初始工作流程中发现,采用YOLOv5标准预训练权重的检测效果优于megadetector权重。边界框检测器的mAP指标如表1所示。

图片5.png

测试集的各项评估指标结果(包括各关键点及整体平均值)展示在表2。

图片6.png

图4展示了DeepLabCut在提取图像块上的应用效果。补充材料包含带有姿态估计叠加的训练验证集追踪视频,既有效果良好的案例,也存在耳部检测不准的情况——虽然脊柱对齐效果稳定,但在快速运动或非常规姿态时耳尖检测容易出现偏差。

图片7.png

图5展示了YOLO-NAS-Pose在单帧视频中的定性结果。整体关键点标注准确,仅漏检一只幼象,但"前额"关键点持续偏置于头部后方。

图片8.png


三、讨论

本研究开创了无人机视频数据自动姿态估计在野生动物研究中的应用。实验结果对野生动物行为监测的改进提供了重要启示。

从表2指标可见,两种模型在测试集均表现合理。YOLO-NAS-Pose在所有指标上均表现良好(虽未达完美),证明其作为野生动物行为研究工具的潜力。但当前精度尚未达到全自动化流程要求,仍需进一步优化。

图片9.png

需注意关键点准确度差异:DeepLabCut耳尖检测精度较低(因其运动范围大且标注置信度最低),但髋部成为最差关键点(可能因缺乏相邻参考点)。这与YOLO-NAS-Pose形成反差——后者髋部表现最佳却在前额关键点遇到困难(可能因象鼻伸展时难以定位面部)。未来将探究这些差异成因。

定性分析显示,DeepLabCut整体表现良好,但存在耳部追踪失败(尤其在幼象上表现为默认"中立"耳姿)。值得注意的是,全帧多象姿态估计与个体图像块估计各有优势:前者简化工作流程利于自动化,后者通过筛选成年象可避免低分辨率幼象的干扰,且能平衡训练集姿态分布。

虽然DeepLabCut未超越YOLO-NAS-Pose,但在小样本场景(约100帧)仍具价值。这对标注数据有限但需快速获取全视频姿态的研究尤为重要。

展望未来,针对低分辨率姿态估计,通过分析视频序列变化检测复杂关键点是重要方向。单帧耳部定位的困难凸显了当前逐帧估计的局限,后续可探索光流或循环神经网络等跨帧分析方法来提升运动连续性检测精度。


四、结论

这项研究通过比较不同的姿态估计技术,在将自动行为分析方法纳入野生动物研究方面取得了重大进展。它为在自然栖息地对野生动物行为进行更复杂的研究铺平了道路,这些研究涉及大范围场景中的多个个体。研究结果表明,YOLO-NAS-Pose 是一种可行且有吸引力的姿态估计方法,它提供了简单明了的工作流程和卓越的性能指标。不过,还需要进一步的开发和改进。这项工作的意义超出了对大象行为的研究,它为未来基于无人机的野生动物行为研究在不同物种和生态环境中的发展提供了宝贵的见解。

相关文章:

基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破

【导读】 应对气候变化对非洲象的生存威胁,本研究创新采用无人机航拍结合AI姿态分析技术,突破传统观测局限。团队在肯尼亚桑布鲁保护区对比测试DeepLabCut与YOLO-NAS-Pose两种模型,首次将后者引入野生动物研究。通过检测象群头部、脊柱等关键…...

8天Python从入门到精通【itheima】-71~72(数据容器“序列”+案例练习)

目录 71节-数据容器“序列”的切片 1.学习目标 2.什么是序列 3.序列的常用操作——切片 4.小节总结 72节——案例练习:序列的切片实践 1.案例需求 2.代码实战 好了,又一篇博客和代码写完了,励志一下吧,下一小节等等继续&a…...

中达瑞和SHIS高光谱相机在黑色水彩笔墨迹鉴定中的应用

在文件检验与物证溯源领域,对书写材料(如墨水)进行快速、准确、无损的鉴别至关重要。由陈维娜等人撰写的《高光谱技术结合化学计量法鉴别黑色水彩笔墨迹》(发表于《光谱学与光谱分析》2023年第7期)利用中达瑞和SHIS凝采…...

dvwa10——XSS(DOM)

XSS攻击: DOM型XSS 只在浏览器前端攻击触发:修改url片段代码不存储 反射型XSS 经过服务器攻击触发:可能通过提交恶意表单,连接触发代码不存储 存储型XSS 经由服务器攻击触发:可能通过提交恶意表单,连…...

dvwa14——JavaScript

LOW 先按提示尝试输入success,提交失败 那用bp抓包一下 ,抓到这些,发现有token验证,说明改对token才能过 返回页面f12看一下源码,发现value后面的值像密码,于是试一下md5和rot13的解密 ROT13加密/解密 - …...

外网访问内网服务器常用的三种简单操作步骤方法,本地搭建网址轻松让公网连接

当本地内网环境搭建部署好服务器后,怎么设置让外网公网上连接访问到呢?或本身处于不同局域网间的主机,需要进行数据交互通信,又应该如何实现操作?这些都离不开外网对内网的访问配置。 总的来说外网访问内网服务器主要…...

机器学习实验八--基于pca的人脸识别

基于pca的人脸识别 引言:pca1.pca是什么2.PCA算法的基本步骤 实例:人脸识别1.实验目的2.实现步骤3.代码实现4.实验结果5.实验总结 引言:pca 1.pca是什么 pca是一种统计方法,它可以通过正交变换将一组可能相关的变量转换成一组线…...

UDP包大小与丢包率的关系:原理分析与优化实践

文章目录 📦 UDP包大小与丢包率的关系:原理分析与优化实践一、核心结论:UDP包大小如何影响丢包率?二、技术原理解析:为什么大UDP包更容易丢失?1️⃣ MTU限制与IP分片(关键机制)2️⃣…...

ubuntu 端口复用

需求描述:复用服务器的 80端口,同时处理 ssh 和 http 请求,也就是 ssh 连接和 http 访问服务器的时候都可以指定 80 端口,然后服务器可以正确分发请求给 ssh 或者 http。 此时,ssh 监听的端口为 22,而 htt…...

Registry和docker有什么关系?

当遇到多个服务器需要同时传docker镜像的时候,一个一个的传效率会非常慢且压力完全在发送方的网络带宽;可以参考git hub,通常我们会用git push将代码传到git hub,如果谁需要代码用git pull就可以拉到自己的机器上,dock…...

C++11实现TCP网络通讯服务端处理逻辑简化版

以下是使用C11实现的TCP服务端处理逻辑&#xff0c;包含循环读取数据、帧头检测&#xff08;AABBCC&#xff09;及4376字节数据包处理&#xff1a; cpp #include <iostream>#include <vector>#include <cstring>#include <unistd.h>#include <arp…...

python3.9带 C++绑定的基础镜像

FROM ubuntu:20.04 # 设置非交互式环境变量&#xff08;避免apt安装时提示时区选择&#xff09; ENV DEBIAN_FRONTENDnoninteractive RUN ln -fs /usr/share/zoneinfo/Asia/Shanghai /etc/localtime # 安装基础编译工具和依赖 # 添加Python 3.9 PPA并安装依赖 RUN apt-get upda…...

Elasticsearch中的语义搜索(Semantic Search)介绍

Elasticsearch中的**语义搜索(Semantic Search)**是一种基于文本语义理解的搜索技术,它能够超越传统的关键词匹配,识别查询与文档之间的语义相关性,从而提供更精准、更符合用户意图的搜索结果。这种技术通过捕捉文本背后的含义、上下文和概念关联,解决了传统搜索中常见的…...

LabVIEW的AMC架构解析

此LabVIEW 程序基于消息队列&#xff08;Message Queue&#xff09;机制构建 AMC 架构&#xff0c;核心包含消息生成&#xff08;MessageGenerator &#xff09;与消息处理&#xff08;Message Processor &#xff09;两大循环&#xff0c;通过队列传递事件与指令&#xff0c;实…...

MySQL 索引:为使用 B+树作为索引数据结构,而非 B树、哈希表或二叉树?

在数据库的世界里&#xff0c;性能是永恒的追求。而索引&#xff0c;作为提升查询速度的利器&#xff0c;其底层数据结构的选择至关重要。如果你深入了解过 MySQL&#xff08;尤其是其主流存储引擎 InnoDB&#xff09;&#xff0c;你会发现它不约而同地选择了 B树 作为索引的主…...

ubuntu屏幕复制

在ubnuntu20中没有办法正常使用镜像功能,这里提供一下复制屏幕的操作. 使用xrandr查看所有的显示器情况 这里我发现自己的电脑没有办法直接设置分辨率,但是外接的显示器可以设置,从命令行来说就是设置: xrandr --output HDMI-0 --mode 1920x1080那怎么样才能将原生电脑屏幕换…...

Flutter嵌入式开发实战 ——从树莓派到智能家居控制面板,打造工业级交互终端

一、为何选择Flutter开发嵌入式设备&#xff1f; 1. 跨平台能力降维打击 特性传统方案Flutter方案开发效率需分别开发Android/Linux一套代码多端部署内存占用200MB (QtWeb引擎)<80MB (Release模式)热重载支持不支持支持 2. 工业级硬件支持实测 树莓派4B&#xff1a;1080…...

Spring WebFlux 整合AI大模型实现流式输出

前言 最近赶上AI的热潮&#xff0c;很多业务都在接入AI大模型相关的接口去方便的实现一些功能&#xff0c;后端需要做的是接入AI模型接口&#xff0c;并整合成流式输出到前端&#xff0c;下面有一些经验和踩过的坑。 集成 Spring WebFlux是全新的Reactive Web技术栈&#xf…...

验证电机理论与性能:电机试验平板提升测试效率

电机试验平板提升测试效率是验证电机理论与性能的重要环节之一。通过在平板上进行电机试验&#xff0c;可以对电机的性能参数进行准确测量和分析&#xff0c;从而验证电机的理论设计是否符合实际表现。同时&#xff0c;提升测试效率可以加快试验过程&#xff0c;节约时间和成本…...

Vue.js应用结合Redis数据库:实践与优化

一、概述 Vue.js是一个用于构建用户界面的渐进式JavaScript框架&#xff0c;适用于开发单页面应用&#xff08;SPA&#xff09;。Redis是一个高性能的内存数据结构存储&#xff0c;用作数据库、缓存和消息中间件。将Vue.js与Redis结合&#xff0c;可以实现高效的数据管理和快速…...

Simplicity studio SDK下载和安装,创建工程

下载SDK工具地址 Simplicity Studio - Silicon Labs 选择适合自己电脑的版本。 这个就使用你自己的邮箱注册一个就可以了&#xff0c;我是用的公司邮箱注册的。 下载完成&#xff1a; 安装 下载完成后右键点击安装&#xff0c;一路下一步 安装完成后&#xff0c;程序自动打…...

OpenCV——Mac系统搭建OpenCV的Java环境

这里写目录标题 一、源码编译安装1.1、下载源码包1.2、cmake安装1.3、java配置1.4、测试 二、Maven引入2.1、添加Maven依赖2.2、加载本地库 一、源码编译安装 1.1、下载源码包 官网下载opencv包&#xff1a;https://opencv.org/releases/ 以4.6.0为例&#xff0c;下载解压后&…...

更新Java的环境变量后VScode/cursor里面还是之前的环境变量

最近我就遇到这个问题&#xff0c;这个一般是安装了多个版本的Java&#xff0c;并设置好环境变量&#xff0c;但VScode/cursor内部环境变量却没有改变 解决办法 打开设置&#xff0c;或者直接快捷键CTRL&#xff0c;搜索Java:Home编辑settings.json文件 把以下部分改为正确的…...

【设计模式-3.4】结构型——代理模式

说明&#xff1a;说明&#xff1a;本文介绍结构型设计模式之一的代理模式 定义 代理模式&#xff08;Proxy Pattern&#xff09;指为其他对象提供一种代理&#xff0c;以控制对这个对象的访问&#xff0c;属于结构型设计模式。&#xff08;引自《设计模式就该这样学》P158&am…...

电脑频繁黑屏怎么办

有没有遇到过这种糟心事儿&#xff1a;正兴致勃勃地打游戏、赶方案&#xff0c;或者追着喜欢的剧&#xff0c;电脑突然黑屏了&#xff01;而且还频繁出现&#xff0c;简直让人抓狂。今天咱们就来好好聊聊&#xff0c;电脑频繁黑屏到底该怎么办。 硬件问题排查 检查显示器连接…...

50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | Sound Board(音响控制面板)

&#x1f4c5; 我们继续 50 个小项目挑战&#xff01;—— SoundBoard 组件 仓库地址&#xff1a;https://github.com/SunACong/50-vue-projects 项目预览地址&#xff1a;https://50-vue-projects.vercel.app/ &#x1f3af; 组件目标 实现一个响应式按钮面板&#xff0c;点…...

关于大数据的基础知识(一)——定义特征结构要素

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///计算机爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于大数据的基础知识&#xff08;一&a…...

chrome使用手机调试触屏web

chrome://inspect/#devices 1、手机开启调试模式、打开usb调试 2、手机谷歌浏览器打开网站 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/f1ef2d2c017c477ba55a57338ae13fc8.jpeg#pic_center 使用谷歌浏览器打开chrome://inspect/#devices 刷新浏览器点击inspect…...

浅谈量子计算:从实验室突破到产业落地的中国实践

引言&#xff1a;量子霸权争夺战的中国坐标 2025年5月30日&#xff0c;中国量子科技梦之队再次刷新世界纪录——潘建伟院士团队在量子京沪干线完成全球首个跨省量子密钥分发实验&#xff0c;成功实现北京金融数据中心与上海政务云平台间的绝对安全通信。这标志着我国在量子通信…...

68道Hbase高频题整理(附答案背诵版)

简述什么是Hbase数据库&#xff1f; Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统&#xff0c;它利用HBase技术在HDFS上提供了类似于Bigtable的能力。换句话说&#xff0c;Hbase是Apache Hadoop生态系统中的一部分&#xff0c;可以为大数据应用提供快速的随机…...