当前位置：首页 > news >正文

AI助力农作物自动采摘，基于DETR(DEtection TRansformer)开发构建作物生产场景下番茄采摘检测计数分析系统

news 2026/3/29 14:37:12

去年十一那会无意间刷到一个视频展示的就是德国机械收割机非常高效自动化地24小时不间断地在超广阔的土地上采摘各种作物，专家设计出来了很多用于采摘不同农作物的大型机械，看着非常震撼，但是我们国内农业的发展还是相对比较滞后的，小的时候拔草是一个人一列蹲在地里就在那埋头拔草，不知道什么时候才能走到地的尽头，小块的分散的土地太多基本上都是只能人工手工来取收割，大点的连片的土地可以用收割机来收割，不过收割机基本都是用来收割小麦的，最近几年好像老家也能看到用于收割玉米的机器了不过相对还是比较少的，玉米的收割我们基本上还是人工来收割的，不仅累效率还低遇上对玉米叶片过敏的就更要命了。。。。闲话就扯到这里了。

有时候经常在想我们的农业机械化自动化什么时候能再向前迈进一大步，回顾德国的工业机械，在视频展示的效果中，其实很关键的主要是两部分，一部分是机器视觉定位检测识别，另一部分是机械臂传动轴，两部分相互配合才能完成采摘工作，本文的主要想法是想要基于DETR开发构建用于番茄采摘场景下的目标检测系统，前文实践如下：

《AI助力农作物自动采摘，基于YOLOv7【tiny/l/x】不同系列参数模型开发构建作物生产场景下番茄采摘检测计数分析系统》

《AI助力农作物自动采摘，基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建作物生产场景下番茄采摘检测计数分析系统》

《AI助力农作物自动采摘，基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建作物生产场景下番茄采摘检测计数分析系统》

《AI助力农作物自动采摘，基于YOLOv3全系列【yolov3tiny/yolov3/yolov3spp】参数模型开发构建作物生产场景下番茄采摘检测计数分析系统》

首先看下实例效果：

DETR (DEtection TRansformer) 是一种基于Transformer架构的端到端目标检测模型。与传统的基于区域提议的目标检测方法（如Faster R-CNN）不同，DETR采用了全新的思路，将目标检测问题转化为一个序列到序列的问题，通过Transformer模型实现目标检测和目标分类的联合训练。

DETR的工作流程如下：

输入图像通过卷积神经网络（CNN）提取特征图。
特征图作为编码器输入，经过一系列的编码器层得到图像特征的表示。
目标检测问题被建模为一个序列到序列的转换任务，其中编码器的输出作为解码器的输入。
解码器使用自注意力机制（self-attention）对编码器的输出进行处理，以获取目标的位置和类别信息。
最终，DETR通过一个线性层和softmax函数对解码器的输出进行分类，并通过一个线性层预测目标框的坐标。
DETR的优点包括：

端到端训练：DETR模型能够直接从原始图像到目标检测结果进行端到端训练，避免了传统目标检测方法中复杂的区域提议生成和特征对齐的过程，简化了模型的设计和训练流程。
不受固定数量的目标限制：DETR可以处理变长的输入序列，因此不受固定数量目标的限制。这使得DETR能够同时检测图像中的多个目标，并且不需要设置预先确定的目标数量。
全局上下文信息：DETR通过Transformer的自注意力机制，能够捕捉到图像中不同位置的目标之间的关系，提供了更大范围的上下文信息。这有助于提高目标检测的准确性和鲁棒性。
然而，DETR也存在一些缺点：

计算复杂度高：由于DETR采用了Transformer模型，它在处理大尺寸图像时需要大量的计算资源，导致其训练和推理速度相对较慢。
对小目标的检测性能较差：DETR模型在处理小目标时容易出现性能下降的情况。这是因为Transformer模型在处理小尺寸目标时可能会丢失细节信息，导致难以准确地定位和分类小目标。

简单看下实例数据情况：

官方项目地址在这里，如下所示：

可以看到目前已经收获了超过1.2w的star量，还是很不错的了。

DETR整体数据流程示意图如下所示：

官方也提供了对应的预训练模型，可以自行使用：

本文选择的预训练官方权重是detr-r50-e632da11.pth，首先需要基于官方的预训练权重开发能够用于自己的个性化数据集的权重，如下所示：

pretrained_weights = torch.load("./weights/detr-r50-e632da11.pth")
num_class = 1 + 1
pretrained_weights["model"]["class_embed.weight"].resize_(num_class+1,256)
pretrained_weights["model"]["class_embed.bias"].resize_(num_class+1)
torch.save(pretrained_weights,'./weights/detr_r50_%d.pth'%num_class)

因为这里我的类别数量为1，所以num_class修改为：4+1，根据自己的实际情况修改即可。生成后如下所示：

终端执行：

python main.py --dataset_file "coco" --coco_path "/0000" --epoch 100 --lr=1e-4 --batch_size=2 --num_workers=0 --output_dir="outputs" --resume="weights/detr_r50_2.pth"

即可启动训练，训练启动如下：

等待训练完成后，借助于评估模块对结果进行评估对比可视化：

iter 000: mAP@50= 61.6, score=0.683, f1=0.694
iter 050: mAP@50= 71.7, score=0.747, f1=0.772
iter latest: mAP@50= 75.6, score=0.791, f1=0.797
iter 000: mAP@50= 61.6, score=0.683, f1=0.694
iter 050: mAP@50= 71.7, score=0.747, f1=0.772
iter latest: mAP@50= 75.6, score=0.791, f1=0.797

接下来详细看下指标详情。

【Precision曲线】
精确率曲线（Precision-Recall Curve）是一种用于评估二分类模型在不同阈值下的精确率性能的可视化工具。它通过绘制不同阈值下的精确率和召回率之间的关系图来帮助我们了解模型在不同阈值下的表现。精确率（Precision）是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
【Recall曲线】
召回率曲线（Recall Curve）是一种用于评估二分类模型在不同阈值下的召回率性能的可视化工具。它通过绘制不同阈值下的召回率和对应的精确率之间的关系图来帮助我们了解模型在不同阈值下的表现。召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。召回率也被称为灵敏度（Sensitivity）或真正例率（True Positive Rate）。
【F1值曲线】
F1值曲线是一种用于评估二分类模型在不同阈值下的性能的可视化工具。它通过绘制不同阈值下的精确率（Precision）、召回率（Recall）和F1分数的关系图来帮助我们理解模型的整体性能。
F1分数是精确率和召回率的调和平均值，它综合考虑了两者的性能指标。F1值曲线可以帮助我们确定在不同精确率和召回率之间找到一个平衡点，以选择最佳的阈值。

loss可视化如下所示：

感兴趣的话可以自行动手实践尝试下！

AI助力农作物自动采摘，基于DETR(DEtection TRansformer)开发构建作物生产场景下番茄采摘检测计数分析系统

相关文章：

AI助力农作物自动采摘，基于DETR(DEtection TRansformer)开发构建作物生产场景下番茄采摘检测计数分析系统

C语言——字符串大小写互换

macOS的设置与常用软件（含IntelliJ IDEA 2023.3.2 Ultimate安装，SIP的关闭与开启）

http伪造本地用户字段系列总结

Hadoop-IDEA开发平台搭建

block任务块、rescue和always、loop循环、role角色概述、role角色应用、ansible-vault、sudo提权、特殊的主机清单变量

Qt：QFileDialog

我的QQ编程学习群

【C++】类与对象（四）——初始化列表|explicit关键字|static成员|友元|匿名对象

ChatGPT高效提问—prompt常见用法

使用vite创建vue+ts项目，整合常用插件（scss、vue-router、pinia、axios等）和配置

泛型、Trait 和生命周期（上）

＜网络安全＞《18 数据安全交换系统》

Kafka 生产调优

springboot162基于SpringBoot的体育馆管理系统的设计与实现

Interpolator：在Android中方便使用一些常见的CubicBezier贝塞尔曲线动画效果

Nacos安装，服务注册，负载均衡配置，权重配置以及环境隔离

Vue3导出数据为txt文件

Simulink中getConfigSet用法

【Algorithms 4】算法（第4版）学习笔记 05 - 2.2 归并排序

告别繁琐！3步解锁教育资源获取新方式，效率提升10倍的高效工具

GPT-SoVITS应用场景解析：为视频配音、做有声书，简单又实用

CCMusic跨平台部署指南：Windows/Linux/macOS全适配

电容选型实战指南

本地部署 LookScanned：轻松将 PDF 转为逼真扫描件，结合内网穿透实现远程访问

PvZ Toolkit：植物大战僵尸游戏体验增强工具全解析

别再只靠密码了！手把手教你用Gpg4win给邮件和文件加把‘数字锁’（附Kleopatra实战截图）

Spring Boot 与 GraphQL 2.0 集成：构建现代化 API

R数据可视化进阶｜利用Scatterplot3d包打造交互式3D散点图

Qt 串口编程实战：keySight 34401A 万用表数据采集与存储