当前位置: 首页 > article >正文

计算机视觉、YOLO算法模型训练、无人机监测人员密集自动识别

第一阶段准备工作1. 硬件确认你需要一台带NVIDIA 独立显卡的电脑显存 8G 以上游戏本 / 设计本都行如果没有用 CPU 也能跑但训练会很慢不建议最好找个带显卡的。2. 软件安装按顺序装1确认 Python版本打开命令行CMD输入python --version装 Ultralytics YOLO一键式 AI 工具pip install ultralytics -i https://pypi.tuna.tsinghua.edu.cn/simple3装 LabelImg标注工具pip install labelImg -i https://pypi.tuna.tsinghua.edu.cn/simple4验证安装成功输入 yolo predict modelyolov8n.pt sourcehttps://ultralytics.com/images/bus.jpg如果能看到识别结果说明 YOLO 装好了输入 labelImg如果能打开一个画图软件说明标注工具装好了第二阶段数据采集与标注建一个规范的项目文件夹在电脑里新建一个根文件夹比如叫D:\Person_Detect_Project\然后按下面的结构建好子文件夹复制文件夹名就行别乱改二、核心第一步准备教模型的教材数据采集 标注这是最关键的一步你教得越认真模型认人越准1. 采集照片拍你真实场景的无人机照片照片要求直接决定模型效果一定要按这个来数量至少 500 张起步越多越好1000 张以上效果会有质的飞跃内容必须是无人机真实拍的场景景区、园区、广场等别用网上的室内照片和你实际用的场景不匹配训了也白训多样性不同高度10 米、30 米、50 米高空拍的都要有你平时飞多高就拍多高不同密度1-2 个人、十几个人、上百人的密集人群都要有不同环境晴天、阴天、傍晚、逆光的场景都拍一点不同角度正拍、斜拍、俯拍都要有格式统一用 JPG/PNG 格式别用特殊格式照片分配拍好的照片80% 放进images/train/文件夹20% 放进images/val/文件夹。比如你拍了 500 张400 张放 train100 张放 val。2. 标注照片教模型 “这个东西是人”这一步就是给模型划重点你框得越准、越全模型以后认人越准。标注操作步骤一步一步跟着做打开 CMD输入labelImg打开标注工具关键设置一步都不能错点击左侧「Open Dir」选择你刚才建的images/train/文件夹打开要标注的照片点击左侧「Change Save Dir」选择labels/train/文件夹标注好的文件存在这里点击软件顶部的「PascalVOC」点一下切换成「YOLO」格式必须改不然模型读不了开始标注按键盘W键鼠标会变成十字把照片里的每一个人都用框完整圈起来哪怕只露一个头、半个身子也要框框完之后会弹出输入标签的框统一输入 person就写这个单词别写中文、别写错和官方模型的标签保持一致你后面的代码不用改按CtrlS保存按D键切到下一张按A键回到上一张全部标完 train 文件夹里的照片再重复上面的步骤把images/val/里的照片也标完保存路径选labels/val/。第三阶段一键训练你的专属模型电脑自动跑不用你管标注完了剩下的事电脑自动做你只需要复制粘贴代码点一下运行就行。1.写数据集配置文件在train_code/文件夹里新建一个文本文件改名叫person_drone.yaml把下面的内容复制进去路径改成你自己电脑的绝对路径写一键训练代码在train_code/文件夹里新建一个 Python 文件叫train_person.py把下面的内容复制进去开始训练1.打开 CMD用cd命令进入到train_code/文件夹比如cd D:\Person_Detect_Project\train_code运行训练代码2.python train_person.py3.然后你就可以去休息了显卡好的话1-2 小时就训完了用 CPU 的话会很慢建议找个带 NVIDIA 显卡的电脑。训的过程中电脑会自动打印进度不用管它别关窗口就行。四、核心第三步测试你的模型看认人准不准训练完成后会在runs/train/person_drone_v1/weights/文件夹里生成 2 个核心文件·best.pt这就是你自己训出来的专属模型整个流程的核心成果识别最准的版本·last.pt最后一轮训练的模型不用管用 best.pt 就行现在我们来测试一下这个模型比官方的好多少在train_code/里新建一个test_model.py复制下面的代码2.运行这个文件打开生成的结果照片看看模型是不是把所有的人都框出来了有没有漏检、误检五、核心第四步替换到你现有的 server.py 里直接用测试没问题就可以把你原来的官方模型换成你自己训的专属模型了只需要改 1 行代码1. 复制模型文件把训好的best.pt复制到你server.py所在的文件夹里改个好记的名字比如person_drone_v1.pt。2. 修改你的 server.py 代码只需要改加载模型的那一行把原来的改成你自己的模型文件其他代码完全不用动你原来的classes0、conf0.3这些参数都不用改因为我们标注的标签就是person和官方的类别序号完全兼容改完直接运行就行识别效果会比原来的官方模型好很多怎么让模型越来越准如果发现模型在某些场景认不准比如逆光、特别密集的人群就按这个流程优化把这些认错 / 漏认的照片收集起来用 LabelImg 把这些照片标注好把新的照片和标注文件加到train/文件夹里重新运行训练代码把版本名改成person_drone_v2训完用新的best.pt替换旧的模型就行。投喂的高质量场景照片越多模型对你的业务场景适配度越高识别就越准小白常见问题避坑训练的时候报错 “显存不足”把训练代码里的batch8改成batch4甚至batch2越小越省显存。标注完了训练找不到文件检查 yaml 里的路径是不是绝对路径标注格式是不是 YOLO标签名是不是person。模型识别还是不准先看是不是标注漏标、错标了再补更多对应场景的照片重新训。训好的模型拷到别的电脑能用吗完全可以把best.pt文件拷过去改一下路径就能用不用联网。

相关文章:

计算机视觉、YOLO算法模型训练、无人机监测人员密集自动识别

第一阶段:准备工作1. 硬件确认你需要一台带 NVIDIA 独立显卡 的电脑(显存 8G 以上,游戏本 / 设计本都行);如果没有,用 CPU 也能跑,但训练会很慢(不建议,最好找个带显卡的…...

语音识别新选择:Qwen3-ASR-0.6B镜像快速体验,一键搭建Web界面

语音识别新选择:Qwen3-ASR-0.6B镜像快速体验,一键搭建Web界面 1. 为什么选择Qwen3-ASR-0.6B 语音识别技术正在改变我们与设备交互的方式,但传统解决方案往往面临两个痛点:要么识别精度高但资源消耗大,要么轻量但支持…...

如何用Python模拟光的衍射图样?Matplotlib可视化教程

用Python模拟光的衍射图样:从原理到Matplotlib可视化实战 光的衍射现象一直是波动光学中最迷人的部分之一。当一束光通过狭缝或遇到障碍物时,它不会简单地沿直线传播,而是会"弯曲"并形成复杂的干涉图样。这种现象不仅具有理论意义&…...

qmc-decoder:高效智能的QQ音乐加密音频解密工具,轻松解锁音乐格式枷锁

qmc-decoder:高效智能的QQ音乐加密音频解密工具,轻松解锁音乐格式枷锁 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾遇到过这样的困扰&am…...

学生党专属:OpenClaw+百川2-13B-4bits搭建个人学习助手

学生党专属:OpenClaw百川2-13B-4bits搭建个人学习助手 1. 为什么需要本地化学习助手? 作为一名计算机专业的学生,我经常面临这样的困境:上课时老师讲得太快,笔记记不全;课后整理资料时,各种PD…...

建站必看:CMS系统是什么?为什么它能帮你轻松搭建网站?

简单来说,CMS(内容管理系统) 就是一套帮你“搭建和管理网站”的软件工具,让你不用写代码,就能像操作Word文档一样,轻松创建、编辑和发布网站内容。 它的核心作用可以拆解为两点: 建站&#xff0…...

F3闪存检测工具:5步识别扩容盘欺诈的完整指南

F3闪存检测工具:5步识别扩容盘欺诈的完整指南 【免费下载链接】f3 F3 - Fight Flash Fraud 项目地址: https://gitcode.com/gh_mirrors/f3/f3 你是否曾经购买过价格异常便宜的U盘或SD卡,却发现存储的文件频繁损坏?这种看似"物美价…...

OWL ADVENTURE .NET平台集成实战:C#调用视觉模型API

OWL ADVENTURE .NET平台集成实战:C#调用视觉模型API 最近在做一个智能内容审核的小工具,需要调用视觉模型来分析图片。网上搜了一圈,发现关于如何在.NET环境里集成这类模型的教程,要么太零散,要么就是直接贴一堆Pytho…...

openClaw安装配置免费模型

# 启用千问免费认证插件openclaw plugins enable qwen-portal-authopenclaw gateway restart# 登录授权(按终端提示在浏览器完成)openclaw models auth login --provider qwen-portal --set-default...

同样是摸鱼玩3A,差距竟这么大?一个全程高帧,一个马赛克画质

一、前言 最近比较清闲,主打一个上班摸鱼!想在公司偷偷玩家里的大型游戏,无奈公司电脑只能办公,玩不了大作。之前试过多款远程工具都踩坑,这次专门做一场横测,分别实测ToDesk和UU远程,特意选了…...

零样本与少样本学习

零样本与少样本学习 | 大模型开发核心技术系列 1.3一、引言 你是否想过,为什么有时候只需要简单地告诉模型“把这个句子翻译成法语”,它就能准确完成,而有的时候却需要给出好几个例子才能理解你的意图?这背后的关键技术就是零样本…...

从Redis分片到数据去重:聊聊MurmurHash3在真实业务里的那些“神操作”

MurmurHash3实战手册:高并发场景下的数据分片与去重艺术 当你的Redis集群开始出现热点Key,当日志系统每天要处理数十亿条重复数据,当负载均衡器在流量洪峰时频频告警——这些看似无关的系统痛点,背后其实都藏着一个共同的解决方案…...

SVN到Git迁移的三大痛点与svn2git一站式解决方案

SVN到Git迁移的三大痛点与svn2git一站式解决方案 【免费下载链接】svn2git 项目地址: https://gitcode.com/gh_mirrors/sv/svn2git 当技术团队面临从SVN向Git迁移的决策时,往往会陷入"历史包袱沉重、迁移过程复杂、团队适应成本高"的困境。svn2gi…...

李慕婉-仙逆-造相Z-Turbo交互设计:使用Qt框架打造跨平台模型控制台

李慕婉-仙逆-造相Z-Turbo交互设计:使用Qt框架打造跨平台模型控制台 最近在折腾AI图像生成模型,特别是像“李慕婉-仙逆-造相Z-Turbo”这类功能强大的模型。用命令行调用虽然直接,但每次想调个参数、看看历史效果对比,都得敲一堆命…...

OpenClaw升级3.23后Weixin报错

将下面内容发给openclaw机器人 让它自己解决## 背景修复 openclaw-weixin 无法稳定接收消息的问题,并确认消息能被网关接收后正确路由到 main agent。## 问题现象1. 微信侧发送消息后,gateway.log 中没有稳定出现 received message/dispatching 相关入站…...

中东客户要求阿语通知,你是翻译软件凑合还是专业级AI处理?深扒货代数字化底层逻辑

在国际物流行业,细节决定成败。当一位尊贵的中东客户要求提供阿拉伯语(Arabic)到港通知时,很多货代企业仍停留在“复制粘贴到翻译软件”的原始阶段。这种做法不仅效率极低,更可能因翻译语义不准导致严重的沟通误解。本…...

ms-swift微调框架实测:从安装到训练,10分钟搞定Qwen2.5模型定制

ms-swift微调框架实测:从安装到训练,10分钟搞定Qwen2.5模型定制 1. 前言 在当今大模型技术快速发展的背景下,如何高效地对预训练大模型进行微调成为了许多开发者和研究者的关注焦点。ms-swift作为一款轻量级的大模型微调框架,凭…...

乙巳马年春联生成终端开箱即用:无需pip install,直接运行Web终端

乙巳马年春联生成终端开箱即用:无需pip install,直接运行Web终端 1. 引言:当AI遇见传统年味 春节贴春联,是刻在我们文化基因里的仪式感。但你想过吗?如果有一扇“皇城大门”,你只需对着它说出新年愿望&am…...

微信机器人SDK

在微信生态中,接口繁杂、事件回调冗长、自动化流程难以搭建,一直是开发者和运营团队的痛点。GeWe 开放平台应运而生,它在微信官方能力的基础上进行了深度封装,并结合自研 RPA 引擎,打造出一套高效、易用的微信自动化解…...

BERT文本分割模型一键部署教程:Python环境快速搭建指南

BERT文本分割模型一键部署教程:Python环境快速搭建指南 你是不是也遇到过这样的场景:手里有一大段文本,想把它按照语义切分成一个个小段落,方便后续处理或者阅读。手动去分?效率太低,而且很难保证准确。这…...

单片机开发:C语言与汇编语言工程实践对比

单片机编程语言选择:C语言与汇编的工程实践对比1. 项目概述1.1 单片机编程语言的发展背景现代电子产品设计中,单片机作为核心控制单元,其编程语言的选择直接影响开发效率和系统性能。随着技术进步,编程语言从最初的机器码发展到汇…...

空洞骑士模组管理终极指南:如何使用Scarab一键安装所有模组

空洞骑士模组管理终极指南:如何使用Scarab一键安装所有模组 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab 你是否曾因为空洞骑士模组安装过程复杂而放弃尝试&…...

告别模糊!用MapCutter 3.12.2处理超大航拍图,实现高清WebGL地图的保姆级教程

超清航拍地图处理实战:MapCutter 3.12.2全流程优化指南 当无人机航拍的4K遥感影像在网页端变成模糊的马赛克时,每个GIS开发者都经历过这种绝望。本文将以某智慧城市项目中单张68GB的倾斜摄影图像处理为例,揭示从原始数据到WebGL高清呈现的全…...

S2-Pro模型效果深度评测:多轮对话与代码生成能力展示

S2-Pro模型效果深度评测:多轮对话与代码生成能力展示 1. 开场白:为什么关注S2-Pro 最近大模型领域又迎来一位实力选手——S2-Pro。作为工程师,我们最关心的不是它有多少参数,而是实际用起来到底怎么样。特别是在需要持续对话和代…...

从产线停机到毫秒级响应:Python网关对接西门子S7-1500的5层协议栈穿透方案(含Wireshark+pyshark联合抓包模板)

第一章:从产线停机到毫秒级响应:Python网关对接西门子S7-1500的5层协议栈穿透方案(含Wiresharkpyshark联合抓包模板)工业现场常因PLC通信延迟或协议解析失败导致整条产线非计划停机,而传统OPC UA桥接方案平均响应延迟达…...

AI Agent 网关其实是一个新的“流量黑洞”

热点观察 AI AgentAI Agent 网关其实是一个新的“流量黑洞”看得见入口,看不见过程,问题一来只能靠猜最近 AI Agent 很火。企业微信机器人、自动化工作流、模型编排、工具调用,几乎都绕不开一个关键角色:Agent 网关。它看起来只是…...

Fish-Speech-1.5与LLM集成:智能语音助手开发实战

Fish-Speech-1.5与LLM集成:智能语音助手开发实战 1. 引言 你有没有想过,为什么现在的语音助手总是感觉"不太聪明"?它们要么只能执行简单指令,要么对话生硬缺乏连贯性。这背后的核心问题在于,传统的语音助手…...

TCP/IP 协议族

一、整体认识1. 什么是 TCP/IP 协议族TCP/IP 不是单指 TCP 和 IP,而是一整套互联网协议簇是当前互联网的事实标准定义了计算机之间如何通信、数据如何封装、寻址、传输、路由、应用2. TCP/IP 与 OSI 七层模型对比表格OSI 七层模型TCP/IP 四层模型(实际用…...

nli-distilroberta-base效果展示:长文本截断策略对NLI准确率影响实测

nli-distilroberta-base效果展示:长文本截断策略对NLI准确率影响实测 1. 项目概述 nli-distilroberta-base是一个基于DistilRoBERTa模型的自然语言推理(NLI)Web服务,专门用于判断两个句子之间的逻辑关系。这个轻量级模型保留了R…...

【论文解析】Interactive Face Video Coding: A Generative Compression Framework

一、一段话总结 本文提出交互式人脸视频编码(IFVC) 生成式压缩框架,基于内部维度提升(IDI) 表示将 2D 人脸转为 3D 网格语义参数,仅用14 维紧凑语义实现超低码率编码,码率相比VVC 标准节省 75.37%(DISTS),支持解码端语义级交互编辑与虚拟角色驱动隐私保护,在率失真…...