当前位置：首页 > news >正文

YOLO好像也没那么难？

news 2026/5/11 12:29:02

“学YOLO的念头是想整个游戏外挂！”

基本原理

模型推理

IOU交并比

NMS非极大值抑制

模型训练

损失函数LOSS

代码实现

YOLO学习渠道

基本原理

模型推理

学习一个新的神经网络结构，作者认为整明白输入和输出是怎么回事就OK了，至于中间的推理过程设计，不是搞学术的，没必要那么明白。

就拿YOLOv3的网络输入和输出来讲，它的输入shape是[N,3,416,416]，这个shape的含义很好理解，就是N张416*416的三通道图片（彩色图片），而我们需要重点关注它的输出，它的输出有三部分：[N,255,13,13]、[N,255,26,26]、[N,255,52,52]。其中里面的N自然是指的N张图片，再看里面的255，255=3*（4+1+80），这里的80指的是分类数，意思是该模型可识别80种物体，采用的是one-hot编码，其中4指代的是预测框的中心点坐标(x, y)和预测框的高h和宽w，而1指代的是置信度，范围在0到1之间，3指代的是预测框的数量，有三个，有一个锚框就会有一个预测框。

预测框信息应包含预测框的中心点坐标(x,y)和预测框的高h和宽w，和框里面框的是啥东西的one-hot编码代表物品类别，还有置信度，所以是（4+80+1）。

YOLO进行目标检测的时候，会在逻辑上把图片划分为S*S的网格，在YOLOv3中，它把一个图片从三种不同的尺度进行划分，这也解释了该模型的输出，为什么有三组。因为它从不同尺度去检测物体，从大的感受野看，从小的感受野看，然后给出三组的预测框，可以让预测框更加准确与完整。

其次，在同一个尺度下，每个网格都拥有3个以该网格为中心点的锚框，3个锚框的大小是不一样的。在目标检测中，每个锚框都会预测一个预测框出来，所以一个网格就有三个预测框，这也更好地解释了模型输出shape的实际含义，拿一个尺度的输出shape而言就是[图片数量, 预测框数量*预测框信息量, W, H]，其中W*H可以理解为网格数量。

那现在YOLOv3输出了不同尺度下的全部预测框，我们可以看到不同尺度下的预测框密密麻麻的怎么变成右边清爽的模样呢？就需要引入两个概念了IOU与NMS。

IOU交并比

IOU，全称Intersection over Union，即交并比，是衡量目标检测中边界框重叠程度的关键指标。它通过计算两个边界框的交集面积与并集面积之比来得到。简而言之，交集面积除以并集面积。

NMS非极大值抑制

NMS，全称Non-Maximum Suppression，即非极大值抑制，是一种常用的目标检测算法中的后处理步骤。以下是NMS的操作步骤：

将所有预测框，按照置信度进行降序排序
依次选择置信度最高的框作为基准，并计算它与其他预测框的IOU值
如果某个预测框与基准框的IOU值大于预设的阈值，则认为该预测框与基准框重叠度较高，则将其移除
选择下一个置信度最高的框作为基准
重复以上过程，直到所有预测框都被处理完成

利用NMS我们就可以实现以上清爽的效果了，在目标检测任务中，NMS是处理重叠预测框、提高检测精度的关键步骤。

模型训练

了解了模型推理的过程，我们就要想一个问题，预测框怎么来的？换而言之，锚框怎么变成预测框？锚框的大小不是一开始就被设定的死死的嘛？

锚框的大小和中心点（网格的左上角）确实是被设置的死死的，但我们可以让其中心点偏移，宽高拉伸，至于偏移量和拉伸量，这不就是神经网络需要训练的参数嘛？而原来的锚框经过中心点偏移和宽高拉伸就变成了预测框。

我们也可以观察到这个偏移量和拉伸量还有点特别，偏移量用了sigmoid函数，拉伸量用了exp函数。偏移量用sigmoid函数，是因为我们规定一个网格的宽和高都为1，而该函数y值取值范围在0到1之间，这样可以保证一个网格的预测框中心点只会在该网格里面，不会跑到别的网格里面去。拉伸量用exp是保证了预测框的宽高是正数。

损失函数LOSS

我们看预测框携带的信息有：预测框的中心点坐标，预测框的宽高，预测框内物体的种类，预测框的置信度。想要预测框与真实框的信息一致，是不是很显然这既是一个回归问题，也是一个分类问题，分类问题一般用Cross Entropy损失，回归问题一般用MSE损失，但飞桨这里用的是MAE（L1损失）。

但YOLO的损失还有一个特殊之处，就并不是所有的预测框与真实框的差距都要算损失，为什么？因为预测框有很多，密密麻麻的，而真实框只有一个，肯定有大部分的预测框与真实框是极其不匹配的，只有少部分的预测框与真实框算是贴切的，这样的正负样本比例不协调。所以YOLOv3中，设定一个IOU的阈值，如果预测框与真实框的IOU超过了这个阈值，那么这个预测框与真实框的损失就可以不用算，也就是0，相当于预测框就是真实框。

代码实现

目前，yolo体系是十分成熟的，很多深度学习框架（pytorch，ts）都有yolo库，不需要咱们再手搓yolo了，作者用的是paddleDetection，用paddle主要是因为他们有免费的平台给你训练，主流的还是pytorch感觉，以下是paddle-Detection的快速入门。

docs/tutorials/QUICK_STARTED_cn.md · PaddlePaddle/PaddleDetection - Gitee.comhttps://gitee.com/paddlepaddle/PaddleDetection/blob/release/2.7/docs/tutorials/QUICK_STARTED_cn.md#%E4%BA%8C%E5%87%86%E5%A4%87%E6%95%B0%E6%8D%AE paddleDetection进行数据训练时，可能会报下面的错误。大概就是0维张量不能被Tensor.numpy()[0]这么使用，以后只能写成float(Tensor)了。解决办法，目前是降paddle-paddle到2.4版本。

        Warning:: 0D Tensor cannot be used as 'Tensor.numpy()[0]' . In order to 
avoid this problem, 0D Tensor will be changed to 1D numpy currently, but it's notcorrect and will be removed in release 2.6. For Tensor contain only one element, 
Please modify  'Tensor.numpy()[0]' to 'float(Tensor)' as soon as possible, 
otherwise 'Tensor.numpy()[0]' will raise error in release 2.6。

“再学学Python怎么控制鼠标键盘，自瞄外挂不就成了嘛？”

YOLO学习渠道

以下是作者学习YOLO基本原理与代码实现的推荐学习渠道。

飞桨AI Studio星河社区 - 人工智能学习与实训社区 (baidu.com)https://aistudio.baidu.com/education/group/info/1617

B站YOLO算法原理讲解通俗易懂版本https://www.bilibili.com/video/BV1sR4y1h7s4/?spm_id_from=333.337.search-card.all.click&vd_source=54c58eba17d5a4e408714286013d3d13

YOLO好像也没那么难？

“学YOLO的念头是想整个游戏外挂！” 目录基本原理模型推理 IOU交并比 NMS非极大值抑制模型训练损失函数LOSS 代码实现 YOLO学习渠道基本原理模型推理学习一个新的神经网络结构，作者认为整明白输入和输出是怎么回事就OK了，至于…...

编程日记 2024/8/14 18:11:10

html编写贪吃蛇页面小游戏（可以玩）

<!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>贪吃蛇小游戏</title><style>body {…...

编程日记 2024/8/14 18:09:04

【淘宝购买的源码靠谱吗】

文章目录前言一、项目需求二、卖家评价三、价格质量四、源码细节五、技术支持六、合法性七、市场环境八、风险评估总结前言在淘宝上购买的源码质量和可靠性存在不确定性。淘宝作为一个综合性电商平台，提供了各种各样的商品和服务，包括源代码。然而&a…...

编程日记 2024/8/14 18:08:03

C++ | list

前言本篇博客讲解cSTL中的list 💓 个人主页：普通young man-CSDN博客 ⏩ 文章专栏：C_普通young man的博客-CSDN博客 ⏩ 本人giee: 普通小青年 (pu-tong-young-man) - Gitee.com 若有问题评论区见📝 🎉欢迎大家点赞&…...

编程日记 2024/8/14 18:07:00

Vue3 v-bind 指令用法

在 Vue 3 中，v-bind 指令用于将表达式的值绑定到 DOM 元素的属性上。这个指令的语法与 Vue 2 相同，但有一些细微的变化和改进。以下是 Vue 3 中 v-bind 指令的基本用法： 基本用法: <button v-bind:class"{ active: isActive }"…...

编程日记 2024/8/14 18:04:56

通过Go示例理解函数式编程思维

一个孩子要尝试10次、20次才肯接受一种新的食物，我们接受一种新的范式，大概不会比这个简单。-- 郭晓刚《函数式编程思维》译者函数式编程(Functional Programming, 简称fp)是一种编程范式，与命令式编程(Imperative Programming)、面向对象编…...

编程日记 2024/8/14 18:02:51

刷题DAY7

三角形面积题目：已知三角形的边长a，b和从、，求其面积输入：输入三个实数a，b，c，表示三边长输出：输出面积，保留三位小数输入：1 2 2.5 输出&#xff1…...

编程日记 2024/8/14 18:00:47

离线数据开发流程小案例-图书馆业务数据

参考 https://blog.csdn.net/m53931422/article/details/103633452 https://www.cnblogs.com/jasonlam/p/7928179.html https://cwiki.apache.org/confluence/display/Hive/LanguageManualUDF https://medium.com/jackgoettle23/building-a-hive-user-defined-function-f6abe9…...

编程日记 2024/8/14 17:58:44

GPT-5：未来已来，你准备好了吗

GPT-5：未来已来，你准备好了吗？ 在人工智能的浩瀚星空中，自然语言处理（NLP）技术如同璀璨星辰，不断引领着技术革新的浪潮。而在这股浪潮中，OpenAI的GPT（Generative Pre-tr…...

编程日记 2024/8/14 17:57:42

白骑士的Matlab教学高级篇 3.2 并行计算

系列目录上一篇：白骑士的Matlab教学高级篇 3.1 高级编程技术并行计算是一种通过同时执行多个计算任务来加速程序运行的方法。在MATLAB中，并行计算工具箱（Parallel Computing Toolbox）提供了丰富的并行计算功能，使用…...

编程日记 2024/8/14 17:55:37

JS中【解构赋值】知识点解读

解构赋值（Destructuring Assignment）是 JavaScript 中一种从数组或对象中提取数据的简便方法，可以将其赋值给变量。这种语法可以让代码更加简洁、清晰。下面我会详细讲解解构赋值的相关知识点。 1. 数组解构赋值数组解构赋值允许你通过位置…...

编程日记 2024/8/14 17:54:34

【Pyspark-驯化】一文搞懂Pyspark中对json数据处理使用技巧：get_json_object

【Pyspark-驯化】一文搞懂Pyspark中对json数据处理使用技巧：get_json_object 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享踩坑集合，智慧小天地！ 🎇 …...

编程日记 2024/8/14 17:53:32

第10章无持久存储的文件系统（1）

目录前言 10.1 proc文件系统 10.1.1 /proc 内容本专栏文章将有70篇左右，欢迎关注，查看后续文章。前言即存在于内存中的文件系统。如： proc： sysfs： 即/sys目录。内容不一定是ASCII文本，可能是二进…...

编程日记 2024/8/14 17:50:27

如何把命令行创建python虚拟环境与pycharm项目管理更好地结合起来

1. 问题的提出我在linux或windows下的某个目录如“X”下使用命令行的方式创建了一个python虚拟环境（参考文章），对应的目录为myvenv, 现在我想使用pycharm创建python项目myproject，并且利用虚拟环境myvenv，怎么办&…...

编程日记 2024/8/14 17:48:22

keepalived+lvs高可用负载均衡集群配置方案

配置方案一、配置主备节点1. 在主备节点上安装软件2. 编写配置文件3. 启动keepalived服务二、配置web服务器1. 安装并启动http服务2. 编写主页面3.配置虚拟地址4. 配置ARP 三、测试服务器IP： 主负载均衡服务器 master 192.168.152.71备负载均衡服务器 backup 192…...

编程日记 2024/8/14 17:45:18

Azure OpenAI Swagger Validation Failure with APIM

题意：Azure OpenAI Swagger 验证失败与 APIM 问题背景： Im converting the Swagger for Azure OpenAI API Version 2023-07-01-preview from json to yaml 我正在将 Azure OpenAI API 版本 2023-07-01-preview 的 Swagger 从 JSON 转换为 YAML。 My S…...

编程日记 2024/8/14 17:43:14

haproxy高级功能配置

介绍HAProxy高级配置及实用案例一.基于cookie会话保持 cookie value:为当前server指定cookie值，实现基于cookie的会话黏性，相对于基于 source 地址hash 调度算法对客户端的粒度更精准，但同时也加大了haproxy负载，目前此模式使用…...

编程日记 2024/8/14 17:42:12

XXL-JOB分布式定时任务框架快速入门

文章目录前言定时任务分布式任务调度 1、XXL-JOB介绍1.1 XXL-JOB概述1.2 XXL-JOB特性1.3 整体架构 2、XXL-JOB任务中心环境搭建2.1 XXL-JOB源码下载2.2 IDEA导入xxljob工程2.3 初始化数据库2.4 Docker安装任务管理中心 3、XXL-JOB任务注册测试3.1 引入xxl-job核心依赖3.2 配置…...

编程日记 2024/8/14 17:41:08

直流电机及其驱动

直流电机是一种将电能转换为机械能的装置，有两个电极，当电极正接时，电机正转，当电极反接时，电机反转。直流电机属于大功率器件，GPIO口无法直接驱动，需要配合电机驱动电路来操作 TB6612是一款双…...

编程日记 2024/8/14 17:39:05

Java-判断一个字符串是否为有效的JSON字符串

在 Java 中判断一个字符串是否为有效的 JSON 字符串，可以使用不同的库来进行验证。常见的库包括 org.json、com.google.gson 和 com.alibaba.fastjson 等。这里我将展示如何使用 com.alibaba.fastjson 库来实现一个简单的工具类，用于判断给定的字符串…...

编程日记 2024/8/14 17:37:01

避开这些坑！在Quartus中设计硬布线CPU时，我的控制器和PC模块是如何调试的

硬布线CPU调试实战：从BEQ失效到波形分析的深度排错指南当你在Quartus中完成单周期CPU的数据通路搭建，满心欢喜点击仿真按钮时，最令人崩溃的莫过于看到BEQ指令毫无反应、存储器读写数据错乱、或者PC计数器像脱缰野马般失去控制。这些看似简单…...

编程新知 2026/5/11 12:12:00

别再只盯着Modbus了！聊聊MBUS总线在智慧水务中的那些坑与最佳实践

MBUS总线在智慧水务中的实战指南：从协议解析到避坑实践当智慧水务项目进入实施阶段，技术选型团队往往会陷入协议选择的困境。Modbus以其通用性成为首选，LoRa凭借无线优势占据一席之地，而MBUS（Meter-Bus）这…...

编程新知 2026/5/11 11:30:15

5分钟掌握全能文档下载神器：告别付费壁垒，解放你的知识获取能力

5分钟掌握全能文档下载神器：告别付费壁垒，解放你的知识获取能力【免费下载链接】kill-doc 看到经常有小伙伴们需要下载一些免费文档，但是相关网站浏览体验不好各种广告，各种登录验证，需要很多步骤才能下载文档&#x…...

编程新知 2026/5/11 11:16:02

Blender 3MF插件：打破3D打印工作流的终极瓶颈

Blender 3MF插件：打破3D打印工作流的终极瓶颈【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 你是否曾在3D打印项目中遇到过这样的困境？精心设计的…...

编程新知 2026/5/11 11:04:44

AI编程套餐怎么选：别只看模型和额度，更要看你会不会被绑定

AI Coding 套餐已经不是单纯比模型强弱的时代。Copilot 改成按量计费，Claude 开始做身份验证，真正决定你成本和稳定性的，越来越不是“今天谁最强”，而是“明天规则变了，你还能不能无痛切走”。以前看模型，2…...

编程新知 2026/5/11 10:48:15

别埋头苦选了！用对方法，俄罗斯的爆款就是你的货源！

标题建议（任选其一）：🔥 扒光了同行底裤：跨境电商“无货源拿货”的顶级神操作，原来他们都在这么干！别再傻乎乎囤货了！一张图看懂“Ozon爆品 ➡️ 1688源头”的极速变现闭环。跨境圈不…...

编程新知 2026/5/11 9:53:52

如何快速检测微信单向好友：WechatRealFriends实用指南

如何快速检测微信单向好友：WechatRealFriends实用指南【免费下载链接】WechatRealFriends 微信好友关系一键检测，基于微信ipad协议，看看有没有朋友偷偷删掉或者拉黑你项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends …...

编程新知 2026/5/11 9:38:34