当前位置：首页 > news >正文

25/1/12 算法笔记剖析Yolov8底层逻辑

news 2026/6/1 21:37:02

YOLOv8 是一种基于深度学习的目标检测和图像分割模型，属于 YOLO（You Only Look Once）系列的最新版本。YOLO 系列模型以其高效的实时目标检测能力而闻名，YOLOv8 在此基础上进行了一些优化和改进。

Yolov8的主要特点：

1.实时性，在速度和准确性之间得到了良好的平衡，适合实时应用。

2.多任务学习，支持多任务，包括目标检测，示例分割，语义分割

3.改进的网络结构，引入了新的网络结构和层，可能包括更深的卷积层，更高效的特征提取模块等，以提高模型的性能。

4.增强的训练策略，采用一系列新的训练策略，如数据增强，混合精度训练。

5.可拓展性，允许用户根据具体任务的需求进行自定义和扩展。

Yolov8的网络结构：

Backbone:网络的特征提取部分，负责从输入图像中提取高层次的特征。

import torch
import torch.nn as nnclass CSPNet(nn.Module):def __init__(self, in_channels, out_channels):super(CSPNet, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels // 2, kernel_size=1)self.conv2 = nn.Conv2d(in_channels, out_channels // 2, kernel_size=1)self.conv3 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)def forward(self, x):x1 = self.conv1(x)x2 = self.conv2(x)return self.conv3(torch.cat((x1, x2), dim=1))

通过两个1*1卷积将输入特征分成两块，然后将它们拼接在一起，最后通过3*3卷积处理。

Backbone会根据任务的复杂度和目标的多样性来调整层数。例如：

class YOLOv8Backbone(nn.Module):def __init__(self):super(YOLOv8Backbone, self).__init__()self.backbone = nn.Sequential(nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1),nn.BatchNorm2d(32),nn.ReLU(),nn.Conv2d(32, 64, kernel_size=3, stride=2, padding=1),nn.BatchNorm2d(64),nn.ReLU(),# 继续增加通道数...)def forward(self, x):x = self.backbone(x)return x

通道数的逐步增加确保了模型在不同层次上捕捉到丰富的特征，同时避免了过高的计算成本。这样的设计在实际应用中能够有效提升模型的性能和效率。

Neck:用于连接Backbone和Head,通常负责特征融合和多尺度特征的生成。

FPN 类实现了一个简单的特征金字塔网络。它通过 1x1 卷积生成横向连接的特征，并通过上采样将特征提升到更高的分辨率。

class FPN(nn.Module):def __init__(self, in_channels, out_channels):super(FPN, self).__init__()self.lateral_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.upsample = nn.Upsample(scale_factor=2, mode='nearest')def forward(self, x):lateral = self.lateral_conv(x)upsampled = self.upsample(lateral)return upsampled

Upsample:是一种将低分辨率数据转换为高分辨率数据的操作。它在信号处理、图像处理、计算机视觉和深度学习等领域中广泛应用。上采样的目的是增加数据的尺寸或分辨率，同时尽可能地保留原始数据的特征。

Head:是模型的输出部分，负责生成最终的检测预测，包括边界框的位置，类别概率和分割掩码。YOLOV8在此部分可能会采用新的损失函数和预测方式。

class YOLOHead(nn.Module):def __init__(self, in_channels, num_classes):super(YOLOHead, self).__init__()self.conv1 = nn.Conv2d(in_channels, in_channels, kernel_size=3, padding=1)self.conv2 = nn.Conv2d(in_channels, num_classes + 5, kernel_size=1)  # 5 for bbox (x, y, w, h, conf)def forward(self, x):x = self.conv1(x)return self.conv2(x)

这个示例中，类实现了Yolov的输出层，首先通过一个3*3卷积提取特征，然后通过一个1*1卷积生成边界框和类别概率的预测。

整体的网络结构

class YOLOv8(nn.Module):def __init__(self, num_classes):super(YOLOv8, self).__init__()self.backbone = CSPNet(in_channels=3, out_channels=64)self.neck = FPN(in_channels=64, out_channels=128)self.head = YOLOHead(in_channels=128, num_classes=num_classes)def forward(self, x):x = self.backbone(x)x = self.neck(x)return self.head(x)

损失函数

Yolov8使用多重损失函数来优化模型，包括定位损失，置信度损失和类别损失。

class YOLOLoss(nn.Module):def __init__(self):super(YOLOLoss, self).__init__()def forward(self, predictions, targets):# 计算定位损失、置信度损失和类别损失loc_loss = self.compute_location_loss(predictions, targets)conf_loss = self.compute_confidence_loss(predictions, targets)class_loss = self.compute_class_loss(predictions, targets)return loc_loss + conf_loss + class_loss

预测机制

Yolov8通过将图像划分位网络来进行目标检测，每个网络负责预测其中心点落在其内部的目标。每个网络预测以下信息：

边界框坐标：通常以相对于网络单元的偏移量和比例进行预测

置信度分数：表示该网络内是否有目标的概率

类别概率：表示目标属于各个类别的概率分布

数据增强和训练策略

YOLOv8 采用多种数据增强技术，以提高模型的泛化能力。常见的数据增强方法包括：

随机裁剪，旋转，翻转

import torchvision.transforms as transformstransform = transforms.Compose([transforms.RandomResizedCrop(224),transforms.RandomHorizontalFlip(),transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.2),
])

推理和后处理

在推理阶段，YOLOv8 会对输入图像进行处理，生成预测结果。

包括：

非极大值抑制NM5:用于消除重叠的边界框，只保留置信度最高的框。

def non_max_suppression(predictions, conf_threshold=0.5, iou_threshold=0.4):# 过滤低置信度的预测predictions = [p for p in predictions if p[4] >= conf_threshold]# 按照置信度排序predictions.sort(key=lambda x: x[4], reverse=True)keep_boxes = []while predictions:best_box = predictions.pop(0)keep_boxes.append(best_box)predictions = [p for p in predictions if compute_iou(best_box, p) < iou_threshold]return keep_boxes

阈值过滤：根据设定的阈值过滤低置信度的预测。

def filter_predictions(predictions, conf_threshold):return [p for p in predictions if p[4] >= conf_threshold]

总的来看其实Yolov8模型并没有这么复杂，其实是它里面的结构网络设计的非常具有合理性，使得它简单高效。

Backbone：

特征提取效率：选择高效的网络结构，减少计算量，同时保留足够的特征信息。
深度和宽度的平衡：合理的层数和通道数设计，使得模型在提取低级和高级特征时具有良好的表现。
预训练模型：通常使用在大规模数据集（如 ImageNet）上预训练的模型，帮助加速收敛并提高准确性。

Neck：

特征金字塔结构：通过特征金字塔网络（FPN）或其他融合方法，能够有效地结合来自不同层的特征，增强模型对多尺度目标的检测能力。
减少信息损失：在特征融合过程中，合理的设计可以最大限度地保留重要信息，避免特征的丢失。

Head：

多任务学习：通过同时预测多个输出（边界框、置信度、类别），模型能够更好地学习到目标的特征，提高检测的准确性。
损失函数设计：合理的损失函数组合（如定位损失、置信度损失和类别损失）能够使模型在训练过程中更有效地优化各个任务，避免单一任务的过拟合。

网络结构也能基于任务复杂性自主调节：

 # 基于任务复杂性调整通道数if task_complexity == 'simple':self.channels = [32, 64, 128]elif task_complexity == 'moderate':self.channels = [64, 128, 256]else:  # complexself.channels = [128, 256, 512]# 根据类别数量调整最后一层的通道数self.final_channels = self.channels[-1] + num_classes

ok!明天见！

25/1/12 算法笔记剖析Yolov8底层逻辑

YOLOv8 是一种基于深度学习的目标检测和图像分割模型，属于 YOLO（You Only Look Once）系列的最新版本。YOLO 系列模型以其高效的实时目标检测能力而闻名，YOLOv8 在此基础上进行了一些优化和改进。 Yolov8的主要特点： …...

编程日记 2025/1/13 18:09:18

Python双指针

双指针双指针：在区间操作时，利用两个下标同时遍历，进行高效操作双指针利用区间性质可以把 O ( n 2 ) O(n^2) O(n2) 时间降低到 O ( n ) O(n) O(n) 反向扫描反向扫描： l e f t left left 起点，不断往右走&…...

编程日记 2025/1/13 18:03:11

1、docker概念和基本使用命令

docker概念微服务：不再是以完整的物理机为基础的服务软件，而是借助于宿主机的性能。以小量的形式，单独部署的应用。 docker：是一个开源的应用容器引擎，基于go语言开发的，使用时apache2.0的协议。docker是…...

编程日记 2025/1/13 18:02:10

数据结构与算法之链表: LeetCode 92. 反转链表 II (Ts版)

反转链表 II https://leetcode.cn/problems/reverse-linked-list-ii/description/ 描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表示例 1 输入&…...

编程日记 2025/1/13 18:01:06

【PPTist】插入形状、插入图片、插入图表

一、插入形状插入形状有两种情况，一种是插入固定的形状， 一种是插入自定义的形状。插入固定的形状时，跟上一篇文章绘制文本框是一样一样的，都是调用的 mainStore.setCreatingElement() 方法，只不多传的类型不一…...

编程日记 2025/1/13 17:59:00

三台Centos7.9中Docker部署Redis集群

Docker部署Redis集群 1. 安装 Docker 和 Docker Compose安装 Docker：安装 Docker Compose： 2. 配置 Redis 容器和网络3. 启动 Redis 容器4. 设置 Redis 集群4.1 集群创建异常处理 5. 验证和测试总结如果 CentOS 服务器上还没有安装 Docker 和 Docker Co…...

编程日记 2025/1/13 17:51:53

Entity 的材质普通物体的材质 import { nextTick, onMounted, ref } from vue import * as Cesium from cesium // console.log(Cesium, Cesium)const viewer ref<any>(null)onMounted(() > { ... })let material Cesium.Color.YELLOW.withAlpha(0.5)Cesium.Colo…...

编程日记 2025/1/13 17:48:42

MACPA：fMRI连接性分析的新工具

摘要不同脑区的共同激活为它们之间的功能交互或连接提供了一个有价值的衡量指标。元分析连接模型(MACM)是一种经过充分验证的研究某一特定区域共激活模式的方法，该方法对基于任务的功能磁共振成像(task-fMRI)数据进行种子点(seed-based)元分析。虽然MACM是一种强大…...

编程日记 2025/1/13 17:44:22

JavaScript-一份你的前端入门说明书（计算机专业）

一.简介 1.起源 JavaScript 起源于 1995 年，当时它主要是为了满足网页交互的需求而被创建。它最初的设计目的是为了让网页开发者能够在网页中添加一些简单的交互效果和动态内容。在那个时期，网页大多是静态的，而 JavaScript 的出现为网页带来了新的活力。Netscape 公司的 B…...

编程日记 2025/1/13 17:38:25

STM32供电参考设计

STM32供电参考设计在图中有VDD，VSS和VDDA，VSSA两种类型的供电引脚，其数据手册解释如下： 令我不解的是：VDDA和VSSA必须分别连接到VDD和VSS，这是什么意思？有大佬能够解答一下吗&#xff1f…...

编程日记 2025/1/13 17:35:12

python+fpdf：创建pdf并实现表格数据写入

目录创建pdf文件对象新增页添加自定义字体设置字体设置文字颜色和背景色插入内容换行插入图片保存pdf 完整代码安装：pip install fpdf 创建pdf文件对象 from fpdf import FPDF, Alignpdf FPDF() # 创建pdf文件对象获取边距 print(pdf.l_…...

编程日记 2025/1/13 17:32:07

亚远景-ASPICE评估：汽车软件项目的过程能力评价

ASPICE（Automotive SPICE）的评估对象主要是汽车软件研发过程。这个评估过程不仅仅关注最终的软件产品，而是深入到软件开发的全生命周期中，从需求分析、设计、编码、测试到发布和维护等各个环节。具体来说，ASPICE评…...

编程日记 2025/1/13 17:28:55

电脑提示directx错误导致玩不了游戏怎么办？dx出错的解决方法

想必大家都有过这样的崩溃瞬间：满心欢喜打开心仪的游戏，准备在虚拟世界里大杀四方或者畅游冒险，结果屏幕上突然弹出个 DirectX 错误的提示框，紧接着游戏闪退，一切美好戛然而止。DirectX 作为 Windows 系统下游戏运行的…...

编程日记 2025/1/13 17:24:45

【13】制作镜像以及重启实例

制作镜像 k8s集群有两个镜像需要制作，一个是master节点，一个是node节点。在master节点上成功部署了k8s的控制平面，在node节点上部署了worker节点的配置，不知道打包镜像重启之后集群的状态是什么样的。确认集群在运行&#…...

编程日记 2025/1/13 17:21:38

electron 启动警告

1. 问题当启动 electron 时，控制台警告 Electron Security Warning (Insecure Content-Security-Policy) This renderer process has either no Content Security 2. 解决方法在主进程文件 main.js 中添加如下内容 process.env["ELECTRON_DISABLE_SECURI…...

编程日记 2025/1/13 17:18:34

wow-agent 学习笔记

wow-agent-课程详情 | Datawhale 前两课比较基础，无笔记第三课阅卷智能体这一块，曾经做过一点和AI助教相关的内容，也是用了一个prompt去进行CoT，但是风格和课程中的不太相同，在下面附上我的prompt 你是一名资深教…...

编程日记 2025/1/13 17:16:31

使用Cilium/eBPF实现大规模云原生网络和安全

大家读完觉得有帮助记得关注和点赞！！！ 目录抽象 1 Trip.com 云基础设施 1.1 分层架构 1.2 更多细节 2 纤毛在 Trip.com 2.1 推出时间表 2.2 自定义 2.3 优化和调整 2.3.1 解耦安装 2.3.2 避免重试/重启风暴 2.3.3 稳定性优先 2…...

编程日记 2025/1/13 17:11:25

“深入浅出”系列之C++：（4）回调函数

在写项目的时候遇见一个问题，现在的需求是主项目需要拿到子项目的结果来进行显示，那么如何集成呢，子项目里面有一个MainWindow类，类里回调函数是一种通过函数指针将函数作为参数传递给另一个函数的编程技术。这种机制允许程序在特…...

编程日记 2025/1/13 17:10:24

Mysql--运维篇--主从复制和集群（主从复制I/O线程，SQL线程，二进制日志，中继日志，集群NDB）

一、主从复制 MySQL的主从复制（Master-Slave Replication）是一种数据冗余和高可用性的解决方案，它通过将一个或多个从服务器（Slave）与主服务器（Master）同步来实现。主从复制的基本原理是&#…...

编程日记 2025/1/13 17:07:20

设计模式行为型状态模式（State Pattern）与常见技术框架应用解析

状态模式（State Pattern）是一种行为型设计模式，它允许对象在内部状态改变时改变其行为，使得对象看起来好像修改了它的类。这种设计模式的核心思想是将对象的状态和行为封装成不同的状态类，通过状态对象的行为改变来避免…...

编程日记 2025/1/13 17:06:18

App无辜躺枪？手把手教你搞定腾讯手机管家误报导致的应用商店下架

当合规应用遭遇误报下架：开发者系统性应对指南运动健康类应用被标记为金融诈骗软件？社交工具因"病毒风险"被各大商店紧急下架？这类看似荒谬的误报事件，正在成为中小开发团队的"无妄之灾"。某知名运动App开发团…...

编程新知 2026/5/26 4:54:25

ZjDroid命令大全：从DEX内存dump到Lua脚本注入的完整教程

ZjDroid命令大全：从DEX内存dump到Lua脚本注入的完整教程【免费下载链接】ZjDroid Android app dynamic reverse tool based on Xposed framework. 项目地址: https://gitcode.com/gh_mirrors/zj/ZjDroid ZjDroid是一款基于Xposed框架的Android应用动态逆向分…...

编程新知 2026/5/26 4:46:24

Visual Studio 项目属性页开发完全教程：从基础到高级

Visual Studio 项目属性页开发完全教程：从基础到高级【免费下载链接】project-system The .NET Project System for Visual Studio 项目地址: https://gitcode.com/gh_mirrors/pr/project-system Visual Studio 项目属性页是开发者管理项目配置的核心界面&a…...

编程新知 2026/5/26 4:42:23

Claude Code 之父：2026 年我一行代码都没写，编程已被 AI 解决

2026 年，你还在一行一行敲代码吗？Claude Code 的创造者、Anthropic 核心人物 Boris Cherny，在公开访谈里抛出一句让整个行业震动的话：2026 年到现在，我没有写过一行代码。所有开发工作，100% 交给 AI 代理完…...

编程新知 2026/5/26 3:30:08

ParaView时间戳设置全攻略：从基础标注到自定义格式（5.8.0实测）

ParaView时间戳设置全攻略：从基础标注到自定义格式（5.8.0实测） 在科学可视化领域，时间戳不仅是数据演变的见证者，更是研究成果呈现的专业语言。ParaView作为开源可视化工具链的标杆，其时间标注功能在学术论…...

编程新知 2026/5/26 2:55:48

基于ATmega2560与ISD1700的智能语音时钟：硬件选型、软件架构与避坑指南

1. 项目概述与核心价值去年折腾那个用ATMega328驱动三块显示屏的时钟时，我主要精力都花在了如何在320x240的TFT屏幕上把时间、日期和图标画得又准又好看上。项目在《Elektor》杂志上发表后，一位热心的读者给我提了个新想法：能不能做个会“说话…...

编程新知 2026/5/26 0:34:24

配置OpenClaw Agent使用Taotoken作为后端模型提供商

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度配置OpenClaw Agent使用Taotoken作为后端模型提供商基础教程类，指导希望使用OpenClaw等Agent工具的开发者&#xff0c…...

编程新知 2026/5/25 23:51:45

OmenSuperHub：释放惠普游戏本性能的纯净开源控制中心

OmenSuperHub：释放惠普游戏本性能的纯净开源控制中心【免费下载链接】OmenSuperHub Control Omen laptop performance, fan speeds, and keyboard lighting, and unlock power limits. 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 还在为官方…...

编程新知 2026/5/25 22:06:17

终极Node.js Mock工具：Mockery入门到精通实战教程

终极Node.js Mock工具：Mockery入门到精通实战教程【免费下载链接】mockery Simplifying the use of mocks with Node.js 项目地址: https://gitcode.com/gh_mirrors/mock/mockery Mockery是Node.js生态中简化Mock使用的终极工具，它为开发者提供了…...

编程新知 2026/5/25 22:04:16

defx.nvim 安装与配置完全教程：从零开始搭建高效文件管理系统 [特殊字符]

defx.nvim 安装与配置完全教程：从零开始搭建高效文件管理系统 🚀 【免费下载链接】defx.nvim :file_folder: The dark powered file explorer implementation for neovim/Vim8 项目地址: https://gitcode.com/gh_mirrors/de/defx.nvim defx.nvim …...

编程新知 2026/5/25 21:43:58