当前位置: 首页 > article >正文

人工智能|YOLOv1的简单介绍

欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年4月21日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录YOLO1是怎么进行目标识别的呐网络结构层中心点和边界框的坐标数值YOLO1是怎么进行目标识别的呐Grid 整体整张网格7×7 网格Grid cell 网格单元最标准BBOXBounding Box 边界框比如我们有一张448*448的图片它会把这张图片划分成7*7的网格每个网格都叫做一个Grid cell网格单元。YOLO会检测这张图片中有没有东西比如这张图片中有一只小狗一个自行车一辆汽车。比如YOLO识别到它们了它们的中心点就会落在一个网格里。YOLO会根据中心点再检测出一个边界框。这个边界框就叫做BBOX。网络结构层输入图片448×448×3RGBBackbone骨干网络就是多个卷积层的部分。Neck颈部网络在YOLOV1里面可以把它理解成全连接网络。head检测头就是最后7*7*30的输出就可以啦。输出是7*7*30的矩阵我们首先看一下最后的部分最后是一个7*7*1024的输出然后把它展平。进入只有两层的全连接网络然后把输出的1470的向量变成为7*7*30的矩阵。S7就对应图片的7*749个网格30就是每个网格都是30维的向量。前 10 个数值分为两组每组分别对应一个边界框的中心点坐标、以及宽高、用来表示检测框的位置。每组末尾都有一个置信度代表该边界框存在物体的概率。后面 20 个数值为 20 个类别的概率数据集一共包含 20 个目标类别。每个 Grid cell 预测2 个 BBOX可以同时检测同一个格子里的两个物体降低漏检率。我们先来看标签数据的设定方式。当小狗的中心点落在某个网格单元中时我们就需要为该网格对应的 30 维向量打上对应的标签。其余不包含物体中心点的网格单元全部置为负样本标签以此实现 YOLOv1 中心点归属网格的检测规则。中心点和边界框的坐标数值YOLOv1 在数据集标注阶段就是按原始图片的真实像素尺寸来标注物体位置绝对坐标。图片的左上角是定位原点00假设原始图片的大小是800 × 600。你标注工具LabelImg/VOC 格式打的标签是x_abs, y_abs, w_abs, h_abs。这是完全按 800×600 的像素来的。YOLOv1 网络要求输入是 448×448 所以图片会被缩放到 448×448。坐标必须一起缩放不然位置就错位了。 所以要把像素坐标一起归一化到 0~1。直接除去图片的宽和高就可以啦。相对坐标到网络偏移YOLOv1会在数据预处理阶段会用相对位置算出中心点落在那个网格中。然后再计算中心点相对于这个网络的偏移量。此时的下x,y是相对于该网格的偏移量。wh是相对于整张图片的偏移量。预测阶段符号含义x^,y^​网络预测输出当前网格内部相对偏移量0~1就是你上一张图里训练标签的 、gridx​,gridy​物体中心点所在的网格编号0~6训练阶段提前确定w^,h^网络预测输出整张图全局相对宽高0~1训练阶段直接归一化得到x_absolute​,y_absolute​最终还原448×448 输入图片上物体中心点绝对像素坐标w_absolute​,h_absolute​最终还原448×448 输入图片上框的绝对像素宽高YOLOv1 固定输入尺寸参数448÷764推理阶段实时推理 依然不是原图实时摄像头原始大图任意尺寸 ↓ 【缩放 Resize】 网络固定输入 448×448 ↓ 【7×7 网格划分 网络前向推理】 输出网格内部相对偏移量 x^, y^, w^, h^ ↓ 【推理解码公式计算】 448×448 缩放图上绝对像素框 ↓ 【比例映射还原】 原始大图上最终检测显示框

相关文章:

人工智能|YOLOv1的简单介绍

🌞欢迎来到人工智能的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 📆首发时间:🌹2026年4月21日🌹 ✉️希望可以和大家一起完成进阶…...

2026 AI安全左移再进化:从IDE插件到CI门禁,悬镜灵境AIDR的全流程集成实践

摘要“安全左移”已提出多年,但在AI智能体开发场景下面临全新挑战。智能体的“源码”不仅包括代码,还包括提示词、模型依赖和工具定义。传统SAST/DAST无法理解这些新型资产。本文基于悬镜灵境AIDR在IDE插件、CI流水线、运行时护栏三个环节的集成实践&…...

Wan2.2-I2V-A14B持续集成:GitHub Actions自动化构建与部署镜像

Wan2.2-I2V-A14B持续集成:GitHub Actions自动化构建与部署镜像 1. 引言 最近在开发Wan2.2-I2V-A14B项目时,每次手动构建和部署镜像都让我感到效率低下。直到我开始使用GitHub Actions,才发现原来持续集成可以如此简单高效。本文将带你一步步…...

蒙古人当年 是 如何控制 莫斯科的

蒙古人当年控制莫斯科,靠的绝不是简单的驻军镇压,而是一套极其冷酷、高效且深谙人性的**“寄生式统治系统”**。 这正是我们在前面聊到的、把莫斯科的“第一人格”杀死,并逼出其“黑暗第二人格”的那个具体过程。蒙古人(金帐汗国&…...

从巴赫到比特:揭秘MIDI编号、音符名称背后的音乐与数学简史

从巴赫到比特:揭秘MIDI编号、音符名称背后的音乐与数学简史 当你在钢琴上按下中央C键时,听到的不仅是振动频率为261.63Hz的声波——你触发的是一套跨越三个世纪的精密系统。这套系统将数学家的计算、音乐家的实践和工程师的标准化完美融合,最…...

从‘纯净版’到‘定制版’:手把手教你用ChromeOptions打造专属Selenium浏览器环境

从‘纯净版’到‘定制版’:手把手教你用ChromeOptions打造专属Selenium浏览器环境 在自动化测试和网络爬虫开发中,浏览器环境的定制化程度往往决定了项目的成败。想象一下,当你需要处理一个反爬机制严格的电商网站时,一个未经优化…...

VSCode主题进阶玩法:如何基于C/C++ Theme插件,一键导入并微调我分享的Tokyo Night风格配置

VSCode主题进阶玩法:Tokyo Night风格在C/C开发中的深度定制 Tokyo Night主题以其优雅的深蓝紫色调和出色的视觉层次感,成为VSCode社区最受欢迎的主题之一。但对于C/C开发者而言,默认的主题配置可能无法完美适配复杂的语法结构。本文将带你从…...

Wallpaper Engine 壁纸自定义全攻略:从零开始打造动态交互壁纸(附常见问题解决方案)

Wallpaper Engine 交互式壁纸设计进阶指南:从参数配置到性能调优 在数字个性化时代,动态壁纸已成为展示创意与技术融合的最佳载体。Wallpaper Engine作为目前最强大的实时壁纸创作工具,其真正的魅力不仅在于呈现精美动画,更在于让…...

ionic 列表:全面解析与最佳实践

ionic 列表:全面解析与最佳实践 引言 随着移动应用的日益普及,开发高效、美观的移动应用界面变得尤为重要。Ionic 是一个开源的移动端应用开发框架,它基于 Angular、HTML5 和 CSS3,允许开发者使用 Web 技术快速构建跨平台的原生移…...

STM32F103ZE内存不够用?手把手教你用FSMC外挂IS62WV51216 SRAM芯片(附完整代码)

STM32F103ZE内存扩展实战:FSMC驱动IS62WV51216 SRAM全解析 1. 嵌入式开发中的内存困局与破局之道 在开发基于STM32F103ZE的复杂应用时,64KB的片上SRAM很快会成为制约项目进展的瓶颈。当工程师尝试实现以下场景时,内存不足的警告便会频繁出现&…...

从Omniglot到Meta-Dataset:小样本学习数据集演进史与你的模型选型策略

小样本学习数据集演进史:从字符识别到跨域泛化的技术跃迁 当你在深夜调试一个few-shot分类模型时,是否曾被各种相似却又微妙不同的数据集搞得晕头转向?为什么Omniglot的字符识别准确率能轻松突破90%,而同样的模型在mini-ImageNet…...

手把手教你部署通义千问3-VL-Reranker-8B:从本地到公网HTTPS访问全流程

手把手教你部署通义千问3-VL-Reranker-8B:从本地到公网HTTPS访问全流程 1. 通义千问3-VL-Reranker-8B简介 通义千问3-VL-Reranker-8B是一款强大的多模态重排序服务,能够对文本、图像和视频进行混合检索与排序。这个8B参数量的模型支持32k上下文长度和3…...

real-anime-z Web界面深度使用:反向提示词+CFG+步数协同调优方法

real-anime-z Web界面深度使用:反向提示词CFG步数协同调优方法 1. 平台与镜像介绍 real-anime-z是一款专为二次元插画创作优化的文生图镜像,特别适合生成以下内容: 动漫角色设计社交媒体头像海报与封面草图宣传插画素材 技术栈组成&#x…...

AD7656与DSP通信的那些坑:一个波形图引发的调试血泪史

AD7656与DSP通信调试实战:从波形异常到系统稳定的完整解决方案 在高速数据采集系统设计中,AD7656作为一款16位、6通道同步采样ADC,因其优异的性能和灵活的接口选项,被广泛应用于电力监测、工业自动化等领域。然而,当这…...

Mac升级macOS Sonoma后,Cocoapods安装报错?可能是Ruby环境在捣鬼(附修复指南)

Mac升级macOS Sonoma后Cocoapods报错?深度解析Ruby环境修复方案 每次macOS大版本更新,总有一批开发者要面对环境配置的"阵痛期"。上周刚把MacBook Pro升级到Sonoma,原本顺畅的Cocoapods工作流突然罢工——pod install报出一堆权限错…...

FPGA点阵显示翻车实录:从“鬼影”到“闪烁”,我的16*16点阵调试避坑指南

FPGA点阵显示实战:从“鬼影”到“闪烁”的深度调试指南 第一次看到自己设计的16*16点阵屏亮起时,那种成就感难以言表——直到屏幕上开始出现诡异的残影和闪烁。作为一名FPGA开发者,你可能已经掌握了基础的点阵驱动原理,但真正让点…...

把闲置的移动魔百盒CM311-1A改造成24小时低功耗Linux服务器,我花了不到100块

闲置魔百盒CM311-1A变身24小时Linux服务器的低成本实践 在智能设备快速迭代的今天,每个家庭都可能堆积着几台被淘汰的电子设备。这些"电子垃圾"往往被随意丢弃或闲置,却很少有人意识到它们可能隐藏着惊人的潜力。移动魔百盒CM311-1A就是这样一…...

用STM32F103C8T6+ESP8266搞定OneNET数据上传,手把手教你从零配置到云端显示(附完整代码)

从零构建STM32ESP8266物联网终端:OneNET平台数据上传与命令下发实战指南 引言:为什么选择STM32ESP8266组合? 在智能家居、工业监测等物联网应用场景中,低成本、高可靠性的硬件组合始终是开发者的首选。STM32F103C8T6作为ARM Corte…...

思源宋体TTF终极Web应用指南:5分钟实现专业中文排版

思源宋体TTF终极Web应用指南:5分钟实现专业中文排版 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 思源宋体TTF作为开源中文字体的标杆,为Web开发者提供了完美…...

diff-pdf:专业PDF视觉差异检测的5大核心优势与实施指南

diff-pdf:专业PDF视觉差异检测的5大核心优势与实施指南 【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 在技术文档管理、学术论文评审和法律合同核对等场景中&#x…...

Steam创意工坊下载实践指南:WorkshopDL深度解析

Steam创意工坊下载实践指南:WorkshopDL深度解析 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 你是否在GOG或Epic Games Store购买了游戏,却无法访问St…...

Thorium浏览器终极指南:为什么这个Chromium优化版值得你立即尝试?

Thorium浏览器终极指南:为什么这个Chromium优化版值得你立即尝试? 【免费下载链接】thorium Chromium fork named after radioactive element No. 90. Source code and Linux releases. Windows/MacOS/ARM builds served in different repos, links are …...

STM32F103驱动2.4寸TFT屏实战:如何用SPI接口实现GUI图形库(画圆、写字、显示图片)

STM32F103驱动2.4寸TFT屏实战:如何用SPI接口实现GUI图形库(画圆、写字、显示图片) 在嵌入式系统开发中,图形用户界面(GUI)的实现往往是一个既具挑战性又充满成就感的部分。当我们将目光投向STM32F103这类资源有限的微控制器时&…...

EF Core 10 Vector Search扩展正式发布后,92%开发者踩中的5个语义检索陷阱及修复代码模板

第一章:EF Core 10 Vector Search扩展概述与核心价值 EF Core 10 Vector Search 扩展是微软官方在 Entity Framework Core 10 中引入的首个原生向量搜索支持模块,旨在将语义检索能力深度集成至 ORM 层。它并非独立 SDK,而是通过 Microsoft.En…...

蓝凌EKP V16.0二次开发实战:从日志规范到E签宝集成的全流程指南

1. 蓝凌EKP V16.0二次开发环境准备 刚接手蓝凌EKP V16.0二次开发任务时,我建议先搭建好开发环境。这个版本最大的变化是采用了SLF4JLogback日志框架,替代了之前的log4j。在实际项目中,我发现这种变化带来的性能提升确实很明显,特别…...

别再死记硬背了!用‘邻居’和‘广播’的故事,5分钟搞懂ISIS里的LSP和LSA区别

用生活故事解锁IS-IS协议:LSP的村民自治法则 想象一个与世隔绝的村庄,每当新村民加入时,大家会通过传阅自我介绍信来了解彼此——这恰似IS-IS协议中LSP的工作方式。在复杂的网络协议世界里,IS-IS的链路状态协议数据单元&#xff0…...

从零到一:Open5GS 5G核心网实战搭建与避坑指南(基于Ubuntu 22.04)

从零构建Open5GS 5G核心网:Ubuntu 22.04全流程实战手册 1. 环境准备与系统配置 在Ubuntu 22.04上部署Open5GS 5G核心网需要先搭建稳定的基础环境。建议使用物理服务器或配置不低于4核CPU/8GB内存/100GB存储的云实例,避免资源不足导致组件异常。 关键依赖…...

告别手动计算!用Xilinx DDS Compiler 4.0 IP核快速生成可调频调相的正弦波(附Modelsim仿真步骤)

基于Xilinx DDS Compiler 4.0的智能信号生成实战指南 在FPGA开发中,快速生成高精度、可动态调整的正弦波信号是通信系统测试、雷达信号处理等场景的刚需。传统手动编写DDS代码不仅耗时,还容易引入相位误差和频率分辨率问题。Xilinx的DDS Compiler 4.0 IP…...

Java 19+ Loom响应式改造:从Spring WebFlux到VirtualThread的4步平滑迁移路径(含可运行验证代码)

第一章:Java 19 Loom响应式改造:从Spring WebFlux到VirtualThread的4步平滑迁移路径(含可运行验证代码)Java 19 正式引入 Project Loom 的虚拟线程(Virtual Thread)作为预览特性,并在 Java 21 成…...

Elasticsearch LogsDB 发展历程:如何在不降低吞吐量的情况下,将索引大小减少多达 75%

Elasticsearch 最初是作为搜索引擎构建的。这种传承在日志存储方面是有代价的:每个事件都会扩散到多个磁盘结构中,每个结构都针对检索而非压缩进行了优化。LogsDB 改变了这一切。在我们的每晚基准测试中,企业模式(Enterprise mode…...