当前位置：首页 > news >正文

037、目标检测-算法速览

news 2026/2/10 1:56:50

之——常用算法速览

杂谈

正文

1.区域卷积神经网络 - R-CNN

2.单发多框检测SSD，single shot detection

3.yolo

杂谈

快速过一下目标检测的各类算法。

正文

1.区域卷积神经网络 - R-CNN

region_based CNN，奠基性的工作。

选择锚框是一个较为复杂的算法，来自于神经网络还没发展的时候；启发式算法选择出锚框后，每一个锚框当做一个图片，然后用预训练好的CNN抽取特征；然后训练SVM用来分类，训练一个回归模型来预测边缘框，具体是：

将每个提议区域的特征连同其标注的类别作为一个样本。训练多个支持向量机对目标分类，其中每个支持向量机用来判断样本是否属于某一个类别；

将每个提议区域的特征连同其标注的边界框作为一个样本，训练线性回归模型来预测真实边界框。

然而锚框的选择大小与比例是不一定的，这种情况下如何生成规则的训练batch呢，于是提出了RoI(region of interest)，兴趣区域池化：

这个方法不会严格均匀地切割，而是会尽量按比例切割满足最后输出，看对应颜色：

Fast RCNN：

对于RCNN的加强，主要的改进是直接对整张图片抽特征而不是对锚框抽特征：

R-CNN的主要性能瓶颈在于，对每个提议区域，卷积神经网络的前向传播是独立的，而没有共享计算。由于这些区域通常有重叠，独立的特征抽取会导致重复的计算。 Fast R-CNN 对R-CNN的主要改进之一，是仅在整张图象上执行卷积神经网络的前向传播。

搜到锚框之后再映射到CNN之后的feature map上：

再把特征图上的ROI展平投入到全连接层进行预测。

Faster R-CNN:

更进一步的改进是：

为了较精确地检测目标结果，Fast R-CNN模型通常需要在选择性搜索中生成大量的提议区域。 Faster R-CNN 提出将选择性搜索替换为区域提议网络（region proposal network），从而减少提议区域的生成数量，并保证目标检测的精度。

二分类预测锚框合理与不合理：

Mask R-CNN:

如果有像素级别的标号就用FCN来处理，提升原有的性能；roi pooling改为了roi align以避免像素级的误差：

比较贵，实用性不高：

2.单发多框检测SSD，single shot detection

单发步枪，只跑一遍，不需要两个网络。

生成锚框的办法：

然后的操作：

多个分辨率下去锚框然后用算法预测类别和边界框，参考上面RCNN的预测方法。

性能，更快但没那么准：

主要原因应该是没有什么改进？

3.yolo

you only live once：

you only look once：

每个锚框预测了多个边缘框，因为这样均匀分割的锚框可能会同时挨到多个真实边缘框。

后续通过细节改进进行提升，比如引入数据集真实框的先验知识之类的。

        YOLO（You Only Look Once）是一种流行的实时目标检测系统，可以在图像或视频流中检测多个物体。YOLO的关键思想是将图像分成网格，并为每个网格单元预测边界框和类别概率。这使得YOLO能够在神经网络的单次前向传递中对多个物体进行预测，从而具有高效的计算能力。

YOLO算法的主要步骤包括：

输入图像：

YOLO接收输入图像并将其划分为网格。

网格划分：

将图像划分为一个 S x S 的网格。每个网格单元负责预测对象，如果对象的中心落入该单元，则该单元负责预测该对象。

边界框预测：

每个网格单元预测多个边界框，同时预测它们的置信度分数。这些边界框由（x，y，w，h）表示，其中（x，y）是边界框的中心，（w，h）是宽度和高度。

类别预测：

每个边界框预测对象的不同类别的概率。

物体置信度分数：

YOLO为每个边界框预测一个物体置信度分数，表示该框内存在物体的可能性。

非极大值抑制：

在进行预测后，会应用一种后处理步骤称为非极大值抑制，以过滤重复或低置信度的预测结果。它保留最有信心的预测结果并删除重叠显著的预测。

输出：

最终输出是一个边界框列表，每个边界框关联着一个类别标签和置信度分数。

        YOLO已经推出了几个版本，通过提高准确性和速度进行改进。一些知名的版本包括YOLOv1，YOLOv2（YOLO9000），YOLOv3和YOLOv4。每个版本都引入了架构改进，并解决了目标检测中的特定挑战。

        值得注意的是，由于其实时处理能力，YOLO被广泛应用于自动驾驶车辆、监控和机器人等各种应用领域。YOLO的实现可在流行的深度学习框架（如TensorFlow和PyTorch）中找到，使其对研究人员和开发人员更易于接触和使用。

037、目标检测-算法速览

之——常用算法速览目录之——常用算法速览杂谈正文 1.区域卷积神经网络 - R-CNN 2.单发多框检测SSD，single shot detection 3.yolo 杂谈快速过一下目标检测的各类算法。正文 1.区域卷积神经网络 - R-CNN region_based CNN，奠基性的工作。…...

编程日记 2023/11/20 10:44:53

【开发流程】持续集成、持续交付、持续部署

一、开发工作流程假设把开发流程分为以下几个阶段： 编码 -> 构建 -> 集成 -> 测试 -> 交付 -> 部署如上图所示，持续集成、持续交付、持续部署有着不同的软件自动交付周期。二、持续集成、持续交付、持续部署 1、持续集成持续集成…...

编程日记 2023/11/20 10:43:52

Linux——编译器gcc/g++、调试器gdb以及自动化构建工具makefilemake详解

编译器—gcc/g、调试器—gdb以及自动化构建工具—makefile&&make 文章目录编译器—gcc/g、调试器—gdb以及自动化构建工具—makefile&&make1. 编译器——gcc/g1.1 生成可执行文件与修改默认可执行文件1.2 程序的翻译过程以及对应的gcc选项1.2.1 预处理 gcc -E…...

编程日记 2023/11/20 10:42:51

Android registerForActivityResults使用详解以及实现原理

registerForActivityResult 使用用途是监听Activity结果。以下是使用样例 //需要传递Request用于解析Intent和解析上个Activity返回的结果 val launchdata = registerForActivityResult<PickVisualMediaRequest, Uri?>(ActivityResultContracts.PickVisualMedia()) {…...

编程日记 2023/11/20 10:41:49

模拟实现一个Linux中的简单版shell

exec系列接口中的环境变量在之前我们学习了exec系类函数的功能就是将一个程序替换成另外一个程序。然后就会出现下面的问题： 首先父进程对应的环境变量的信息是从bash中来的，因为我们自己写的父进程在运行的时候首先就要成为bash的子进程。这里我们将…...

编程日记 2023/11/20 10:40:48

扩散模型实战（十）：Stable Diffusion文本条件生成图像大模型

推荐阅读列表： 扩散模型实战（一）：基本原理介绍扩散模型实战（二）：扩散模型的发展扩散模型实战（三）：扩散模型的应用扩散模型实战（四&#xff…...

编程日记 2023/11/20 10:39:47

LaTex编写伪代码，并实现根据所在章编号（连字符），例如算法1-1

1 首先导入包： 按需要添加或者删除option，但是algochapter是必须的。 \usepackage[linesnumbered,ruled,algochapter]{algorithm2e}各个option的作用如下： 您好，这是Bing。我可以帮您解释algorithm2e包中这几个option的意思。&a…...

编程日记 2023/11/20 10:37:44

vue.js javascript js判断是值否为空

检查一个对象（Object）是否为空，即不包含任何元素。Javascript 中的对象就是一个字典，其中包含了一系列的键值对（Key Value Pair）。检查一个对象是否为空，等价于检查对象中有没有键值对。 1、如…...

编程日记 2023/11/20 10:35:42

网页开发如何实现简易页面跳动/跳转，html课堂练习/作业，页面ABC的相互跳转

先建一个文件夹，文件夹包含三个文件夹，三个文件夹分别包含各自的代码。(可以只建一个文件夹，文件夹包含各页面代码) 页面1的代码： <head> <meta http-equiv"Content-Type" content"text/html; charsetu…...

编程日记 2023/11/20 10:34:40

某大型房地产公司绩效面谈项目成功案例纪实

——开展有效的绩效面谈，促进和完善管理工作【客户行业】房地产行业；国有企业【问题类型】绩效面谈改进【客户背景】某大型房地产公司是某国企集团的省级分公司，集团公司现拥有北京、上海、广州、山东等8大区域公司，现有员…...

编程日记 2023/11/20 10:33:38

BGP联盟和团体属性实验

目录一、实验拓扑二、实验要求三、实验步骤 1、IP地址配置 2、ospf配置 3、BGP建邻 4、宣告网段 5、配置团体属性一、实验拓扑二、实验要求 1、按照图示配 IP 地址，R2，R3，R4，R5分别配 Loopbacke 口地址作为OSPF的Ro…...

编程日记 2023/11/20 10:32:37

代码随想录-刷题第二天

977. 有序数组的平方题目链接：977. 有序数组的平方思路：双指针思想，数组是有序的且含有负数，其中元素的平方一定是两边最大。定义两个指针，从两端开始向中间靠近，每次比较两个指针的元素平方大小&#…...

编程日记 2023/11/20 10:31:36

DAY59 503.下一个更大元素II + 42. 接雨水

503.下一个更大元素II 题目要求： 给定一个循环数组（最后一个元素的下一个元素是数组的第一个元素），输出每个元素的下一个更大元素。数字 x 的下一个更大的元素是按数组遍历顺序，这个数字之后的第一个比它更大的数&am…...

编程日记 2023/11/20 10:28:33

【如何将任何直流电机变成伺服电机】

【如何将任何直流电机变成伺服电机】 1 前沿2 伺服电机工作原理3 如何制作定制伺服电机4 AS5600 编码器 – 磁性旋转位置传感器5 定制伺服电机电路图6 PCB设计7 自定义伺服3D模型8 定制伺服齿轮箱的 3D 打印零件9 对控制器进行编程9.1 引导加载程序刻录9.2 代码上传9.3 源代码9…...

编程日记 2023/11/20 10:27:32

单片机语音芯片在工业控制中的应用优势

单片机语音芯片，这一智能化的代表产品，不仅在家庭和消费电子领域发挥着重要的作用，更为工业控制领域注入了新的活力。将单片机语音芯片与语音交互技术相结合，为工业设备的控制和监测提供了前所未有的解决方案。首先，…...

编程日记 2023/11/20 10:25:30

【开源】基于Vue.js的高校实验室管理系统的设计和实现

项目编号： S 015 ，文末获取源码。 \color{red}{项目编号：S015，文末获取源码。} 项目编号：S015，文末获取源码。目录一、摘要1.1 项目介绍1.2 项目录屏二、研究内容2.1 实验室类型模块2.2 实验室模块2.3 实…...

编程日记 2023/11/20 10:21:27

Xrdp+内网穿透实现远程访问Linux Kali桌面

XrdpCpolar实现远程访问Linux Kali桌面文章目录 XrdpCpolar实现远程访问Linux Kali桌面前言1. Kali 安装Xrdp2. 本地远程Kali桌面3. Kali 安装Cpolar 内网穿透4. 配置公网远程地址5. 公网远程Kali桌面连接6. 固定连接公网地址7. 固定地址连接测试前言 Kali远程桌面的好处在于…...

编程日记 2023/11/20 10:20:24

【洛谷算法题】P5713-洛谷团队系统【入门2分支结构】

👨‍💻博客主页：花无缺欢迎点赞👍 收藏⭐ 留言📝 加关注✅! 本文由花无缺原创收录于专栏【洛谷算法题】文章目录【洛谷算法题】P5713-洛谷团队系统【入门2分支结构】🌏题目描述🌏输入格…...

编程日记 2023/11/20 10:19:21

Eclipse切换中文环境

PACK包链接地址，进入后可以看到不同版本的包。要选择跟自己Eclipse版本一致的包，比如我的Eclipse启动界面如下，我就要找Helios的包（ Juno、Indigo、Helios、Kepler这些具体怎么划分的我也不清楚）。在线安装打…...

编程日记 2023/11/20 10:18:20

栈和队列概念

栈stack 栈只能在一端插入/删除元素先入后出只能从栈顶插入，栈顶删除栈底不允许插入和删除push：进栈pop：出栈应用场景： 队列 Queue 队列的插入操作称为 “入队”（Enqueue），是在队尾进行的&am…...

编程日记 2023/11/20 10:17:18

黑马Mybatis

Mybatis 表现层：页面展示业务层：逻辑处理持久层：持久数据化保存在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

编程新知 2026/1/22 14:22:27

Java 8 Stream API 入门到实践详解

一、告别 for 循环！ 传统痛点： Java 8 之前，集合操作离不开冗长的 for 循环和匿名类。例如，过滤列表中的偶数： List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

编程新知 2026/1/12 10:41:22

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出：JavaScript 中的 window.crypto.getRandomValues() 方法在现代 Web 开发中，随机数的生成看似简单，却隐藏着许多玄机。无论是生成密码、加密密钥，还是创建安全令牌，随机数的质量直接关系到系统的安全性。Jav…...

编程新知 2025/10/8 4:56:09

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

编程新知 2026/1/29 5:29:57

从零实现STL哈希容器：unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享希望也能为你带来些帮助~ 那咱们废话不多说，直接开始吧！ 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

编程新知 2026/1/31 12:47:25

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2026/2/4 18:09:49

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

目录一、👋🏻前言二、😈sinx波动的基本原理三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理四、🌊波动优化…...

编程新知 2026/2/6 22:55:12

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决问题背景在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中，新增了一个本地验证码接口 /code，使用函数式路由（RouterFunction）和 Hutool 的 Circle…...

编程新知 2026/2/9 4:25:05

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

C语言中提供的第三方库之哈希表实现

一. 简介前面一篇文章简单学习了C语言中第三方库（uthash库）提供对哈希表的操作，文章如下： C语言中提供的第三方库uthash常用接口-CSDN博客本文简单学习一下第三方库 uthash库对哈希表的操作。二. uthash库哈希表操作示例 u…...

编程新知 2025/11/9 14:40:17

之——常用算法速览

杂谈

正文

1.区域卷积神经网络 - R-CNN

2.单发多框检测SSD，single shot detection

3.yolo

相关文章：