当前位置: 首页 > article >正文

计算机视觉深度学习入门(2)

卷积运算

Dense层与卷积层的根本区别在于,Dense层从输入特征空间中学到的是全局模式(比如对于MNIST数字,全局模式就是涉及所有像素的模式)​,而卷积层学到的是局部模式(对于图像来说**,局部模式就是在输入图像的二维小窗口**中发现的模式)​,如图8-1所示。在上面的示例中,窗口尺寸都是3×3。

在这里插入图片描述
图8-1 图像可以被分解为局部模式,比如边缘、纹理等

这个重要特性使卷积神经网络具有以下两个有趣的性质。

卷积神经网络学到的模式具有平移不变性(translation invariant)(学到的特征和位置无关)​。在图片右下角学到某个模式之后,卷积神经网络可以在任何位置(比如左上角)识别出这个模式。对于密集连接模型来说,如果模式出现在新的位置,它就需要重新学习这个模式。这使得卷积神经网络在处理图像时可以高效地利用数据(因为视觉世界本质上具有平移不变性)​,它只需要更少的训练样本就可以学到具有泛化能力的数据表示。卷积神经网络可以学到模式的空间层次结构(spatial hierarchies of patterns)​。第一个卷积层学习较小的局部模式(比如边缘)​,第二个卷积层学习由第一层特征组成的更大的模式,以此类推,如图8-2所示。这使得卷积神经网络能够有效地学习越来越复杂、越来越抽象的视觉概念,因为视觉世界本质上具有空间层次结构。如果对于大脑视觉神经的工作原理有所了解的同学就知道大脑的工作原理正是如此。

在这里插入图片描述

图8-2 视觉世界形成了视觉模块的空间层次结构:基本的线条和纹理组合成简单对象,比如眼睛或耳朵。这些简单对象又组合成高级概念,比如“猫”

卷积运算作用于被称为特征图(feature map)的3阶张量,它有2个空间轴(高度和宽度)和1个深度轴(也叫通道轴)​。对于RGB图像,深度轴的维度大小为3,因为图像有3个颜色通道:红色、绿色和蓝色。对于黑白图像(比如MNIST数字图像)​,深度为1(表示灰度值)​。卷积运算从输入特征图中提取图块,并对所有这些图块应用相同的变换,生成输出特征图。该输出特征图仍是一个3阶张量,它有宽度和高度,深度可以任意取值,因为输出深度是该层的参数。深度轴的不同通道不再像RGB那样代表某种颜色,而是代表**滤波器(filter)**​。滤波器对输入数据的某一方面进行编码。比如,某个层级较高的滤波器可能编码这样一个概念:​“输入中包含一张人脸。​”

在MNIST示例中,第一个卷积层接收尺寸为(28, 28, 1)的特征图,并输出尺寸为(26,26, 32)的特征图,也就是说,它在输入上计算了32个滤波器。对于这32个输出通道,每个通道都包含一个26×26的数值网格,它是滤波器对输入的响应图(response map)​,表示这个滤波器模式在输入中不同位置的响应,如图8-3所示。

在这里插入图片描述

图8-3 响应图的概念:表示某个模式在输入中不同位置是否存在的二维图

这就是特征图这一术语的含义:深度轴上的每个维度都是一个特征(滤波器)​,而2阶张量output[:, :, n]是这个滤波器在输入上的响应的二维图。卷积由以下两个关键参数定义。从输入中提取的图块尺寸:这些图块尺寸通常是3×3或5×5。本例采用3×3,这是很常见的选择。输出特征图的深度:卷积所计算的滤波器的数量。本例第一层的深度为32,最后一层的深度为128。对于Keras的Conv2D层,这些参数就是向层传入的前几个参数:Conv2D(output_depth, (window_height, window_width))。

卷积的工作原理是这样的:在3维输入特征图上滑动(slide)这些3×3或5×5的窗口,在每个可能的位置停下来并提取周围特征的3维图块[形状为(window_height,window_width, input_depth)]。然后将每个这样的3维图块与学到的权重矩阵[叫作卷积核(convolution kernel)​,对所有图块都重复使用同一个卷积核]做张量积,使其转换成形状为(output_depth,)的1维向量。每个图块得到一个向量,然后对所有这些向量进行空间重组,将其转换成形状为(height, width, output_depth)的3维输出特征图。输出特征图中的每个空间位置都对应输入特征图中的相同位置(比如输出的右下角包含输入右下角的信息)​。举个例子,利用3×3的窗口,向量output[i, j, :]来自于3维图块input[i-1:i+1, j-1:j+1, :]。整个过程详见图8-4。

在这里插入图片描述

输出的宽度和高度可能与输入的宽度和高度不同,原因有二:边界效应,这可以通过对输入特征图进行填充来消除;步幅,稍后会给出其定义。我们来深入了解一下这些概念。

相关文章:

计算机视觉深度学习入门(2)

卷积运算 Dense层与卷积层的根本区别在于,Dense层从输入特征空间中学到的是全局模式(比如对于MNIST数字,全局模式就是涉及所有像素的模式)​,而卷积层学到的是局部模式(对于图像来说**,局部模式…...

基于大模型预测的急性横贯性脊髓炎诊疗方案研究报告

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与方法 1.3 国内外研究现状 二、急性横贯性脊髓炎概述 2.1 疾病定义与分类 2.2 病因与发病机制 2.3 临床表现与诊断标准 三、大模型在急性横贯性脊髓炎预测中的应用 3.1 大模型介绍与原理 3.2 数据收集与预处理 3.3 …...

计算机毕业设计Python+DeepSeek-R1大模型医疗问答系统 知识图谱健康膳食推荐系统 食谱推荐系统 医疗大数据(源码+LW文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...

nginx服务器实现上传文件功能_使用nginx-upload-module模块

目录 conf文件内容如下html文件内容如下上传文件功能展示 conf文件内容如下 #user nobody; worker_processes 1;error_log /usr/logs/error.log; #error_log /usr/logs/error.log notice; #error_log /usr/logs/error.log info;#pid /usr/logs/nginx.pid;even…...

ReferenceError: assignment to undeclared variable xxx

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…...

HTML 属性(详细易懂)

HTML(超文本标记语言)是用于创建网页和其他可在浏览器中查看的内容的基础标记语言。HTML 属性是 HTML 元素的额外信息,它们提供了元素的更多细节,如元素的标识符、样式、行为等。在本文中,将详细介绍 HTML 属性&#x…...

im即时聊天客服系统SaaS还是私有化部署:成本、安全与定制化的权衡策略

随着即时通讯技术的不断发展,IM即时聊天客服系统已经成为企业与客户沟通、解决问题、提升用户体验的重要工具。在选择IM即时聊天客服系统时,企业面临一个重要决策:选择SaaS(软件即服务)解决方案,还是进行私…...

Python 性能优化:从入门到精通的实用指南

Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

K8s 1.27.1 实战系列(六)Pod

一、Pod介绍 1、Pod 的定义与核心设计 Pod 是 Kubernetes 的最小调度单元,由一个或多个容器组成,这些容器共享网络、存储、进程命名空间等资源,形成紧密协作的应用单元。Pod 的设计灵感来源于“豌豆荚”模型,容器如同豆子,共享同一环境但保持隔离性。其核心设计目标包括…...

深入理解与配置 Nginx TCP 日志输出

一、背景介绍 在现代网络架构中,Nginx 作为一款高性能的 Web 服务器和反向代理服务器,广泛应用于各种场景。除了对 HTTP/HTTPS 协议的出色支持,Nginx 从 1.9.0 版本开始引入了对 TCP 和 UDP 协议的代理功能,这使得它在处理数据库…...

【文心索引】搜索引擎测试报告

目录 一、项目背景 1、互联网信息爆炸的时代背景 2、搜索引擎的应运而生 3、搜索引擎的市场需求和竞争态势 4、搜索引擎项目的意义 二、项目功能 1、基础搜索功能 2、用户交互与体验功能 3、数据索引与爬取功能 三、测试报告 3.1.功能测试 3.1.1.输入测试&#xff…...

人工智能大型企业会议联动与个人事务管理一体化解决方案

为了实现大型企业会议联动、个人事务计划、会议室预定以及其他相关工作的智能化管理,可以结合物联网(IoT)、人工智能(AI)、大数据和协同办公平台等技术,构建一个高效、智能的企业管理系统。以下是实现方案和技术路径的详细说明。 1. 实现目标 会议联动: 实现跨部门、跨地…...

ReAct论文阅读笔记总结

ReAct:Synergizing Reasoning and Acting in Language Models 背景 最近的研究结果暗示了在自主系统中结合语言推理与交互决策的可能性。 一方面,经过适当Prompt的大型语言模型(LLMs)已经展示了在算术、常识和符号推理任务中通…...

XPath 定位复杂元素的最佳实践

XPath 定位复杂元素的最佳实践 一、定位下拉列表 1. 场景描述 下拉列表是网页中常见的交互元素&#xff0c;通常由一个触发按钮和一个选项列表组成。使用 XPath 定位下拉列表及其选项时&#xff0c;需要考虑元素的结构和交互逻辑。 2. HTML 示例 <!DOCTYPE html> &l…...

3.6【A】cxl.cache,mem(1,1)

协议依赖图用于定义不同协议通道之间的依赖关系和阻塞条件&#xff0c;目标是确保系统在无循环依赖&#xff08;Acyclic Dependencies&#xff09;的前提下实现死锁自由&#xff08;Deadlock-Free&#xff09;​。 ​依赖关系&#xff1a;某个协议通道的操作需等待另一个通道的…...

Linux驱动开发(1.基础创建)

序言&#xff1a;从高层逻辑到底层硬件的回归 在当今的软件开发中&#xff0c;我们习惯于用高级语言构建抽象层——通过框架、库和云服务快速实现功能。这种“软逻辑”的便利性让开发效率倍增&#xff0c;却也逐渐模糊了我们对计算机本质的认知&#xff1a;一切代码终将落地为…...

InternalError: too much recursion

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 &#x1f35a; 蓝桥云课签约作者、…...

在WSL2-Ubuntu中安装CUDA12.8、cuDNN、Anaconda、Pytorch并验证安装

#记录工作 提示&#xff1a;整个过程最好先开启系统代理&#xff0c;也可以用镜像源&#xff0c;确保有官方发布的最新特性和官方库的完整和兼容性支持。 期间下载会特别慢&#xff0c;需要在系统上先开启代理&#xff0c;然后WSL设置里打开网络模式“Mirrored”,以设置WSL自动…...

LLM论文笔记 19: On Limitations of the Transformer Architecture

Arxiv日期&#xff1a;2024.2.26机构&#xff1a;Columbia University / Google 关键词 Transformer架构幻觉问题数学谜题 核心结论 1. Transformer 无法可靠地计算函数组合问题 2. Transformer 的计算能力受限于信息瓶颈 3. CoT 可以减少 Transformer 计算错误的概率&#x…...

基于51单片机的智能水箱控制系统proteus仿真

地址&#xff1a;https://pan.baidu.com/s/1zgG90VB5TEA05O2ZkKC3CA 提取码&#xff1a;1234 仿真图&#xff1a; 芯片/模块的特点&#xff1a; AT89C52/AT89C51简介&#xff1a; AT89C52/AT89C51是一款经典的8位单片机&#xff0c;是意法半导体&#xff08;STMicroelectroni…...

Process-based Self-Rewarding Language Models 论文简介

基于过程的自奖励语言模型&#xff1a;LLM优化的新范式 引言 大型语言模型&#xff08;LLM&#xff09;在多种任务中展现出了强大的能力&#xff0c;尤其是在使用人工标注的偏好数据进行训练时。然而&#xff0c;传统的自奖励范式在数学推理任务中存在局限性&#xff0c;甚至…...

虚拟系统实验

实验拓扑 启动虚拟系统 [FW]vsys enable 配置资源类 先查看 配置 创建虚拟系统 [USG6000V1]vsys name vsysa 绑定资源类 [USG6000V1-vsys-vsysa]assign resource-class r1 将接口划入虚拟系统 [USG6000V1-vsys-vsysa]assign interface GigabitEthernet 1/0/1 公共接口 --- 勾…...

mybatis报错org/apache/commons/lang3/tuple/Pair] with root cause

mybatis一对多查询配置resultMap映射报错org/apache/commons/lang3/tuple/Pair] with root cause 原因是mybatis依赖common-lang3这个包, 只需要添加common-lang3的依赖坐标即可: <dependency><groupId>org.apache.commons</groupId><artifactId>comm…...

V90伺服电机初调试

分配设备IP地址 打开博途&#xff0c;将IP地址分配给对应伺服 打开V-ASSISTANT软件&#xff0c;刷新后读取硬件。VASSISTANT软件选择指定伺服&#xff0c;点击设备调试&#xff0c; 在控制模式选项中选择基本定位器控制&#xff08;EPOS&#xff09; 在设置PROFINET-选择报文页…...

Air780EPM:SIM 卡接口设计指导来啦~

在数字化浪潮中&#xff0c;SIM卡作为通信设备的“身份证”&#xff0c;早已成为人们生活中不可或缺的存在。 以下详细阐述了SIM卡接口如何通过读取卡片信息完成4G网络鉴权&#xff0c;并支持双卡切换功能&#xff0c;使设备能够灵活选择最优网络。这种看似简单的机制&#xf…...

DNS云解析有什么独特之处?

在数字化浪潮中&#xff0c;每一次网页点击、视频加载或在线交易背后&#xff0c;都依赖着域名系统&#xff08;DNS&#xff09;的高效运转。传统DNS架构的局限性&#xff08;如单点故障、延迟高、安全脆弱&#xff09;在云计算时代被彻底颠覆&#xff0c;DNS云解析作为新一代解…...

VMware Workstation安装rocky9.5虚拟机

1、在镜像源网站中下载rocky镜像源&#xff0c;下载dvd版&#xff08;图像&#xff0c;软件全部都有&#xff0c;其他版本还需下载图像&#xff09;&#xff0c;这里我使用的镜像源网站是ubuntu-releases安装包下载_开源镜像站-阿里云 2、找到isos&#xff1a; 3、找x86_64/ 4、…...

stack,queue与deque

一.模拟实现stack和queue STL中的stac和queuek是通过容器适配器来实现的&#xff0c;并不是直接实现栈。那什么是容器适配器呢&#xff1f; 举一个简单的例子&#xff0c;不同的插座需要不同的插头来连接&#xff0c;这时候我们用一个插座适配器&#xff0c;我们就不需要关心…...

Git清理本地残留的、但已经在服务器上被删除的分支

要筛选出已经被服务器删除的本地分支&#xff0c;并在本地删除这些分支&#xff0c;可以按照以下步骤进行操作&#xff1a; 步骤 1: 获取远程分支信息&#xff0c;确保本地的远程分支信息是最新的&#xff1a; git fetch -p步骤 2: 列出本地分支和远程分支&#xff1a; git …...

概念|RabbitMQ 消息生命周期 待消费的消息和待应答的消息有什么区别

目录 消息生命周期 一、消息创建与发布阶段 二、消息路由与存储阶段 三、消息存活与过期阶段 四、消息投递与消费阶段 五、消息生命周期终止 关键配置建议 待消费的消息和待应答的消息 一、待消费的消息&#xff08;Unconsumed Messages&#xff09; 二、待应答的消息…...