计算机视觉核心任务
1. 计算机视频重要分类
计算机视觉的重要任务可以大致分为以下几类:
1. 图像分类(Image Classification)
识别图像属于哪个类别,例如猫、狗、汽车等。
- 应用场景:物品识别、人脸识别、医疗影像分类。
- 代表模型:ResNet、EfficientNet、ViT(Vision Transformer)。
2. 目标检测(Object Detection)
识别图像中目标的位置(边界框)及类别。
- 应用场景:自动驾驶、安防监控、人流统计。
- 代表模型:Faster R-CNN、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)。
3. 语义分割(Semantic Segmentation)
对图像中的每个像素进行分类,区分不同物体类别。
- 应用场景:医学影像分析(病灶检测)、自动驾驶(车道识别)。
- 代表模型:U-Net、DeepLabV3+、SegFormer。
4. 实例分割(Instance Segmentation)
类似语义分割,但能够区分同类别不同实例的像素区域。
- 应用场景:自动驾驶(车辆、人等实例级分割)、工业检测。
- 代表模型:Mask R-CNN、YOLACT、CondInst。
5. 姿态估计(Pose Estimation)
检测人体、动物或物体的关键点(关节点、骨架等)。
- 应用场景:行为分析、运动捕捉、AR(增强现实)。
- 代表模型:OpenPose、HRNet、DETR。
6. 目标跟踪(Object Tracking)
在视频序列中跟踪目标的轨迹。
- 应用场景:无人机跟踪、视频监控、运动分析。
- 代表模型:SiamRPN、SORT、DeepSORT。
7. 光流估计(Optical Flow Estimation)
计算图像像素点的运动矢量场,用于运动分析。
- 应用场景:视频稳定、动作检测、自动驾驶。
- 代表模型:RAFT、PWC-Net、FlowNet2.0。
8. 三维重建(3D Reconstruction)
从 2D 图像或点云恢复 3D 结构。
- 应用场景:SLAM(同时定位与建图)、AR/VR、医学成像。
- 代表模型:Colmap、NeRF(神经辐射场)、MonoDepth。
9. 超分辨率(Super Resolution)
提升图像分辨率,使低质量图像变得清晰。
- 应用场景:医学影像增强、老照片修复、视频增强。
- 代表模型:ESRGAN、SRGAN、SwinIR。
10. 图像去噪(Image Denoising)
去除图像中的噪声,提高清晰度。
- 应用场景:遥感影像处理、夜间摄影增强。
- 代表模型:DnCNN、BM3D、Noise2Noise。
11. 生成对抗网络(GANs)
生成高质量的图像、风格迁移等。
- 应用场景:AI 绘画、图像风格化、深度伪造(Deepfake)。
- 代表模型:StyleGAN、CycleGAN、BigGAN。
12. 图像/视频理解(Image/Video Understanding)
对图像或视频的内容进行高层次分析。
- 应用场景:智能监控、自动驾驶、视频摘要。
- 代表模型:CLIP、SlowFast、TimeSformer。
2. 图像分类 vs. 目标检测
| 对比维度 | 图像分类(Image Classification) | 目标检测(Object Detection) |
|---|---|---|
| 任务定义 | 识别整幅图像的类别 | 识别图像中所有目标的位置和类别 |
| 输出结果 | 单个类别标签 | 多个类别标签 + 目标的边界框(Bounding Box) |
| 输入数据 | 单张图像 | 单张图像(含多个目标) |
| 难度 | 相对较低 | 较高,需要额外的目标定位 |
| 计算复杂度 | 低 | 高(涉及回归和分类任务) |
| 核心技术 | 卷积神经网络(CNN)、ViT | CNN + 回归网络(YOLO、Faster R-CNN 等) |
| 核心特点 |
|
|
| 主要方法 |
|
|
| 应用场景 | 图像检索、人脸识别、医学影像分类 | 自动驾驶、人群统计、工业检测 |
3.目标检测与图像分割、语义分割、实例分割
| 对比维度 | 目标检测(Object Detection) | 语义分割(Semantic Segmentation) | 实例分割(Instance Segmentation) |
| 任务定义 | 识别目标并画出边界框(Bounding Box) | 识别每个像素的类别 | 识别每个像素的类别,并区分同类别的不同实例 |
| 输出结果 | 目标类别 + 目标位置(矩形框) | 每个像素的类别掩码(Mask) | 每个像素的类别掩码 + 不同实例的分割 |
| 关注点 | 物体的整体位置 | 物体的精确边界 | 物体的精确边界 + 实例区分 |
| 计算复杂度 | 中 | 高 | 更高 |
| 模型架构 | YOLO、Faster R-CNN、SSD | FCN、DeepLabV3+、U-Net | Mask R-CNN、YOLACT、CondInst |
| 适用场景 | 自动驾驶、监控、人脸检测 | 医学影像、卫星遥感、环境分析 | 自动驾驶、实例级目标识别、工业检测 |
4. 目标检测与目标跟踪
| 对比维度 | 目标检测(Object Detection) | 目标跟踪(Object Tracking) |
|---|---|---|
| 任务定义 | 在图像中识别目标并定位(Bounding Box) | 在视频中跟踪同一目标的运动轨迹 |
| 输入数据 | 单张图像或视频帧 | 连续的视频帧 |
| 输出结果 | 目标类别 + 目标边界框 | 目标 ID + 目标边界框(跨帧一致) |
| 核心技术 | CNN、区域提议(RPN)、Anchor | 目标检测 + 相关性计算(如光流、匹配) |
| 计算复杂度 | 较高(每帧都需重新检测) | 低(仅在关键帧检测,其他帧追踪) |
| 适用场景 | 自动驾驶、安防监控、工业检测 | 运动分析、无人机跟踪、视频监控 |
| 代表模型 | YOLO、Faster R-CNN、SSD | SORT、DeepSORT、SiamRPN、ByteTrack |
相关文章:
计算机视觉核心任务
1. 计算机视频重要分类 计算机视觉的重要任务可以大致分为以下几类: 1. 图像分类(Image Classification) 识别图像属于哪个类别,例如猫、狗、汽车等。 应用场景:物品识别、人脸识别、医疗影像分类。代表模型&#…...
【人工智能】如何在VSCode中使用DeepSeek?
文章目录 前言一、准备工作二、安装DeepSeek插件步骤1、扩展图标搜索DeepSeep2、安装DeepSeek插件3、使用测试DeepSeekBito文心一言 结论 前言 介绍在VSCode中调用DeepSeek插件工具,可以进行对话、编码。 一、准备工作 确保已经安装好了VSCode软件。 二、安装D…...
机器学习 - 进一步理解最大似然估计和高斯分布的关系
一、高斯分布得到的是一个概率吗? 高斯分布(也称为正态分布)描述的是随机变量在某范围内取值的概率分布情况。其概率密度函数(PDF)为: 其中,μ 是均值,σ 是标准差。 需要注意的是…...
Office/WPS接入DeepSeek等多个AI工具,开启办公新模式!
在现代职场中,Office办公套件已成为工作和学习的必备工具,其功能强大但复杂,熟练掌握需要系统的学习。为了简化操作,使每个人都能轻松使用各种功能,市场上涌现出各类办公插件。这些插件不仅提升了用户体验,…...
如何在Android Studio中开发一个简单的Android应用?
Android Studio是开发Android应用的官方集成开发环境(IDE),它提供了许多强大的功能,使得开发者能够高效地创建Android应用。如果你是Android开发的初学者,本文将引导你如何在Android Studio中开发一个简单的Android应用…...
第40天:Web开发-JS应用VueJS框架Vite构建启动打包渲染XSS源码泄露代码审计
#知识点 1、安全开发-VueJS-搭建启动&打包安全 2、安全开发-VueJS-源码泄漏&代码审计 一、Vue搭建创建项目启动项目 1、Vue 框架搭建->基于nodejs搭建,安装nodejs即可 参考:https://cn.vuejs.org/ 已安装18.3或更高版本的Node.js 2、Vue 创建…...
996引擎-问题处理:三职业改单职业
996引擎-问题处理:三职业改单职业 问题解决方案顺便补充点单性别设置补充:可视化配置表参考资料问题 目前的版本: 引擎版本号:2024.8.7.0 三端配套客户端:3.40.9 传统PC客户端:23.12.07 配套数据库:64_24.8.7.0此版本需要通过可视化配置表...
Lua语言的云计算
Lua语言在云计算中的应用 随着信息技术的迅猛发展,云计算已经成为现代计算的重要组成部分。云计算通过互联网将计算资源(如服务器、存储、数据库、网络等)进行动态调配和高效利用,极大地提高了资源利用率与开发效率。在众多编程语…...
[数据结构] Set的使用与注意事项
目录 Set的说明 常见方法说明 注意事项 TreeSet使用案例 Set的说明 Set与Map主要的不同有两点: Set是继承自Collection的接口类,Set中只存储了Key. 常见方法说明 方法解释boolean add(E e)添加元素,但重复元素不会被添加成功void clear()清空集合boolean contains(Object…...
安当SLA操作系统登录双因素认证:全方位保障Windows系统登录安全
一、产品概述 在当今数字化时代,Windows系统面临着诸多安全挑战,如弱口令问题等。安当SLA(System Login Agent)作为一款强大的双因素登录认证产品,通过支持OTP动态口令和USBKey硬件令牌认证,有效解决多种W…...
Java学习进阶路线
Java基础 Java Web 前端HTML/css/js,J2EE(Servlet/jsp),数据库(Mysql/oracle) Java开发框架 Spring MVC/Mybatis/Herbernate/maven 《Java编程思想》 深入了解java基础 Java设计模式 《Effective j…...
操作系统|ARM和X86的区别,存储,指令集
文章目录 主频寄存器寄存器在硬件中的体现是什么寄存器的基本特性硬件实现寄存器类型 内存和寄存器的区别内存(Memory)和磁盘(Disk)指令的执行ARM Cortex-M3与Thumb-2指令集Thumb-2 与流水线虚拟地址指令的执行 多核CPU芯片间的通…...
Mp4视频播放机无法播放视频-批量修改视频分辨率(帧宽、帧高)
背景 家人有一台夏新多功能 视频播放器(夏新多功能 视频播放器),用来播放广场舞。下载了一些广场舞视频, 只有部分视频可以播放,其他视频均无法播放,判断应该不是帧速率和数据速率的限制, 分析可能是播放器不支持帧高度大于720的视频。由于视频文件较多,需要借助视频编…...
日语学习-日语知识点小记-构建基础-JLPT-N4&N5阶段(2):どれ・どの・どんな :区别 等
日语学习-日语知识点小记-构建基础-JLPT-N4&N5阶段(2):どれ・どの・どんな :区别 等 1、前言(1)情况说明(2)工程师的信仰2、知识点(1)知识点な形容詞(けいようし) と い形容詞(けいようし):并列修饰(2)知识点どれ・どの・どんな :区别(3)知识点は &…...
【浏览器多开】Google Chrome 谷歌浏览器分身术
谷歌浏览器分身术(多开): 复制已有谷歌浏览器图标—>右键–>属性的目标栏中,添加 --user-data-dir自定义文件夹路径 参数。 例如: C:\MySpace\02Installed\Chrome\Chrome-bin\99.0.4844.51\chrome.exe –user-d…...
《LeetCode Hot100》 Day01
Day01 轮转数组 思路: (1) 使用O(1) 空间复杂度解决,就需要原地解决,不能创建新的数组。 (2) 先整体反转数组,再反转前k个数,再反转剩下的数。即可完整本题。 &…...
【图片合并转换PDF】如何将每个文件夹下的图片转化成PDF并合并成一个文件?下面基于C++的方式教你实现
医院在为患者进行诊断和治疗过程中,会产生大量的医学影像图片,如 X 光片、CT 扫描图、MRI 图像等。这些图片通常会按照检查时间或者检查项目存放在不同的文件夹中。为了方便医生查阅和患者病历的长期保存,需要将每个患者文件夹下的图片合并成…...
uniapp实现人脸识别(不使用三方插件)
uniapp实现人脸识别 内容简介功能实现上传身份证进行人脸比对 遇到的问题 内容简介 1.拍摄/相册将身份证照片上传到接口进行图片解析 2.使用live-pusher组件拍摄人脸照片,上传接口与身份证人脸进行比对 功能实现 上传身份证 先看下效果 点击按钮调用chooseImage…...
2025全新JSP简约博客平台-免费开源
前言 最近收到不少同学期末作业的需求,都还是JSP的老技术,介于现在很多网上可以找到的JSP现有项目,要么就是很老好几年前的,要么就是搞了一通不仅乱码还各自报错失败的,总之就是资源有限,于是我花了一星期…...
计算机视觉语义分割——Attention U-Net(Learning Where to Look for the Pancreas)
计算机视觉语义分割——Attention U-Net(Learning Where to Look for the Pancreas) 文章目录 计算机视觉语义分割——Attention U-Net(Learning Where to Look for the Pancreas)摘要Abstract一、Attention U-Net1. 基本思想2. Attention Gate模块3. 软注意力与硬注意力4. 实验…...
基于SpringBoot的“4S店车辆管理系统”的设计与实现(源码+数据库+文档+PPT)_2025-02-10
基于SpringBoot的“4S店车辆管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 系统登录界面图 管理员功能界…...
ESP-IDF学习记录(6)
这篇不知道起什么标题,因为已经卡滞很久了,从年前到现在,但也没停止探索 1.烧录 用的小型加热台,这步对我来说最难,自己没有焊接过QFN32的封装 总结一下目前遇到的问题: 1)5V供电选成了12V转…...
Day84:数据可视化
数据可视化是数据分析的重要组成部分,它能直观地展现数据规律,使复杂数据变得易懂。Python 提供了多个数据可视化库,其中最常用的是 Matplotlib 和 Seaborn。今天,我们将学习如何使用这些工具绘制折线图、柱状图、散点图等。 1. 安装和导入库 如果你的 Python 没有安装 Ma…...
【机器学习与数据挖掘实战】案例13:基于BP神经网络模型的家用热水器用户行为分析与事件识别
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支,专注于让计算机系统通过数据学习和改进。它利用统计和计算方法,使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数…...
数据结构 动态顺序表-vector
一、创建vector #include <vector> // 头⽂件 using namespace std; const int N 20; struct node {int a, b, c; }; // 1. 创建 void init() {vector<int> a1; // 创建⼀个空的可变⻓数组 vector<int> a2(N); // 指定好了⼀个空间,⼤⼩为 N …...
Windows 植物大战僵尸杂交版
植物大战僵尸杂交版 链接:https://pan.xunlei.com/s/VOIjttp8EzfL9fXO6S6ekvZYA1?pwdw8cm# 作者: B站UP主 潜艇伟伟迷...
【学习笔记】计算机网络(三)
第3章 数据链路层 文章目录 第3章 数据链路层3.1数据链路层的几个共同问题3.1.1 数据链路和帧3.1.2 三个基本功能3.1.3 其他功能 - 滑动窗口机制 3.2 点对点协议PPP(Point-to-Point Protocol)3.2.1 PPP 协议的特点3.2.2 PPP协议的帧格式3.2.3 PPP 协议的工作状态 3.3 使用广播信…...
SpringBoot和Spring主要区别
SpringBoot和Spring主要区别 1. 核心定位2. 配置方式3. 依赖管理4. 内嵌服务器5. 开发效率6. 监控与管理7. 适用场景8. 总结 Spring Boot 和 Spring 是 Java 生态中密切相关的两个框架,但它们的定位和使用场景有明显区别。以下是主要区别: 1. 核心定位 S…...
Blazor-<select>
今天我们来说说<select>标签的用法,我们还是从一个示例代码开始 page "/demoPage" rendermode InteractiveAuto inject ILogger<InjectPage> logger; <h3>demoPage</h3> <select multiple>foreach (var item in list){<…...
力扣-数组-20 有效的括号
思路 有效的括号符合栈的思想,先进后出 代码 class Solution { public:bool isValid(string s) {stack <char> sign;sign.push(s[0]);for(int i 1; i < s.size(); i){if(s[i] { || s[i] [ || s[i] (){sign.push(s[i]);}else if(s[i] } && …...
