【深度学习:视频注释】如何为机器学习自动执行视频注释
【深度学习:视频注释】如何为机器学习自动执行视频注释
- #1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性
- #2:使用插值来填补空白
- #3: 使用微模型加速人工智能辅助视频注释
- #4: 自动目标分割提高目标分割质量
自动视频标记通过加快手动视频标记的速度和质量,并最终接管大部分视频注释工作,为公司节省了大量时间和金钱。
一旦你开始使用机器学习和基于人工智能的算法进行视频注释–使用大量的标记视频–并确保这些视频被准确标记,这对项目的成功至关重要。在视频注释过程中手动生成标签非常费力、耗时、花费大量资金,并且需要整个团队。
企业和组织经常将这项工作外包以节省成本。然而,这很少能使任务更快,并且经常会导致质量问题。自动视频注释可以解决其中的大部分问题,减少手动输入,节省时间和金钱,并确保您可以在保持质量一致的同时对更大的数据集进行注释和标记。
在这篇文章中,我们将探讨四种自动化视频注释的方法,同时确保标签的质量和一致性
#1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性
自动跟踪对象是一项强大的自动视频注释功能。标记对象后,您需要确保从一帧到下一帧正确且一致地跟踪它,尤其是当它移动并改变方向或速度时。或者,如果背景和光线水平发生变化,例如从白天到黑夜的转变。
不仅如此,如果您标记了多个对象,您还需要一个基于 AI 的视频注释工具,能够跟踪其中的每一个对象。最强大的自动视频标记工具可跟踪注释中的像素从一帧到下一帧。即使您使用自动注释跟踪多个对象,这应该也不是问题。
在通过机器学习自动化工具处理视频时,多对象跟踪特别有用,在分析无人机镜头、监控视频以及医疗保健和制造业领域时,多目标跟踪是一种资产。医疗保健公司通常需要对手术或胃肠病学视频进行注释和分析,而制造商则需要更清晰、带注释的装配线视频。
#2:使用插值来填补空白
在自动视频注释或标记中,插值是在两个关键帧之间传播标签的行为。假设一个注释团队已经在视频的开头和结尾使用边界框或多边形手动标记了数百个关键帧中的对象。插值可加快注释过程,在未注释的帧中填充细节。
但是,您必须谨慎使用插值,至少在开始视频注释项目时是这样。速度和质量之间总是需要权衡取舍。当然,这取决于所应用标签的质量和模型训练阶段使用的标记剂的复杂性。
例如,应用于从一个帧移动到下一个帧的复杂多面对象的多边形可能不如一个周围有一个移动缓慢的边界框的简单对象那么容易插值。正如注释者所知,这完全取决于视频中从一帧到下一帧的变化程度。
当在视频中的对象上绘制多边形时,由专有算法支持,该算法在没有表示模型的情况下运行,它可以收紧多边形的周长,插值并跟踪移动对象(例如,人)中的各个部分(在本例中为衣服)。
#3: 使用微模型加速人工智能辅助视频注释
在大多数情况下,机器学习 (ML) 模型和基于 AI 的算法需要大量数据才能产生有意义的结果。不仅如此,输入的数据也应该干净且一致。否则,整个项目可能会花费比预期更长的时间,或者不得不重新开始。
自动视频标记和注释很复杂。这种方法也称为模型辅助标记 (MAL) 或 AI 辅助标记 (AAL)。这种类型的标记比注释静态图像或将 ML 应用于庞大的 Excel 电子表格和其他数据源要复杂得多。
相反,微模型是功能强大、范围严格的方法,可以过度拟合数据模型来引导您的视频注释任务。使用微模型训练机器学习算法是一个迭代过程,需要在开始时进行手动注释和标记。但是,您不需要像使用其他视频注释平台那样多的手动工作或花费大量时间来训练模型。
在某些情况下,您可以在最少的五个标记帧上训练微模型。正如我们在另一篇文章中概述的那样,“微模型是特定于注释的模型,它们针对特定任务或特定数据进行了过度训练。
微模型最好应用于狭窄的领域,例如,在整个长视频中自动注释特定对象,并且所需的训练数据很少。训练一个微模型可能需要几分钟,而整个开发周期只需几分钟或几小时。微模型为医疗保健、制造或研究领域的组织节省了大量时间和金钱,尤其是在注释复杂的移动对象时。
#4: 自动目标分割提高目标分割质量
自动分割是在对象周围绘制轮廓,然后使用算法自动“捕捉”到对象的轮廓,使轮廓更紧密,更准确地与从一帧到下一帧跟踪的对象和标签对齐。
注释者可以使用多边形来执行此操作。例如,您可能需要在监控视频中对一个人所穿的衣服进行分割,以便您可以看到嫌疑人何时脱下一件衣服穿上其他衣服。
使用正确的视频注释工具,自动对象分割几乎适用于数十个扇区的任何用例。它适用于任意形状,插值可以跟踪数千帧中的对象段。在大多数情况下,结果是在整个视频注释项目中节省了大量的时间和成本,从而实现更快、更高质量的分割。
自动视频注释的强大功能
根据我们的经验,在极少数情况下,自动视频注释在视频注释项目中不能发挥有用的作用。自动化使注释者能够更快、更有效地工作,并提供更高质量的项目输出。
相关文章:

【深度学习:视频注释】如何为机器学习自动执行视频注释
【深度学习:视频注释】如何为机器学习自动执行视频注释 #1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性#2:使用插值来填补空白#3: 使用微模型加速人工智能辅助视频注释#4: 自动目标分割提高目标分割质量 自动视频标记通…...

网络编程、UDP、TCP
计算机网络 就是将地理位置不同的具有独立功能的多台计算及外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件以及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统 目的 传播交流信息、数据交换、通信 如何做…...

Maya笔记 设置工作目录
Maya会把素材场景等自动保存在工作目录里,我们可以自己定义工作目录 步骤1 创建workspace.mel文件 文件/设置项目 ——>选择一个文件夹,点击设置——>创建默认工作区 这一个后,可以在文件夹里看到.mel文件 步骤2 自动创建文件夹…...

MySQL:连接查询
连接查询是将两个或两个以上的表按照某个条件连接起来,从中选取需要的数据; 查询t_book表数据 查询t_bookType表数据 1、内连接查询 內连接查询是一种最常用的连接查询。内连接查询可以查询两个或者两个以上的表; SELECT * FROM t_book,t_bo…...
歌尔气压计SPA06-003在无人机和手表上的创新应用
随着科技的不断进步,各类智能设备的功能日益强大,其中气压计作为一种能够测量大气压力的传感器,已被广泛应用于多种领域。歌尔气压计以其高精度、低功耗的特点,在无人机和智能手表上的应用尤为突出,为这两个领域的产品…...

从0到1实现五子棋游戏!!
Hello,好久不见宝子们,今天来给大家更一个五子棋的程序~ 我们今天要讲的内容如下: 文章目录 1.五子棋游戏介绍1.1 游戏玩法介绍: 2.准备工作2.1 具体操作流程 3.游戏程序主函数4.初始化棋盘4.1.定义宏变量4.2 初始化棋盘 5.打印…...

二叉树(C/C++)
本篇将较为详细的介绍二叉树的相关知识,以及二叉树的实现。对于二叉树的相关知识,本篇介绍了其概念、特殊的二叉树、性质还有存储结构。 接着对于实现二叉树的每个函数都有其思路讲解,主要的函数分为:遍历:前中后序遍历…...

Django学习笔记-ModelForm使用(完全依赖)
1.创建模型 ,code,name,sex,entrydate 2.模型映射 python manage.py makemigrations myapp01,python manage.py migrate 3.创建模型表单,继承forms.ModelForm,Meta:元数据,models需引入,fields填写引用的模型变量 4.创建testModelForm.html,添加urls 5.views编写testmodelfo…...

动态规划之使用最小花费爬楼梯【LeetCode】
动态规划之使用最小花费爬楼梯 LCR 088. 使用最小花费爬楼梯解法1解法2 LCR 088. 使用最小花费爬楼梯 LCR 088. 使用最小花费爬楼梯 解法1 状态表示(这是最重要的):dp[i]表示以第i级台阶为楼层顶部,到达第i层台阶的最低花费。 状…...

双指针---解决实际问题
...
每天一个数据分析题(一百七十八)
在大样本(样本量为n)下进行某一列数据(A列)均值的区间估计时,假设点估计的值计算为a,显著性水平为0.05,z0.025为给定的显著性水平下的正态分布的临界值,则使用EXCEL的计算方法正确的…...

Ethernet/IP转Modbus TCP网关
产品功能 1 YC-EIP-TCP工业级EtherNet/IP 网关 2 Modbus TCP 转 EtherNet/IP 3支持ModBus主从站 4 即插即用 无需编程 轻松组态 ,即实现数据交互 5导轨安装 支持提供EDS文件 6 EtherNET/IP与ModBus互转数据透明传输可接入PLC组态 支持CodeSys/支持欧姆龙PLC 支持罗克韦尔(AB) 典…...

const详解
文章目录 简介什么是const呢?const 的使用1.用来定义常量2.和指针相关的const3.函数与const4.类中使用const(重点) c中去掉const属性验证不同对象的调用const修饰类内成员 c中的const 和 c中的const 的区别c中的const为什么c中的const常量又不能通过指针修改呢 const 和 #defi…...
多方面浅谈互联网技术
目录 方向一:物联网技术概述 方向二:物联网技术的应用 方向三:物联网发展所需技术和创新挑战 物联网技术(Internet of Things,IoT)是一种将各种智能设备、传感器、电子产品等连接起来,通过互…...

Oracle EBS GL 外币折算逻辑
背景 由于公司财务在10月份期间某汇率维护错误,导致帐套折算以后并合传送至合并帐套生成合并日记帐凭证的借贷金额特别大,但是财务核对的科目余额有没有问题,始终觉得合并日记帐生成会计分发有问题,需要我们给出外币折算逻辑。 基础设置 汇率 Path: GL->设置->币种-&…...
Java面试题之mysql
Mysql 1. MySQL的索引原理是什么?什么是索引?以及索引的优缺点?2. 解释一下B树和B树的区别及各自定义?3. MyISAM索引和Innodb索引的区别?4. 什么是聚簇索引?辅助索引?5.非聚簇索引一定会回表查询么?6. 什…...
抖音直播封禁申诉话术怎么讲?抖音直播封号怎么申请解封?
一.抖音直播封禁申诉话术怎么讲? 1. 了解封禁原因:首先,您需要清楚自己为何被封禁。抖音通常会在封禁时给出原因,如违规内容、恶意行为等。了解原因有助于您针对性地构建申诉话术。 2. 表达诚挚歉意:在申诉话术中,首…...

使用Jenkins部署前端Vue项目和后端Java服务
Jenkins安装相关插件,供后续使用(Dashboard - Manage Jenkins - Plugins) Maven Integration plugin https://plugins.jenkins.io/maven-plugin CloudBees Docker Build and Publish pluginhttps://plugins.jenkins.io/docker-build-publish…...
刷题——显示屏
目录 题目描述 输入格式 输出格式 输入输出样例 说明/提示 解 题目描述 液晶屏上,每个阿拉伯数字都是可以显示成 35 的点阵的(其中 X 表示亮点,. 表示暗点)。现在给出数字位数(不超过 100100)和一串数…...

WEB服务器-Tomcat(黑马学习笔记)
简介 服务器概述 服务器硬件 ● 指的也是计算机,只不过服务器要比我们日常使用的计算机大很多。 服务器,也称伺服器。是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障…...
CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型
CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者:Yanyuan Chen, Dexuan Xu, Yu Hu…...

简易版抽奖活动的设计技术方案
1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...
重启Eureka集群中的节点,对已经注册的服务有什么影响
先看答案,如果正确地操作,重启Eureka集群中的节点,对已经注册的服务影响非常小,甚至可以做到无感知。 但如果操作不当,可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配
目录 一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分 二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例 三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载 四、智能指针…...

Qemu arm操作系统开发环境
使用qemu虚拟arm硬件比较合适。 步骤如下: 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载,下载地址:https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

Python 实现 Web 静态服务器(HTTP 协议)
目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1)下载安装包2)配置环境变量3)安装镜像4)node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1)使用 http-server2)详解 …...
深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识蒸馏
一、引言 在深度学习中,我们训练出的神经网络往往非常庞大(比如像 ResNet、YOLOv8、Vision Transformer),虽然精度很高,但“太重”了,运行起来很慢,占用内存大,不适合部署到手机、摄…...

tauri项目,如何在rust端读取电脑环境变量
如果想在前端通过调用来获取环境变量的值,可以通过标准的依赖: std::env::var(name).ok() 想在前端通过调用来获取,可以写一个command函数: #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...

消防一体化安全管控平台:构建消防“一张图”和APP统一管理
在城市的某个角落,一场突如其来的火灾打破了平静。熊熊烈火迅速蔓延,滚滚浓烟弥漫开来,周围群众的生命财产安全受到严重威胁。就在这千钧一发之际,消防救援队伍迅速行动,而豪越科技消防一体化安全管控平台构建的消防“…...
《Offer来了:Java面试核心知识点精讲》大纲
文章目录 一、《Offer来了:Java面试核心知识点精讲》的典型大纲框架Java基础并发编程JVM原理数据库与缓存分布式架构系统设计二、《Offer来了:Java面试核心知识点精讲(原理篇)》技术文章大纲核心主题:Java基础原理与面试高频考点Java虚拟机(JVM)原理Java并发编程原理Jav…...