当前位置: 首页 > news >正文

【深度学习:视频注释】如何为机器学习自动执行视频注释

在这里插入图片描述

【深度学习:视频注释】如何为机器学习自动执行视频注释

    • #1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性
    • #2:使用插值来填补空白
    • #3: 使用微模型加速人工智能辅助视频注释
    • #4: 自动目标分割提高目标分割质量

自动视频标记通过加快手动视频标记的速度和质量,并最终接管大部分视频注释工作,为公司节省了大量时间和金钱。

一旦你开始使用机器学习和基于人工智能的算法进行视频注释–使用大量的标记视频–并确保这些视频被准确标记,这对项目的成功至关重要。在视频注释过程中手动生成标签非常费力、耗时、花费大量资金,并且需要整个团队。

企业和组织经常将这项工作外包以节省成本。然而,这很少能使任务更快,并且经常会导致质量问题。自动视频注释可以解决其中的大部分问题,减少手动输入,节省时间和金钱,并确保您可以在保持质量一致的同时对更大的数据集进行注释和标记。

在这篇文章中,我们将探讨四种自动化视频注释的方法,同时确保标签的质量和一致性

#1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性

自动跟踪对象是一项强大的自动视频注释功能。标记对象后,您需要确保从一帧到下一帧正确且一致地跟踪它,尤其是当它移动并改变方向或速度时。或者,如果背景和光线水平发生变化,例如从白天到黑夜的转变。

不仅如此,如果您标记了多个对象,您还需要一个基于 AI 的视频注释工具,能够跟踪其中的每一个对象。最强大的自动视频标记工具可跟踪注释中的像素从一帧到下一帧。即使您使用自动注释跟踪多个对象,这应该也不是问题。

在通过机器学习自动化工具处理视频时,多对象跟踪特别有用,在分析无人机镜头、监控视频以及医疗保健和制造业领域时,多目标跟踪是一种资产。医疗保健公司通常需要对手术或胃肠病学视频进行注释和分析,而制造商则需要更清晰、带注释的装配线视频。

在这里插入图片描述

在 Encord 中自动跟踪视频注释

#2:使用插值来填补空白

在自动视频注释或标记中,插值是在两个关键帧之间传播标签的行为。假设一个注释团队已经在视频的开头和结尾使用边界框或多边形手动标记了数百个关键帧中的对象。插值可加快注释过程,在未注释的帧中填充细节。

但是,您必须谨慎使用插值,至少在开始视频注释项目时是这样。速度和质量之间总是需要权衡取舍。当然,这取决于所应用标签的质量和模型训练阶段使用的标记剂的复杂性。

例如,应用于从一个帧移动到下一个帧的复杂多面对象的多边形可能不如一个周围有一个移动缓慢的边界框的简单对象那么容易插值。正如注释者所知,这完全取决于视频中从一帧到下一帧的变化程度。

当在视频中的对象上绘制多边形时,由专有算法支持,该算法在没有表示模型的情况下运行,它可以收紧多边形的周长,插值并跟踪移动对象(例如,人)中的各个部分(在本例中为衣服)。

在这里插入图片描述

插值以支持 Encord 中的视频注释

#3: 使用微模型加速人工智能辅助视频注释

在大多数情况下,机器学习 (ML) 模型和基于 AI 的算法需要大量数据才能产生有意义的结果。不仅如此,输入的数据也应该干净且一致。否则,整个项目可能会花费比预期更长的时间,或者不得不重新开始。

自动视频标记和注释很复杂。这种方法也称为模型辅助标记 (MAL) 或 AI 辅助标记 (AAL)。这种类型的标记比注释静态图像或将 ML 应用于庞大的 Excel 电子表格和其他数据源要复杂得多。

相反,微模型是功能强大、范围严格的方法,可以过度拟合数据模型来引导您的视频注释任务。使用微模型训练机器学习算法是一个迭代过程,需要在开始时进行手动注释和标记。但是,您不需要像使用其他视频注释平台那样多的手动工作或花费大量时间来训练模型。

在某些情况下,您可以在最少的五个标记帧上训练微模型。正如我们在另一篇文章中概述的那样,“微模型是特定于注释的模型,它们针对特定任务或特定数据进行了过度训练。

微模型最好应用于狭窄的领域,例如,在整个长视频中自动注释特定对象,并且所需的训练数据很少。训练一个微模型可能需要几分钟,而整个开发周期只需几分钟或几小时。微模型为医疗保健、制造或研究领域的组织节省了大量时间和金钱,尤其是在注释复杂的移动对象时。

#4: 自动目标分割提高目标分割质量

自动分割是在对象周围绘制轮廓,然后使用算法自动“捕捉”到对象的轮廓,使轮廓更紧密,更准确地与从一帧到下一帧跟踪的对象和标签对齐。

注释者可以使用多边形来执行此操作。例如,您可能需要在监控视频中对一个人所穿的衣服进行分割,以便您可以看到嫌疑人何时脱下一件衣服穿上其他衣服。

使用正确的视频注释工具,自动对象分割几乎适用于数十个扇区的任何用例。它适用于任意形状,插值可以跟踪数千帧中的对象段。在大多数情况下,结果是在整个视频注释项目中节省了大量的时间和成本,从而实现更快、更高质量的分割。

在这里插入图片描述

Encord 中的自动对象分割

自动视频注释的强大功能

根据我们的经验,在极少数情况下,自动视频注释在视频注释项目中不能发挥有用的作用。自动化使注释者能够更快、更有效地工作,并提供更高质量的项目输出。

相关文章:

【深度学习:视频注释】如何为机器学习自动执行视频注释

【深度学习:视频注释】如何为机器学习自动执行视频注释 #1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性#2:使用插值来填补空白#3: 使用微模型加速人工智能辅助视频注释#4: 自动目标分割提高目标分割质量 自动视频标记通…...

网络编程、UDP、TCP

计算机网络 就是将地理位置不同的具有独立功能的多台计算及外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件以及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统 目的 传播交流信息、数据交换、通信 如何做…...

Maya笔记 设置工作目录

Maya会把素材场景等自动保存在工作目录里,我们可以自己定义工作目录 步骤1 创建workspace.mel文件 文件/设置项目 ——>选择一个文件夹,点击设置——>创建默认工作区 这一个后,可以在文件夹里看到.mel文件 步骤2 自动创建文件夹…...

MySQL:连接查询

连接查询是将两个或两个以上的表按照某个条件连接起来,从中选取需要的数据; 查询t_book表数据 查询t_bookType表数据 1、内连接查询 內连接查询是一种最常用的连接查询。内连接查询可以查询两个或者两个以上的表; SELECT * FROM t_book,t_bo…...

歌尔气压计SPA06-003在无人机和手表上的创新应用

随着科技的不断进步,各类智能设备的功能日益强大,其中气压计作为一种能够测量大气压力的传感器,已被广泛应用于多种领域。歌尔气压计以其高精度、低功耗的特点,在无人机和智能手表上的应用尤为突出,为这两个领域的产品…...

从0到1实现五子棋游戏!!

Hello,好久不见宝子们,今天来给大家更一个五子棋的程序~ 我们今天要讲的内容如下: 文章目录 1.五子棋游戏介绍1.1 游戏玩法介绍: 2.准备工作2.1 具体操作流程 3.游戏程序主函数4.初始化棋盘4.1.定义宏变量4.2 初始化棋盘 5.打印…...

二叉树(C/C++)

本篇将较为详细的介绍二叉树的相关知识,以及二叉树的实现。对于二叉树的相关知识,本篇介绍了其概念、特殊的二叉树、性质还有存储结构。 接着对于实现二叉树的每个函数都有其思路讲解,主要的函数分为:遍历:前中后序遍历…...

Django学习笔记-ModelForm使用(完全依赖)

1.创建模型 ,code,name,sex,entrydate 2.模型映射 python manage.py makemigrations myapp01,python manage.py migrate 3.创建模型表单,继承forms.ModelForm,Meta:元数据,models需引入,fields填写引用的模型变量 4.创建testModelForm.html,添加urls 5.views编写testmodelfo…...

动态规划之使用最小花费爬楼梯【LeetCode】

动态规划之使用最小花费爬楼梯 LCR 088. 使用最小花费爬楼梯解法1解法2 LCR 088. 使用最小花费爬楼梯 LCR 088. 使用最小花费爬楼梯 解法1 状态表示(这是最重要的):dp[i]表示以第i级台阶为楼层顶部,到达第i层台阶的最低花费。 状…...

双指针---解决实际问题

...

每天一个数据分析题(一百七十八)

在大样本(样本量为n)下进行某一列数据(A列)均值的区间估计时,假设点估计的值计算为a,显著性水平为0.05,z0.025为给定的显著性水平下的正态分布的临界值,则使用EXCEL的计算方法正确的…...

Ethernet/IP转Modbus TCP网关

产品功能 1 YC-EIP-TCP工业级EtherNet/IP 网关 2 Modbus TCP 转 EtherNet/IP 3支持ModBus主从站 4 即插即用 无需编程 轻松组态 ,即实现数据交互 5导轨安装 支持提供EDS文件 6 EtherNET/IP与ModBus互转数据透明传输可接入PLC组态 支持CodeSys/支持欧姆龙PLC 支持罗克韦尔(AB) 典…...

const详解

文章目录 简介什么是const呢?const 的使用1.用来定义常量2.和指针相关的const3.函数与const4.类中使用const(重点) c中去掉const属性验证不同对象的调用const修饰类内成员 c中的const 和 c中的const 的区别c中的const为什么c中的const常量又不能通过指针修改呢 const 和 #defi…...

多方面浅谈互联网技术

目录 方向一:物联网技术概述 方向二:物联网技术的应用 方向三:物联网发展所需技术和创新挑战 物联网技术(Internet of Things,IoT)是一种将各种智能设备、传感器、电子产品等连接起来,通过互…...

Oracle EBS GL 外币折算逻辑

背景 由于公司财务在10月份期间某汇率维护错误,导致帐套折算以后并合传送至合并帐套生成合并日记帐凭证的借贷金额特别大,但是财务核对的科目余额有没有问题,始终觉得合并日记帐生成会计分发有问题,需要我们给出外币折算逻辑。 基础设置 汇率 Path: GL->设置->币种-&…...

Java面试题之mysql

Mysql 1. MySQL的索引原理是什么?什么是索引?以及索引的优缺点?2. 解释一下B树和B树的区别及各自定义?3. MyISAM索引和Innodb索引的区别?4. 什么是聚簇索引?辅助索引?5.非聚簇索引一定会回表查询么?6. 什…...

抖音直播封禁申诉话术怎么讲?抖音直播封号怎么申请解封?

一.抖音直播封禁申诉话术怎么讲? 1. 了解封禁原因:首先,您需要清楚自己为何被封禁。抖音通常会在封禁时给出原因,如违规内容、恶意行为等。了解原因有助于您针对性地构建申诉话术。 2. 表达诚挚歉意:在申诉话术中,首…...

使用Jenkins部署前端Vue项目和后端Java服务

Jenkins安装相关插件,供后续使用(Dashboard - Manage Jenkins - Plugins) Maven Integration plugin https://plugins.jenkins.io/maven-plugin CloudBees Docker Build and Publish pluginhttps://plugins.jenkins.io/docker-build-publish…...

刷题——显示屏

目录 题目描述 输入格式 输出格式 输入输出样例 说明/提示 解 题目描述 液晶屏上,每个阿拉伯数字都是可以显示成 35 的点阵的(其中 X 表示亮点,. 表示暗点)。现在给出数字位数(不超过 100100)和一串数…...

WEB服务器-Tomcat(黑马学习笔记)

简介 服务器概述 服务器硬件 ● 指的也是计算机,只不过服务器要比我们日常使用的计算机大很多。 服务器,也称伺服器。是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障…...

ESP32读取DHT11温湿度数据

芯片:ESP32 环境:Arduino 一、安装DHT11传感器库 红框的库,别安装错了 二、代码 注意,DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

postgresql|数据库|只读用户的创建和删除(备忘)

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

LLM基础1_语言模型如何处理文本

基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...

【Java_EE】Spring MVC

目录 Spring Web MVC ​编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 ​编辑参数重命名 RequestParam ​编辑​编辑传递集合 RequestParam 传递JSON数据 ​编辑RequestBody ​…...

AI,如何重构理解、匹配与决策?

AI 时代,我们如何理解消费? 作者|王彬 封面|Unplash 人们通过信息理解世界。 曾几何时,PC 与移动互联网重塑了人们的购物路径:信息变得唾手可得,商品决策变得高度依赖内容。 但 AI 时代的来…...

Spring是如何解决Bean的循环依赖:三级缓存机制

1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...

论文笔记——相干体技术在裂缝预测中的应用研究

目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术:基于互相关的相干体技术(Correlation)第二代相干体技术:基于相似的相干体技术(Semblance)基于多道相似的相干体…...

scikit-learn机器学习

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys sys.path.append(/home/aistudio/external-libraries)机…...

【网络安全】开源系统getshell漏洞挖掘

审计过程: 在入口文件admin/index.php中: 用户可以通过m,c,a等参数控制加载的文件和方法,在app/system/entrance.php中存在重点代码: 当M_TYPE system并且M_MODULE include时,会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

实战三:开发网页端界面完成黑白视频转为彩色视频

​一、需求描述 设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。 效果图 ​二、实现思路 总体思路: 用户通过Gradio界面上…...