当前位置: 首页 > news >正文

《面向机器学习的数据标注规程》摘录

说明:本文使用的标准是2019年的团体标准,最新的国家标准已在2023年发布。

3 术语和定义

3.2 标签 label

标识数据的特征、类别和属性等。

3.4 数据标注员 data labeler

对待标注数据进行整理、纠错标记批注等操作的工作人员。

【批注】按照定义,数据标注员包括标注员、审核员。

3.7 标注说明规则 annotation instruction

数据需求方用于明确标注任务和标注数据的书面陈述,包含执行标注任务所需的标注工具、任务描述、标注方法、正确示例、常见错误等内容。

【批注】在书面陈述中,任务描述可录入系统,正确示例、常见错误以文件方式提供。

3.8 标注方法 annotation method

定义数据标注员进行数据标注时的环境和规程,包含标注对象定义、所用标注工具和标注平台、标注格式、标注前的准备工作、标注后的处理工作等。

4 数据标注规程框架

在这里插入图片描述

数据标注规程框架见上图,包括:

a) 标注任务前期准备:
1)定义所需数据;
2)制定标注说明规则;
3)确定标注人力的供给方式;

b) 标注任务中:
1)标注任务的创建;
2)标注任务的分发;
3)标注任务的开展;
4)标注任务的回收;

c) 标注结果输出:
1)标注结果的质量检查和控制;
2)标注结果的输出格式;
3)标注数据的交付和验收。

5 数据标注规程

5.1 定义所需标注数据和预估数据量

数据标注前应完成以下五项准备工作:

a) 分析数据。明确机器学习和模型训练过程中所需的标注数据类型、量级、用途及应用场景等。

b) 整理数据。明确数据与标签文件存放的目录结构,在任务分配与回收时,应按指定的目录进行数据组织;

c) 明确命名规则。应明确数据与标签文件的命名方式,命名规则应避免数据更新迭代时的重名,便于数据追踪、标注追踪,且数据文件名与标签文件名应保持一致;

e) 标注数据定义与需求量。明确标注数据的定义并确定最终的需求量。

5.2 标注说明规则

5.2.1 标注说明规则职责分工

数据需求方应负责确保数据标注的规则符合该领域的业务和专业常识,并根据标注规则,检查所标注的数据是否满足数据需求方。

示例1:数据需求方即业务数据需求方,指需要利用人工智能技术解决实际业务问题的业务团队。

数据使用方应从机器学习算法角度,确保标注规则可满足机器学习模型的训练要求,并根据该标注规则,检查标注的数据支撑机器学习模型达到数据需求方期望的精度。

示例2:数据使用方指需要使用标注数据训练人工智能模型的研发团队。

数据需求方、数据使用方及数据标注团队应共同参与标注说明规则的制定、调整、迭代、执行的各个环节。数据标注团队应从实际标注角度出发,确保标注规则清晰、明确。

5.2.2 标注说明规则定义

标注说明规则应明确项目背景、意义及数据应用场景,包含项目标注工具、任务描述、标注方法、正确示例、常见错误等内容。
标注说明规则应有可变更性,该变更应由相关方评审同意后,再更新规则文档,且相关方应沿用制定规则时的基本原则及方法。

【批注】项目背景、意义及数据应用场景可录入系统,并提供修改功能。

5.2.3 标注说明规则内容

标注说明规则包括但不限于:
a) 项目背景:概述项目背景或数据标注需求产生的场景;
b) 版本信息:标注该说明的当前版本编号、发布日期、发布人、发布说明(发布原因或迭代原因)及历史迭代信息(历代版本编号、发布日期、发布人、发布说明等);
c) 任务描述:概述标注项目主要任务,包括标注项目关键信息、数据形式、标注平台、主要标注方法、期望交付时间、正确率要求等;
e) 标注方法:阐明数据需求方所需数据对象的标签定义,明确在协定标注平台上使用的标注组件、标签类型及全部操作。标注方法的衡量标准是以标注人员掌握标注方法后,能否立刻正确操作一次标注;
f) 正确示例:通过图片、图文、视频等的形式,示范正确的标注方法或成果,数据需求方应明确数据产出,标注方应明确标注认识,标注样例应覆盖特殊样本的标注示例;
g) 注意事项:标注方的错误预警具有警示作用,规则制定者在注意事项中应列出标注方应避免的错误、标注方法中应注意的细节及额外处理方式等;
h) 质量要求:数据标注规则应对项目的预期质量有合理的定量预估。质量审核应遵循质量要求。

【批注】以上对规则内容的说明可作为数据库字段的注释,系统提供标注说明规则的版本发布功能,任务描述中的期望交付时间、正确率要求可录入系统。系统提供标签定义功能。注意事项、质量要求可录入系统。

5.2.4 执行方法及注意事项

标注方按照给定规则标注时,发现存疑数据应及时记录。数据需求方应明确此类数据的记录规则、保存路径及后续处理方法等。采用多人标注或定期集中反馈等方法处理问题数据。
标注说明规则的细则应有可调整性

【参考】
存疑数据记录规则:difficult=1
存疑数据后续处理方法:系统提供存疑数据统计、存疑数据重新分配的功能。

5.2.5 标注说明中术语体系规范化

术语体系的规范化至少应满足:
a) 遵从国家法规和行业规范
b) 建立统一的标注术语字典,确保数据标注人员对术语和定义理解的一致性;

【参考】系统提供术语体系管理功能。

5.3 标注人力供给方式

标注人力模式可包括:内部自营标注、第三方标注、众包标注等。

5.4 标注工具和标注平台选择

标注工具应满足以下条件:
a) 易操作性: 标注工具应降低标注人员的操作难度, 提供交互方式的自有标注;
b) 规范性:标注工具的数据导出格式,应满足或可转换到格式要求
c) 高效性: 标注工具应保证标注任务的完成效率
标注平台包含标注工具全部功能、团队管理、任务分发、质量审核等环节的模块,且将所有标注环节工具化。 标注平台需保证保密数据的安全性
数据量相对较小、数据类型相对单一、标注周期较短时,宜选择标注工具进行标注。

5.5 标注任务创建、分发、开展和回收

5.5.1 标注任务创建

创建标注任务前,将待标注数据上传。上传的导入方式有两种:本地上传(适用于数据在本地设备上);云端上传。
标注数据上传成功后,当仅靠标注工具完成标注时,在创建任务的过程中,任务责任人要事先明确标注任务的目的以及标注规范等。
创建任务包括:
a) 明确任务基本信息:包含任务目的、任务需求(任务优先级,标注人员的能力要求级别等)、任务描述等;
b) 任务配置:根据不同的任务需求,添加与标注任务相关的标注标签;

【批注】任务目的、标注规范、任务优先级、标注人员的能力要求级别、任务描述、任务允许的标签可录入系统。

5.5.2 标注任务分发

根据任务发布者确定的参数及需求,将标注任务分发给标注人员。
标注任务发布者在发布数据时,应明确与标注任务相关的参数:
a) 参与标注人数;
c) 数据标注员每人每天工作量;
e) 任务结束时间点。
标注任务的分发对象包含标注人员和审核人员。标注任务分发给标注人员时,也应将任务分发给审核人。在标注过程中,同时进行标注审核工作。
分发时,按照任务具体信息和标注需求,分配给相应的数据标注员,实现数据标注任务的优化调度,提高数据标注的效率和质量。
注:不同标注人力的供给方式也会影响标注任务的分发形式。

【批注】参与标注人数、每人每天工作量、任务结束时间点可录入系统。

5.5.3 标注任务开展

标注任务中数据标注方法分为两种:全人工标注;半自动标注。
全人工标注方式主要依靠人力进行标注,其标注的数据较精准,当标注数据量较大时,会耗费较多人力。

5.5.4 标注任务回收

在项目协定的任务将要完成时,项目负责人需回收标注作业,且需保证已分配的任务能被完整交付。自营标注团队可直接向标注人员或标注小组负责人收取。回收环节中需注意个别情况和变化的出现,如果标注人员未能按时交付,则需由候补成员继续完成剩余任务,以保证标注任务进度。

【批注】系统提供任务分配的修改功能。

5.6 标注结果质量检查和控制

5.6.1 质量检查

质量检查能够确保数据标注结果有价值,符合数据需求方的特定应用目的。根据项目特性,质量检查方法可以归纳为以下几种,标注项目负责人需要根据场景需求及项目特点进行选择:
a) 逐条检查:即对整个标注项目所包含的所有标注子任务逐一核查并确认。适用于项目量级不大、人力资源充沛、时间节点不紧张、对标注数据结果的准确率要求极高的标注项目。这种方法覆盖的质量检查范围最全,同时也适用于任何形式的数据标注场景。该方法可确保标注数据输出的最高质量,尤其对于数据格式主观成分较多、应用场景较复杂的任务更有效;
b) 按比例抽查:即从全部标注数据中科学地抽取样本,对样本中的数据逐条检查,以此评判全部标注数据的质量。样本量的选择需符合统计学基本原理,足以代表全部标注数据。抽查审核时,项目负责人可指派较有经验的审核员完成,从而确保交付质量;
c) 抽样检验又可分为以下三种:
1 ) 简单抽样:以等概率抽取 n 件待检测样本的方法。
2 ) 系统抽样:每隔一定时间或一定编号进行检测,而每一次又是从一定时间间隔内生产出的产品或一段编号产品中随机抽取一个或几个样本的方法;
在质量检查过程中,需要设定质量检查间隔,防止由于一次性不合格数据积压过多而导致延误交付。还需要根据算法要求设定质量检查合格率,增加标注人员容错率。

holer:系统默认的质量检查方法为逐条检查;质量检查间隔可录入系统;系统提供抽样检验的功能;系统提供合格率统计功能。

5.6.3 质量检查与控制中合格标准的确认

在标注结果的质量检查和控制环节,需在抽查前建立并确认合格标准,并在相关环节贯彻实施。合格标准应具备可量化特性。

5.7 标注结果输出交付要求

5.7.1 图像类型的数据

图像类标注任务的数据结果为带有标签的数据,包含标签的具体内容,及此图像标签对应的图像空间位置(可选)。不同的标注任务和要求会产出不同的结果,但不影响定义数据格式及组成部分。
输出格式推荐使用易解析、易存储的数据格式,格式包括但不限于json或xml。标注文件应该包含标注详细的标签信息。每个独立的标签应包含以下的信息:
a) 标签 id:每个标签的独立编号;
b) 文件路径:待标注图像的名称或路径;
c) 置信度:各标签的置信度;
d) 每个标签中可能包含多个对象,对于每个对象需要定义:
1 ) 对象类型:比如 bounding_box 或者 key point;
2 ) 对象详情:为对象的空间信息、内容信息,或与其他对象的关系信息。

5.8 数据交付和验收

5.8.1 数据交付

数据交付时,标注团队需对最终提交的数据量进行说明。 交付的内容应包括:
a) 标注结果 (必选);
b) 交付和说明文档 (可选);
d) 原始数据 (可选,有时数据使用方可直接访问原始数据,则无需单独交付原始数据)。
交付的文件存储结构如下。
xx数据
├─data
│ .json
│ 原始文件
└─doc
说明:
data——数据文件夹;
doc——说明文档文件夹(可选);
.json——(或.xml等)标注结果文件,可以每一个label单存一个标注结果文件,或者是所有label的结果在一个标注文件中;
原始文件——为单条标注结果对应的原始文件,如图片、音频、文本、视频;

【批注】系统应提供两种文件存储结构供用户选择,一种是符合以上标准的结构,一种是行业常用的结构。用户还可选择是否包含原始文件。

相关文章:

《面向机器学习的数据标注规程》摘录

说明:本文使用的标准是2019年的团体标准,最新的国家标准已在2023年发布。 3 术语和定义 3.2 标签 label 标识数据的特征、类别和属性等。 3.4 数据标注员 data labeler 对待标注数据进行整理、纠错、标记和批注等操作的工作人员。 【批注】按照定义…...

VGG(pytorch)

VGG:达到了传统串型结构深度的极限 学习VGG原理要了解CNN感受野的基础知识 model.py import torch.nn as nn import torch# official pretrain weights model_urls {vgg11: https://download.pytorch.org/models/vgg11-bbd30ac9.pth,vgg13: https://download.pytorch.org/mo…...

celery/schedules.py源码精读

BaseSchedule类 基础调度类,它定义了一些调度任务的基本属性和方法。以下是该类的主要部分的解释: __init__(self, nowfun: Callable | None None, app: Celery | None None):初始化方法,接受两个可选参数,nowfun表…...

单片机上位机(串口通讯C#)

一、简介 用C#编写了几个单片机上位机模板。可定制!!! 二、效果图...

初识Flask

摆上中文版官方文档网站:https://flask.github.net.cn/quickstart.html 开启实验之路~~~~~~~~~~~~~ from flask import Flaskapp Flask(__name__) # 使用修饰器告诉flask触发函数的URL,绑定URL,后面的函数用于返回用户在浏览器上看到的内容…...

JeecgBoot jmreport/queryFieldBySql RCE漏洞复现

0x01 产品简介 Jeecg Boot(或者称为 Jeecg-Boot)是一款基于代码生成器的开源企业级快速开发平台,专注于开发后台管理系统、企业信息管理系统(MIS)等应用。它提供了一系列工具和模板,帮助开发者快速构建和部署现代化的 Web 应用程序。 0x02 漏洞概述 Jeecg Boot jmrepo…...

机器学习---模型评估

1、混淆矩阵 对以上混淆矩阵的解释: P:样本数据中的正例数。 N:样本数据中的负例数。 Y:通过模型预测出来的正例数。 N:通过模型预测出来的负例数。 True Positives:真阳性,表示实际是正样本预测成正样…...

【机器学习】应用KNN实现鸢尾花种类预测

目录 前言 一、K最近邻(KNN)介绍 二、鸢尾花数据集介绍 三、鸢尾花数据集可视化 四、鸢尾花数据分析 总结 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Fil…...

ACL和NAT

目录 一.ACL 1.概念 2.原理 3.应用 4.种类 5.通配符 1.命令 2.区别 3.例题 4.应用原则 6.实验 1.实验目的 2.实验拓扑 3.实验步骤 7.实验拓展 1.实验目的 2.实验步骤 3.测试 二.NAT 1.基本理论 2.作用 3.分类 静态nat 动态nat NATPT NAT Sever Easy-IP…...

MX6ULL学习笔记(十二)Linux 自带的 LED 灯

前言 前面我们都是自己编写 LED 灯驱动,其实像 LED 灯这样非常基础的设备驱动,Linux 内 核已经集成了。Linux 内核的 LED 灯驱动采用 platform 框架,因此我们只需要按照要求在设备 树文件中添加相应的 LED 节点即可,本章我们就来学…...

Qt容器QToolBox工具箱

# QToolBox QToolBox是Qt框架中的一个窗口容器类,常用的几个函数有: ​setCurrentIndex(int index):设置当前显示的页面索引。可以通过调用该函数,将指定索引的页面设置为当前显示的页面。 addItem(QWidget * widget, const QString & text):向QToolBox中添加一个页面…...

华为实训课笔记

华为实训 12/1312/14 12/13 ping 基于ICMP协议&#xff0c;用来进行可达性测试 ping 目的IP地址/设备域名&#xff08;主机名&#xff09; 如果能收到 reply 回复&#xff0c;则表示双方可以正常通信 <Huawei> 用户视图&#xff0c;只能做查询和一些简单的资源调用&…...

基于java 的经济开发区管理系统设计与实现(源码+调试)

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于java 的经济开发区管…...

外包干了3个月,技术退步明显。。。

先说一下自己的情况&#xff0c;本科生生&#xff0c;19年通过校招进入广州某软件公司&#xff0c;干了接近4年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...

详细教程 - 从零开发 Vue 鸿蒙harmonyOS应用 第一节

关于使用Vue开发鸿蒙应用的教程,我这篇之前的博客还不够完整和详细。那么这次我会尝试写一个更加完整和逐步的指南,从环境准备,到目录结构,再到关键代码讲解,以及调试和发布等,希望可以让大家详实地掌握这个过程。 一、准备工作 下载安装 DevEco Studio 下载地址&#xff1a;…...

R语言对医学中的自然语言(NLP)进行机器学习处理(1)

什么是自然语言(NLP)&#xff0c;就是网络中的一些书面文本。对于医疗方面&#xff0c;例如医疗记录、病人反馈、医生业绩评估和社交媒体评论,可以成为帮助临床决策和提高质量的丰富数据来源。如互联网上有基于文本的数据(例如,对医疗保健提供者的社交媒体评论),这些数据我们可…...

什么是CI/CD?如何在PHP项目中实施CI/CD?

CI/CD&#xff08;持续集成/持续交付或持续部署&#xff09;是一种软件开发和交付方法&#xff0c;它旨在通过自动化和持续集成来提高开发速度和交付质量。以下是CI/CD的基本概念和如何在PHP项目中实施它的一般步骤&#xff1a; 持续集成&#xff08;Continuous Integration -…...

玩转Docker(四):容器指令、生命周期、资源限制、容器化支持、常用命令

文章目录 一、容器指令1.运行2.启动/停止/重启3.暂停/恢复4.删除 二、生命周期三、资源限制1.内存限额2.CPU限额3.磁盘读写带宽限额 四、cgroup和namespace五、常用命令 一、容器指令 1.运行 按用途容器大致可分为两类&#xff1a;服务类容器和工具类的容器。 服务类容器&am…...

回归预测 | MATLAB实现CHOA-BiLSTM黑猩猩优化算法优化双向长短期记忆网络回归预测 (多指标,多图)

回归预测 | MATLAB实现CHOA-BiLSTM黑猩猩优化算法优化双向长短期记忆网络回归预测 &#xff08;多指标&#xff0c;多图&#xff09; 目录 回归预测 | MATLAB实现CHOA-BiLSTM黑猩猩优化算法优化双向长短期记忆网络回归预测 &#xff08;多指标&#xff0c;多图&#xff09;效果…...

Qt/C++视频监控安卓版/多通道显示视频画面/录像存储/视频播放安卓版/ffmpeg安卓

一、前言 随着监控行业的发展&#xff0c;越来越多的用户场景是需要在手机上查看监控&#xff0c;而之前主要的监控系统都是在PC端&#xff0c;毕竟PC端屏幕大&#xff0c;能够看到的画面多&#xff0c;解码性能也强劲。早期的手机估计性能弱鸡&#xff0c;而现在的手机性能不…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

19c补丁后oracle属主变化,导致不能识别磁盘组

补丁后服务器重启&#xff0c;数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后&#xff0c;存在与用户组权限相关的问题。具体表现为&#xff0c;Oracle 实例的运行用户&#xff08;oracle&#xff09;和集…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表&#xff1f;1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时&#xff0c;可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案&#xff1a; 1. 检查电源供电问题 问题原因&#xff1a;多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

Java - Mysql数据类型对应

Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种 系统属性定义文件&#xff08;System Property Definition File&#xff09;&#xff0c;用于声明和管理 Bluetooth 模块相…...

linux 下常用变更-8

1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行&#xff0c;YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID&#xff1a; YW3…...

LLM基础1_语言模型如何处理文本

基于GitHub项目&#xff1a;https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken&#xff1a;OpenAI开发的专业"分词器" torch&#xff1a;Facebook开发的强力计算引擎&#xff0c;相当于超级计算器 理解词嵌入&#xff1a;给词语画"…...

C# 表达式和运算符(求值顺序)

求值顺序 表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生 变化。 例如&#xff0c;已知表达式3*52&#xff0c;依照子表达式的求值顺序&#xff0c;有两种可能的结果&#xff0c;如图9-3所示。 如果乘法先执行&#xff0c;结果是17。如果5…...

ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]

报错信息&#xff1a;libc.so.6: cannot open shared object file: No such file or directory&#xff1a; #ls, ln, sudo...命令都不能用 error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory重启后报错信息&…...