当前位置：首页 > news >正文

05-机器学习-数据标注

news 2026/2/11 0:30:14

一、学习数据标注的核心目标

数据标注不仅是“打标签”，而是理解数据与AI模型之间的桥梁。需要掌握：

标注技术：不同任务类型的标注方法（如分割、实体识别）。
标注工具：高效使用专业工具（如CVAT、Label Studio）。
数据质量把控：如何设计标注规则、校验标注结果。
与模型训练的关联：标注数据如何影响模型训练效果。

二、系统性学习路径

阶段1：掌握基础知识

理解AI工作流
- 数据标注在AI开发中的作用：数据收集 → 标注 → 模型训练 → 部署。
- 学习资源推荐：
  - Coursera: Deep Learning Specialization（Week 1讲解数据重要性）
  - 书籍《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》（第2章数据准备）。
学习常见标注类型
- 图像：分类、检测（边界框）、分割（语义/实例）。
- 文本：命名实体识别（NER）、情感分类、关系抽取。
- 语音：音素标注、说话人分离、情感标注。
- 视频：动作识别、时序事件标注。

阶段2：工具与实战

工具学习（按数据类型选择）
- 图像/视频标注：
  - CVAT（开源，支持复杂标注）
  - Label Studio（跨数据类型，适合初学者）
- 文本标注：
  - Doccano（开源，支持NER和分类）
  - Prodigy（付费，适合高效标注）
- 语音标注：
  - Audacity（基础分段）
  - ELAN（专业语音/视频标注）。
操作练习：
- 用CVAT标注一张图片的边界框和语义分割（官方教程）。
- 用Doccano标注一段新闻文本中的实体（人物、地点）。
标注规则设计
- 学习如何撰写清晰的标注指南（Guideline）：
  - 例：定义“车辆”标注规则：
    
    “标注所有四轮机动车辆，包括轿车、卡车，排除自行车和行人。”
- 实践：为“社交媒体评论情感分析”设计标注规则（如定义“中性”情感的边界）。

阶段3：数据质量与评估

一致性检查
- 学习计算Kappa系数（衡量标注者间一致性）。
- 工具：使用Python的sklearn.metrics.cohen_kappa_score。
错误分析与修正
- 常见问题：漏标、标签混淆、边界错误。
- 方法：通过混淆矩阵（Confusion Matrix）分析模型预测错误，反推标注问题。

阶段4：结合模型训练

从标注到模型
- 实践项目：用自己标注的数据训练一个简单模型。
  - 例如：标注100张“猫/狗”图片，用PyTorch训练一个分类模型。
- 观察结果：修改标注错误后，模型准确率是否提升？
自动化标注辅助
- 学习半自动标注：用预训练模型（如YOLO）生成初始标签，人工修正。
- 工具：Roboflow（支持自动化标注管线）。

三、进阶学习方向

1. 领域专业化

医疗影像标注：学习DICOM格式，使用3D Slicer标注肿瘤区域。
自动驾驶标注：点云数据（LiDAR）标注，使用工具如Supervisely。
法律/金融文本：标注合同中的条款责任主体。

2. 开源项目参与

加入Kaggle竞赛的数据标注环节（如Open Images Dataset）。
为开源数据集贡献标注（如Hugging Face数据集库）。

3. 学术研究

阅读数据标注相关论文，例如：
- 《How to Improve Annotation Quality: A Study on Crowdsourcing Guidelines》
- 《Active Learning for Efficient Annotation in Machine Learning》。

四、常见学习误区与解决方法

误区	解决方法
“标注只是体力劳动”	理解标注规则设计、质量评估的技术性，学习与模型迭代结合。
“所有标注工具都一样”	根据任务类型选择工具（如CVAT适合复杂图像标注，Doccano适合文本）。
“标注数据越多越好”	关注数据多样性和质量，避免重复低质数据。

五、推荐练习项目

图像分类
- 任务：标注CIFAR-10数据集的子集（如“飞机 vs 鸟类”）。
- 工具：Label Studio + PyTorch训练模型。
文本实体识别
- 任务：标注维基百科文本中的人物、地点、组织。
- 工具：Doccano + 训练一个Spacy模型。
语音情感分析
- 任务：标注RAVDESS语音数据集中的情感标签。
- 工具：Audacity分段 + 训练一个LSTM模型。

六、学习资源汇总

免费课程：
- Label Studio官方文档（手把手教程）。
- Udacity: Intro to Machine Learning（数据预处理部分）。
书籍：
- 《Natural Language Annotation for Machine Learning》（文本标注权威指南）。
- 《Computer Vision: Algorithms and Applications》（图像标注理论基础）。
社区：
- Stack Overflow的Computer Vision标签。
- Kaggle论坛的Data Annotation讨论。

建议

选择一个小项目（如“猫狗分类标注+训练”），从端到端走通流程。
记录标注过程中的问题，例如模糊案例如何处理，总结成文档。
尝试参与开源项目，例如为Hugging Face数据集贡献标注。

05-机器学习-数据标注

一、学习数据标注的核心目标数据标注不仅是“打标签”，而是理解数据与AI模型之间的桥梁。需要掌握： 标注技术：不同任务类型的标注方法（如分割、实体识别）。标注工具：高效使用专业工具（如CVAT…...

编程日记 2025/1/28 21:16:44

LQ1052 Fibonacci斐波那契数列

题目描述 Fibonacci斐波那契数列也称为兔子数列，它的递推公式为：FnFn-1Fn-2，其中F1F21。当n比较大时，Fn也非常大，现在小蓝想知道，Fn除以10007的余数是多少，请你编程告诉她。输入输入包含一…...

编程日记 2025/1/28 21:13:34

AWTK 骨骼动画控件发布

Spine 是一款广泛使用的 2D 骨骼动画工具，专为游戏开发和动态图形设计设计。它通过基于骨骼的动画系统，帮助开发者创建流畅、高效的角色动画。本项目是基于 Spine 实现的 AWTK 骨骼动画控件。代码：https://gitee.com/zlgopen/awtk-widget-s…...

编程日记 2025/1/28 21:10:30

分库分表后如何进行join操作

在分库分表后的系统中，进行表之间的 JOIN 操作比在单一数据库表中复杂得多，因为涉及的数据可能位于不同的物理节点或分片中。此时，传统的 SQL JOIN 语句不能直接用于不同分片的数据，以下是几种处理这样的跨分片 JOIN 操作的方法&a…...

编程日记 2025/1/28 21:07:20

build() {Column() {Row() {// 上侧页面布局实现}// 下侧页面布局实现}.width(Const.THOUSANDTH_1000).height(Const.THOUSANDTH_1000).justifyContent(FlexAlign.SpaceBetween).backgroundImage($r(app.media.background_xxx)).backgroundImageSize(ImageSize.Cover).backgrou…...

编程日记 2025/1/28 21:04:11

宝塔面板SSL加密访问设置教程

参考:https://www.bt.cn/bbs/thread-117246-1-1.html 如何快速使用证书加密访问面板因早期默认未开启https访问所以没有相关的风险提醒，现面板默认已开启https加密访问、提升安全性由于采用的是服务器内部本身签发证书，不被公网浏览器信任请参考以下步…...

编程日记 2025/1/28 20:57:41

c++ set/multiset 容器

1. set 基本概念简介： 所有元素都会在插入时自动排序本质： set/multiset属于关联式容器，底层结构是用二叉树实现。set 和 multiset 区别： set容器不允许有重复的元素。 multiset允许有重复的元素。2. set 构造和赋值构造&a…...

编程日记 2025/1/28 20:56:35

前部分知识复习02

一、物体的屏幕UV坐标 float2 ScreenUV i.pos.xy / _ScreenParams.xy; 二、抓取屏幕图像 GrabPass{" _A "} //_A为贴图图像名称之后需在Pass中声明该贴图才能在Pass中引用此贴图三、屏幕抓取并制作热效应代码 Shader"unity/HeatDistort 07" {Pr…...

编程日记 2025/1/28 20:54:23

开发环境搭建-3：配置 JavaScript 开发环境 (fnm+ nodejs + pnpm + nrm)

在 WSL 环境中配置：WSL2 (2.3.26.0) Oracle Linux 8.7 官方镜像 node 官网：https://nodejs.org/zh-cn/download 点击【下载】，选择想要的 node 版本、操作系统、node 版本管理器、npm包管理器根据下面代码提示依次执行对应代码即可基本概…...

编程日记 2025/1/28 20:52:20

kotlin内联函数——let,run,apply,also,with的区别

一、概述为了帮助您根据使用场景选择合适的作用域函数（scope function），我们将对它们进行详细描述并提供使用建议。从技术上讲，许多情况下范围函数是可以互换使用的，因此示例中展示了使用它们的约定俗成的做法。 1.…...

编程日记 2025/1/28 20:47:07

【深度学习|DenseNet-121】Densely Connected Convolutional Networks内部结构和参数设置

【深度学习|DenseNet-121】Densely Connected Convolutional Networks内部结构和参数设置【深度学习|DenseNet-121】Densely Connected Convolutional Networks内部结构和参数设置文章目录【深度学习|DenseNet-121】Densely Connected Convolutional Networks内部结构和参数…...

编程日记 2025/1/28 20:43:58

数据结构与算法-要点整理

知识导图：一、数据结构包含：线性表（数组、队列、链表、栈）、散列表、树（二叉树、多路查找树）、图 1.线性表数据之间就是“一对一“的逻辑关系。线性表存储数据的实现方案有两种，分别是顺序存储结构和链式存储结构。包含：数组、队列、链表、栈。 1.1 数组…...

编程日记 2025/1/28 20:41:48

Fort Firewall：全方位守护网络安全

Fort Firewall是一款专为 Windows 操作系统设计的开源防火墙工具，旨在为用户提供全面的网络安全保护。它基于 Windows 过滤平台（WFP），能够与系统无缝集成，确保高效的网络流量管理和安全防护。该软件支持实时监控网络流…...

编程日记 2025/1/28 20:40:43

Nginx实战技巧（Practical Tips for nginx）

引言简介 ‌Nginx（发音为 "engine-x"）是一个高性能的HTTP和反向代理服务器.‌ Nginx以其高并发处理能力、低资源消耗和灵活的配置而闻名，适用于高流量的Web服务器和应用程序。‌ Nginx的主要功能包括： ‌HTTP服务器…...

编程日记 2025/1/28 20:39:39

YOLOv8：目标检测与实时应用的前沿探索

随着深度学习和计算机视觉技术的迅速发展，目标检测（Object Detection）一直是研究热点。YOLO（You Only Look Once）系列模型作为业界广受关注的目标检测框架，凭借其高效、实时的特点，一直迭代更新…...

编程日记 2025/1/28 20:34:33

解锁数字经济新动能：探寻 Web3 核心价值

随着科技的快速发展，我们正迈入一个全新的数字时代，Web3作为这一时代的核心构成之一，正在为全球数字经济带来革命性的变革。本文将探讨Web3的核心价值，并如何推动数字经济的新动能。 Web3是什么？ Web3，通常…...

编程日记 2025/1/28 20:33:32

Lua 环境的安装

1.安装Lua运行环境本人采用的是在windows系统中使用cmd指令方式进行安装，安装指令如下： winget install "lua for windows" 也曾使用可执行程序安装过，但由于电脑是加密电脑，最后都已失败告终。使用此方式安装可以安…...

编程日记 2025/1/28 20:32:26

Object类（2）

大家好，今天我们继续来看看Object类中一些成员方法，这些方法在实际中有很大的用处，话不多说，来看。注：所有类都默认继承Object类的，所以可调用Object类中的方法，如equals，也可以发生…...

编程日记 2025/1/28 20:29:19

汽车网络信息安全-ISO/SAE 21434解析（中）

目录第七章-分布式网络安全活动 1. 供应商能力评估 2. 报价 3. 网络安全职责界定第八章-持续的网络安全活动 1. 网路安全监控 2. 网络安全事件评估 3. 漏洞分析 4. 漏洞管理第九章-概念阶段 1. 对象定义 2. 网路安全目标 3. 网络安全概念第十章 - 产品开发第十…...

编程日记 2025/1/28 20:23:06

fatal error C1083: ޷[特殊字符]ļ: openssl/opensslv.h: No such file or directory

一、环境 1. Visual Studio 2017 2. edk2：202305 3. Python：3.11.4 二、 fatal error C1083: ޷򿪰ļ: openssl/opensslv.h: No such file or directory 上图出现这个警告，不用管。出现Done，说明编译成功。执行上…...

编程日记 2025/1/28 20:19:58

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法配置通过调谐文件来调整相机行为使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包文章来源： http://raspberry.dns8844.cn/documentation 原文网址配置大多数用例自动工作，无需更改相机配置。但是，一…...

编程新知 2026/2/5 4:39:03

通过Wrangler CLI在worker中创建数据库和表

官方使用文档：Getting started Cloudflare D1 docs 创建数据库在命令行中执行完成之后，会在本地和远程创建数据库： npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库： 现在，您的Cloudfla…...

编程新知 2026/1/31 6:18:08

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

概述在 Swift 开发语言中，各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。不过，在涉及到多个子类派生于基类进行多态模拟的场景下，…...

编程新知 2026/1/23 4:56:05

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/8/13 16:42:24

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2026/2/9 3:58:32

高危文件识别的常用算法：原理、应用与企业场景

高危文件识别的常用算法：原理、应用与企业场景高危文件识别旨在检测可能导致安全威胁的文件，如包含恶意代码、敏感数据或欺诈内容的文档，在企业协同办公环境中（如Teams、Google Workspace）尤为重要。结合大模型技术&…...

编程新知 2026/2/8 10:51:42

【Java_EE】Spring MVC

目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递注意事项编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据编辑RequestBody …...

编程新知 2026/2/1 16:32:53

Java面试专项一-准备篇

一、企业简历筛选规则一般企业的简历筛选流程：首先由HR先筛选一部分简历后，在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历例如：Boss直聘（招聘方平台） 直接按照条件进行筛选例如&#xff1a…...

编程新知 2026/1/26 19:10:48

C++使用 new 来创建动态数组

问题： 不能使用变量定义数组大小原因： 这是因为数组在内存中是连续存储的，编译器需要在编译阶段就确定数组的大小，以便正确地分配内存空间。如果允许使用变量来定义数组的大小，那么编译器就无法在编译时确定数组的大…...

编程新知 2026/2/2 18:33:19

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境系统：Ubuntu 24.04 LTS (WSL2)架构：x86_64 (GNU/Linux)Rust 版本：rustc 1.87.0 (2025-05-09)Cargo 版本：cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

编程新知 2026/1/26 14:15:48