当前位置: 首页 > news >正文

机器学习笔记:主动学习(Active Learning)初探

1 基本介绍

  • 监督学习问题中,存在标记成本昂贵且难以大量获取的问题。
    • 针对一些特定任务,只有行业专家才能为样本做上准确标记。
  • 在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性地标记较少数据而训练出表现较好的模型。
    • 主动学习最重要的假设不同样本对于特定任务的重要程度不同,所以带来的表现提升也不全相同。
      • 选取较为重要的样本可以使当前模型以较少的标记样本数得到较好的表现
      • 在这一过程中,主动学习的本质对样本的重要性(/信息度/期望带来的表现等)等进行评估
    • 模型会从数据集中主动选择一些不带标签的数据,交互式地向专家(oracle)请求标注,这个过程叫做query。
    • 在每一次标注之后,模型重新或者增量地在带标签的数据上训练,然后再主动地选择不带标签数据进行标注,重复这个过程。

1.1 从不同角度理解主动学习

从问题的角度通过以某种主动策略构建较小训练集来减少标记成本的机器学习方式
从策略的角度以某种方式对未标记样本重要性的评估
从训练的角度一种交互式的标记、训练、评估流程

2 主动学习基本的问题场景

Pool-based scenario
  • 此类场景通常提供一个未标记的数据池
  • 主动学习策略在数据池中选取相应样本进行标记
Stream-based scenario
  • 此类场景中,数据以数据流的形式输入
  • 主动学习策略需要确定对当前数据进行标记还是直接用现有模型预测
Query synthesis scenario
  • 此类场景较为少见
  • 一个未标记的数据池通常也被提供,但是主动学习策略并不是在数据池中挑选样本进行查询,而是自行生成新样本进行查询
  • 常见的是利用各种生成模型比如VAE/GAN来生成样本
    • 这个其实有一个通病:生成的样本固然是很有信息量,但是有时候专家也可能无法标注

 3 主动学习对样本的评估方法

基于 Pool-based Scenario + Classification

选取的样本进行manual label

Informativeness
  • 模型对选取样本取值的不确信程度【最不会的东西,提供相应的label】
  • 只用这一个指标的话,通常会忽略数据分布的影像
Representativeness-impart
  • 选取样本是否可以对数据分布起到代表作用【最有代表性的东西,提供相应的label】
Expected Improvements
  • 选取样本能为当前模型带来多少性能提升
Learn to score
  • 不人为启发式地设计选取策略,而是学习一个选取策略

参考内容:

主动学习(Active Learning),看这一篇就够了 - 知乎 (zhihu.com)

通俗理解主动学习 - 知乎 (zhihu.com)

相关文章:

机器学习笔记:主动学习(Active Learning)初探

1 基本介绍 监督学习问题中,存在标记成本昂贵且难以大量获取的问题。 针对一些特定任务,只有行业专家才能为样本做上准确标记。在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性地标记较少数据而训练出表…...

linux github 仓库管理常用操作

linux 的常用操作 linux 本地 ssh验证连接github账号本地仓库连接远程私有仓库push/pull操作 Connecting to Github with ssh git local configuration If you are using git for the first time, configure the user name and email in the device. git config --global u…...

IT运维:使用数据分析平台监控深信服防火墙

概述 深信服防火墙自身监控可以满足绝大部分需求,比如哪个应用占了最大带宽,哪个用户访问了哪些网站?这里我们为什么使用鸿鹄呢?因为我们要的是数据的处理和分析,比如某个用户在某个事件都做了哪些行为,这个…...

深入解析 Axios Blob 的使用方法及技巧

在 Web 开发中,处理文件传输是一个常见的需求。Blob(二进制对象)是一种表示二进制数据的方式,常用于处理文件和多媒体数据。本文将介绍如何使用 Axios 和 Blob 来处理文件传输。 Axios Blob 概念 在开始之前,让我们先…...

爬虫逆向实战(十三)--某课网登录

一、数据接口分析 主页地址:某课网 1、抓包 通过抓包可以发现登录接口是user/login 2、判断是否有加密参数 请求参数是否加密? 通过查看“载荷”模块可以发现有一个password加密参数,还有一个browser_key这个可以写死不需要关心 请求头…...

4.SpringCloud

1.SpringCloud概述 Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智能路由,微代理,控制总线,一次性令牌,全局锁,…...

OLED透明屏采购指南:如何选择高质量产品?

着科技的不断进步,OLED透明屏作为一种创新的显示技术,在各个行业中得到了广泛应用。 在进行OLED透明屏采购时,选择高质量的产品至关重要。在这篇文章中,尼伽将为您提供一个全面的OLED透明屏采购指南,帮助您了解关键步…...

机器学习编译系列

机器学习编译MLC 1. 引言2. 机器学习编译--概述2.1 什么是机器学习编译 1. 引言 陈天奇目前任教于CMU,研究方向为机器学习系统。他是TVM、MXNET、XGBoost的主要作者。2022年夏天,陈天奇在B站开设了《机器学习编译》的课程。   《机器学习编译》课程共分…...

MySQL 数据库巡检系统的设计与应用

文章目录 MySQL 数据库巡检系统的设计与应用引言1. 设计思路1.1 数据采集模块1.2 数据分析模块1.3 前端展示模块1.4 报警模块2. 实现步骤2.1 数据采集2.2 数据分析2.3 前端展示2.4 报警模块3. 应用案例3.1 数据采集步骤一:安装 Zabbix Agent步骤二:添加监控项步骤三:添加用户…...

工程项目管理系统源码+功能清单+项目模块+spring cloud +spring boot em

​ 工程项目管理软件(工程项目管理系统)对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营,全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#…...

前端笔试+面试分享

以下是个人线下面试遇到的真实的题,仅供参考和学习 1. css 选择符有哪些?哪些属性可以继承?优先级算法加何计算? CSS选择符有很多种,例如类型选择器、类选择器、ID选择器、属性选择器、伪类选择器、伪元素选择器等。 …...

C Language Handout

明天(9月3日)上课时间 上午:09:30 - 12:00 下午:14:30 - 17:00 周末 - 务必 - 找一下报名/班主任老师 - 确认账号是否为正式账号 今日内容: 一.第一个C语言程序 mkdir /home/tarena/stdc/day03 -p cd /home/tarena/stdc/day03 vim hello.c #include <stdio.h> /* 这是…...

数据结构——栈(C语言)

需求&#xff1a;无 栈的概念&#xff1a; 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶&#xff0c;另一端为栈底。栈中的数据元素遵守后进先出&#xff08;LIFO&#xff09;原则。压栈&…...

Linux 内核内存管理 page_address 函数

文章目录 一、page_address1.1 page_address1.2 page_to_pfn1.3 PFN_PHYS1.4 __va(x)1.5 总结1.6 page_to_virt 二、使用demo 一、page_address 1.1 page_address 内核用 struct page 结构体来表示系统中的每个物理页面&#xff0c;该结构体用来跟踪和管理这些物理页面的使用…...

macOS使用ffmpeg与QT进行音视频推拉流

1.先启动流服务器 ./mediamtx 2.开始推流: ffmpeg -re -stream_loop -1 -i /Users/hackerx/Desktop/test.mp4 -c copy -rtsp_transport tcp -f rtsp rtsp://127.0.0.1:8554/stream 3. 安装ffmpeg 4.4 brew install ffmpeg4 4.添加ffmpeg头文件目录与库目录 5.链接ffmpeg相关库…...

ARTS打卡:双指针的尝试

替换空格 <?php class Solution {/*** param String $s* return String*/function replaceSpace($s) {$arrstr_split($s); //转化成数组foreach($arr as &$item){if($item ){//执行替换操作$item%20;}}return implode(,$arr); //数组转化成字符串返回} } 反转链表…...

JavaWeb-DAO设计模式

目录 DAO设计模式 1.认识DAO 2.DAO各部分的详解 3.DAO设计模式流程 DAO设计模式 1.认识DAO DAO(Data Acess Object 数据库访问对象)的主要功能是操作数据库&#xff0c;所以DAO在标准开发架构中数据数据层&#xff0c;以下是标准开发的架构 客户层&#xff1a;目前使用B/…...

重温git和GitHub

1.初始化本地库:让git获取到这个目录的管理权 git init 查看文件夹的文件命令&#xff1a;ll 查看文件夹的隐藏的文件命令:ll -a 查看状态的命令&#xff1a;git status cat文件名&#xff1a;查看文件内容 工作区&#xff1a;当git status时&#xff0c;名字为红色则在工作区&…...

C# WPF 中 外部图标引入iconfont,无法正常显示问题 【小白记录】

wpf iconfont 外部图标引入&#xff0c;无法正常显示问题。 1. 检查资源路径和引入格式是否正确2. 检查资源是否包含在程序集中 1. 检查资源路径和引入格式是否正确 正确的格式&#xff0c;注意字体文件 “xxxx.ttf” 应写为 “#xxxx” <TextBlock Text"&#xe7ae;…...

Hi-TRS:骨架点视频序列的层级式建模及层级式自监督学习

论文题目&#xff1a;Hierarchically Self-Supervised Transformer for Human Skeleton Representation Learning 论文下载地址&#xff1a;https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136860181.pdf 代码地址&#xff1a;https://github.com/yuxiaochen1103…...

【信息科学与工程学】【物理/化学科学和工程技术】知识体系 第四十一篇 数据中心基础设施领域中的力学知识 01

编号:001 类别 结构力学 (静力学与动力学) 领域 计算基础设施 / 机房设施 力学模型配方 将服务器机架简化为一个底部固定、顶部自由的悬臂梁模型。在地震激励下,该模型转化为一个单自由度阻尼受迫振动系统。主要考虑水平方向的地震力作用。 数学分析 通过建立运动微分…...

多店铺场景下如何通过快手订单接口实现订单数据的统一聚合管理?

对于电商业务管理系统的开发者而言&#xff0c;服务在快手平台经营多个店铺的商家是常见需求。然而&#xff0c;每个店铺都有独立的授权凭证&#xff08;access_token&#xff09;和独立的订单流&#xff0c;若分别对接和管理&#xff0c;不仅开发维护成本高&#xff0c;还容易…...

MD5是哈希,不是加密,防君子不防小人

一、先把概念说清楚很多开发者在日常交流中习惯说“MD5加密”&#xff0c;这个说法流传太久&#xff0c;以至于不少人真的以为MD5是一种加密算法。实际上&#xff0c;MD5属于哈希&#xff08;Hash&#xff09;算法&#xff0c;也叫散列算法或消息摘要算法。加密和哈希的本质区别…...

Linux Idle 调度器的 cpuidle_reflect:Idle 状态统计更新

简介 在 Linux 内核电源管理与调度体系中&#xff0c;CPU Idle&#xff08;空闲&#xff09;调度器是实现 CPU 低功耗管理的核心模块&#xff0c;负责在 CPU 无任务可调度时&#xff0c;选择并进入合适的硬件空闲状态&#xff08;C-state&#xff09;&#xff0c;在性能与功耗…...

Claude Code开发者大会系列5:如何打造“AI原生工程师”文化

2026年5月&#xff0c;Anthropic在“Code w/ Claude”大会上发布Managed Agents多智能体编排能力&#xff0c;Netflix的生产环境实践成为全场焦点。大会的核心信息只有一句话&#xff1a;AI模型能力正以“指数级”增长&#xff0c;而大多数企业的开发模式仍停留在“线性”阶段。…...

Stream Deck与Arduino打造物联网信息看板:软硬云结合实战

1. 项目概述&#xff1a;打造你的专属物理信息看板如果你和我一样&#xff0c;是个桌面极客或者直播爱好者&#xff0c;那你对Elgato的Stream Deck一定不陌生。这个小玩意儿最初是为直播设计的&#xff0c;可以一键切换场景、播放音效&#xff0c;堪称效率神器。但它的潜力远不…...

从Django后台到Celery Worker:一个完整用户注册邮件异步发送的部署实录

从Django后台到Celery Worker&#xff1a;一个完整用户注册邮件异步发送的部署实录 在Web应用开发中&#xff0c;用户注册流程是每个系统必备的基础功能。当新用户完成注册表单提交后&#xff0c;系统通常需要发送欢迎邮件或激活链接。如果直接在请求响应周期内执行邮件发送&am…...

从零构建智能体工作流引擎:多Agent系统架构与工程实践

1. 项目概述&#xff1a;从零构建一个智能体工作流引擎最近在GitHub上看到一个挺有意思的项目&#xff0c;叫strands-agents/agent-builder。光看名字&#xff0c;你可能会觉得这又是一个“AI智能体”的玩具项目&#xff0c;但实际深入进去&#xff0c;你会发现它试图解决的是一…...

终极指南:在Windows上安装安卓应用的简单解决方案

终极指南&#xff1a;在Windows上安装安卓应用的简单解决方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经希望在Windows电脑上直接运行手机应用&#xf…...

CL API实时闭环神经控制技术解析与应用

1. CL API实时闭环神经控制技术概述在生物神经网络&#xff08;BNN&#xff09;研究领域&#xff0c;实时闭环控制技术正成为连接计算系统与生物神经元的桥梁。CL API作为这一领域的前沿工具&#xff0c;其设计哲学源于对神经电生理实验的深刻理解——当我们需要在毫秒级时间尺…...