【论文阅读】Robust Multi-Instance Learning with Stable Instances
1、摘要与引言
以往的MIL算法遵循i.i.d假设:训练样本与测试样本都分别来自于同一分布中,而这一假设往往与现实应用中有所出入。研究人员通过计算训练样本与测试样本之间的密度比对训练样本进行加权,以解决分布变化带来的问题。
分布的变化发生的原因有许多,诸如:训练数据与测试数据是在不同的时间或不同的地点收集的。当分布发生变化时,由于无法区分因果实例与噪声实例,算法的性能会发生改变。当训练集与测试集分布不同时,噪音实例和标签之间的关联性将不一致。

如图所示,训练集中的数据在夏天收集的,因果实例是狗,噪声实例是草,并与因果实例高度相关。而测试集中的数据是在冬季收集的,背景大多是雪,而雪则成为了噪音实例。若不考虑分布变化,由于训练样本与测试样本的分布差异,标准有监督算法通常倾向于预测草中有狗的图像为正,而雪中有狗的图像为负。
本文提出了第一个解决MIL中分布变化问题的算法框架,并且此方法不需要无标签的测试数据集。将实例分为三类:因果实例(狗勾)、噪声实例(草)和负实例(其他背景实例),解决MIL中的分布变化问题。
2、Stable Multi-instance Learning Framework
因果实例:考虑将实例xxx加入到包XjX_{j}Xj中并观察包标签YYY,并通过观察标签是否发生变化来确定实例xxx与标签YYY是否存在因果关系。换句话说,若实例xxx与标签YYY存在因果关系,则将它添加到一个负包中时,该包的标签将从负变为正。若实例xxx与标签YYY不存在因果关系,则标签不会发生改变。这种因果关系不会因训练数据或测试数据而发生改变。
噪音实例:噪音实例要么与因果实例和包标签中的其中一个有关联,要么与两者都有关联。如:草和雪都属于噪音实例。虽然草和雪都和因果实例以及标签存在关联,但它们的相关性在训练集与测试集中有所不同。
负实例:与标签无关联的实例,即与包标签无任何关联的随机背景对象。
由于因果实例与标签之间的关系不会因训练集与测试集之间的分布不同而改变,基于因果实例的MIL分类器将获得更加稳定的性能。
2.1、Learning Causal Instances from Experiment
我们只考虑从正包中找出因果实例。∪B+\cup \mathcal{B}^{+}∪B+表示包含着来自正包中的所有实例组成的实例池,池中实例x∈∪B+x\in \cup \mathcal{B}^{+}x∈∪B+。为了确定实例xxx是否为因果实例,需要计算实例xxx对包标签YYY的因果效应,通常定义为加入实例后的预期标签与加入实例前的预测标签之间的差异性:
T(x)=E[Y(T=1)]−E[Y(T=0)].(1)\mathcal{T}\left ( x \right ) =\mathbb{E}\left [ Y\left ( T=1 \right ) \right ] -\mathbb{E}\left [ Y(T=0) \right ] .\tag{1}T(x)=E[Y(T=1)]−E[Y(T=0)].(1)
其中,Y(T=1)Y(T=1)Y(T=1)表示预期标签,即:候选实例xxx出现在包中;Y(T=0)Y(T=0)Y(T=0)表示预期标签,即:候选实例xxx未出现在包中。
我们可以通过将候选实例xxx添加到一个包中(若包内不存在候选实例)或从包中移出实例xxx(若包内存在候选实例)来获得处理过或未处理过的包。因此,可以通过数据与oracle分类器提供的期望差异来评估因果效益:
T(x)=E[Y∗(T=1)]−E[Y∗(T=0)].(2)\mathcal{T}\left ( x \right ) =\mathbb{E}\left [ Y^{*}\left ( T=1 \right ) \right ] -\mathbb{E}\left [ Y^{*}(T=0) \right ] .\tag{2}T(x)=E[Y∗(T=1)]−E[Y∗(T=0)].(2)
其中,Y∗Y^{*}Y∗表示经处理后(将候选因果实例加入包中)的包标签。
由标准MIL假设知:向正包中添加任何实例或是从负包中移除任何实例都不会改变包的标签。因此E[Y∗∣Y=0,T=0]=0,E[Y∗∣Y=1,T=1]=1\mathbb{E}\left [ Y^{*}|Y=0,T=0 \right ]=0,\mathbb{E}\left [ Y^{*}|Y=1,T=1 \right ]=1E[Y∗∣Y=0,T=0]=0,E[Y∗∣Y=1,T=1]=1。同时,对正包进行处理时有两种可能性:
①预处理包中含有除xxx以外的正实例;
②预处理包中只含有xxx作为其正实例。
2.2、Learning Stable Instances from Data
为了获得稳定实例,首先使用训练集数据训练一个多示例分类算法A\mathcal{A}A,并使用AAA表示A\mathcal{A}A返回的分类器。对于每一个候选实例xxx,我们构建一组包集合,其中包含了m−m^{-}m−个treated bags。每个treated bag都是通过向负包Xi−X_{i}^{-}Xi−中添加候选实例xxx构建的。
对于每个treated bag,我们再使用之前训练得到的分类器AAA来预测其标签。最后,我们使用treated bag的预测标签均值来估计预期:
T^(x)=1m−∑i=1m−A(Xix)\hat{\mathcal{T}}(x)=\frac{1}{m^{-}}\sum_{i=1}^{m^{-}}A(X_{i}^{x})T^(x)=m−1i=1∑m−A(Xix)
估计后,选择得分sss高于T\mathcal{T}T的候选实例作为稳定实例。
相关文章:
【论文阅读】Robust Multi-Instance Learning with Stable Instances
1、摘要与引言 以往的MIL算法遵循i.i.d假设:训练样本与测试样本都分别来自于同一分布中,而这一假设往往与现实应用中有所出入。研究人员通过计算训练样本与测试样本之间的密度比对训练样本进行加权,以解决分布变化带来的问题。 分布的变化发…...
洛谷 P5116 [USACO18DEC]Mixing Milk B
题目链接:P5116 [USACO18DEC]Mixing Milk B - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 题目描述 农业,尤其是生产牛奶,是一个竞争激烈的行业。Farmer John 发现如果他不在牛奶生产工艺上有所创新,他的乳制品生意可能就会受…...
华为OD机试 - 最左侧冗余覆盖子串(C 语言解题)【独家】
最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南)华为od机试,独家整理 已参加机试人员的实战技巧文章目录 使用说明本期题目:最左侧冗…...
实验7 图像水印
本次实验大部分素材来源于山大王成优老师的讲义以及冈萨雷斯(MATLAB版),仅作个人学习笔记使用,禁止用作商业目的。 文章目录一、实验目的二、实验例题1. 数字图像水印技术2. 可见水印的嵌入3. 不可见脆弱水印4. 不可见鲁棒水印一、…...
如何实现大文件断点续传、秒传
大家先来了解一下几个概念: 「文件分块」:将大文件拆分成小文件,将小文件上传\下载,最后再将小文件组装成大文件; 「断点续传」:在文件分块的基础上,将每个小文件采用单独的线程进行上传\下载&…...
备战蓝桥python——完全平方数
完全平方数 链接: 完全平方数 暴力解法: n int(input()) for i in range(1, n1):if(((i*n)**0.5)%10.0):print(i)break运用数论相关知识求解 任意一个正整数都可以被分解成若干个质数乘积的形式,例如 :2022∗5120 \ 2^{2}*5^{1}\,20 22∗51 由此…...
WebRTC中的NAT穿透
NAT简介 我们知道,WebRTC会按照内网、P2P、中转的顺序来尝试连接。在大部分的情况下,实际是使用P2P或者中转的。这里P2P的场景主要使用的技术就是NAT穿透。 我们先简单了解下NAT。NAT在真实网络中是常见的,它的出现一是为了解决ipv4地址不够…...
SpringCloud-高级篇(一)
目录: (1)初识Sentinel-雪崩问题的解决方案 (2)服务保护Sentinel和Hystrix对比 (3)Sentinel初始-安转控制台 (4)整合微服务和Sentinel 微服务高级篇 (1&…...
电脑自动重启是什么原因?详细解说
案例:电脑自动重启是什么原因? “一台用了一年的电脑,最近使用,每天都会一两次莫名其妙自动重启,看了电脑错误日志,看不懂什么意思,一直找不到答案。有没有高手知道怎么解决这个问题的。” 当…...
2023美国大学生数学建模竞赛E题思路
problem 背景: 光污染用于描述过度或不良使用人造光。我们称之为光污染的一些现象包括光侵入、过度照明和光杂波。在大城市,太阳落山后,这些现象最容易在天空中看到:然而,它们也可能发生在更偏远的地区。 光污染会改变我们对夜空…...
蓝桥杯三月刷题 第五天
文章目录💥前言😉解题报告💥数的分解🤔一、思路:😎二、代码:💥前言 上午没写,下午写了会被朋友拉出去耍,被冷风吹到了,而且被他坑了,根本没有玩骑…...
Echarts 水波图实现
开发的项目中需要实现这样一个水波图,例如下图在echarts官网中找了很久没找到,后面是在Echarts社区中找到的,实现了大部分的样式,但是还有一些数据的展示没有实现。水波图的数值展示是默认整数百分比,我的需求是需要保…...
逻辑优化基础-shannon decomposition
1. 简介 在逻辑综合中,香农分解(Shannon decomposition)是一种常用的布尔函数分解方法。它将一个布尔函数分解为两个子函数的和,其中每个子函数包含一个布尔变量的取反和非取反的部分。 具体来说,假设对于一个布尔函…...
Java中线程池的创建与使用
前言:默认线程池的弊端在线程池应用中,参考阿里巴巴java开发规范:线程池不允许使用Executors去创建,不允许使用系统默认的线程池,推荐通过ThreadPoolExecutor的方式,这样的处理方式让开发的工程师更加明确&…...
关于HashMap与OkHttp的使用
写了一个okhttp的post请求方法,添加参数很麻烦,需要封装: //post请求public static void sendOkHttpRequestPost(String address , Callback callback) {OkHttpClient client new OkHttpClient();// 创建表单参数RequestBodyRequestBody fo…...
华为OD机试 - 单词倒序(C 语言解题)【独家】
最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南)华为od机试,独家整理 已参加机试人员的实战技巧文章目录 使用说明本期题目:单词倒序…...
搭建Samba服务器
搭建Samba服务器 文章目录搭建Samba服务器samba安装安装命令配置-ubuntu侧为samba服务器创建一个共享目录share创建使用该共享文件夹的账号修改samba服务器配置文件重启samba服务windows创建映射1.点击映射网络驱动器2.输入Ubuntu中的ip地址及其用户信息3.输入用户信息及其密码…...
Matlab进阶绘图第5期—风玫瑰图(WindRose)
风玫瑰图(Wind rose diagram)是一种特殊的极坐标堆叠图/统计直方图,其能够直观地表示某个地区一段时期内风向、风速的发生频率。 风玫瑰图在建筑规划、环保、风力发电、消防、石油站设计、海洋气候分析等领域都有重要作用,所以在一些顶级期刊中也能够看…...
【SQL开发实战技巧】系列(二十四):数仓报表场景☞通过执行计划详解”行转列”,”列转行”是如何实现的
系列文章目录 【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事 【SQL开发实战技巧】系列(二):简单单表查询 【SQL开发实战技巧】系列(三):SQL排序的那些事 【SQL开发实战技巧…...
idea大量爆红问题解决
问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...
多模态2025:技术路线“神仙打架”,视频生成冲上云霄
文|魏琳华 编|王一粟 一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,…...
CMake基础:构建流程详解
目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...
HBuilderX安装(uni-app和小程序开发)
下载HBuilderX 访问官方网站:https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本: Windows版(推荐下载标准版) Windows系统安装步骤 运行安装程序: 双击下载的.exe安装文件 如果出现安全提示&…...
现代密码学 | 椭圆曲线密码学—附py代码
Elliptic Curve Cryptography 椭圆曲线密码学(ECC)是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。 椭圆曲线密码学是多种数字签名算法的基础,例如椭圆曲线数字签…...
MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)
macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 🍺 最新版brew安装慢到怀疑人生?别怕,教你轻松起飞! 最近Homebrew更新至最新版,每次执行 brew 命令时都会自动从官方地址 https://formulae.…...
从零开始了解数据采集(二十八)——制造业数字孪生
近年来,我国的工业领域正经历一场前所未有的数字化变革,从“双碳目标”到工业互联网平台的推广,国家政策和市场需求共同推动了制造业的升级。在这场变革中,数字孪生技术成为备受关注的关键工具,它不仅让企业“看见”设…...
【若依】框架项目部署笔记
参考【SpringBoot】【Vue】项目部署_no main manifest attribute, in springboot-0.0.1-sn-CSDN博客 多一个redis安装 准备工作: 压缩包下载:http://download.redis.io/releases 1. 上传压缩包,并进入压缩包所在目录,解压到目标…...
ArcGIS Pro+ArcGIS给你的地图加上北回归线!
今天来看ArcGIS Pro和ArcGIS中如何给制作的中国地图或者其他大范围地图加上北回归线。 我们将在ArcGIS Pro和ArcGIS中一同介绍。 1 ArcGIS Pro中设置北回归线 1、在ArcGIS Pro中初步设置好经纬格网等,设置经线、纬线都以10间隔显示。 2、需要插入背会归线…...
结构化文件管理实战:实现目录自动创建与归类
手动操作容易因疲劳或疏忽导致命名错误、路径混乱等问题,进而引发后续程序异常。使用工具进行标准化操作,能有效降低出错概率。 需要快速整理大量文件的技术用户而言,这款工具提供了一种轻便高效的解决方案。程序体积仅有 156KB,…...
