当前位置: 首页 > article >正文

OpenGAN:基于开放数据生成的开放集识别

简介

简介:这次学习的OpenGAN主要学习一个思路,跳出传统GAN对于判断真假的识别到判断是已知种类还是未知种类。重点内容不在于代码而是思路,会简要给出一个设计的代码。

论文题目:OpenGAN: Open-Set Recognition via Open Data Generation(基于开放数据生成的开放集识别)

期刊:IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE(if=20.8,超级Top)

摘要:现实世界的机器学习系统需要分析可能与训练数据不同的测试数据。 在K-way分类中,这被清晰地表述为开集识别,其核心是区分K个闭集类之外的开集数据的能力。 开集判别的两个概念是:1)通过利用一些离群数据作为开集判别学习开-闭二元判别器; 2)利用GAN的判别器作为开集似然函数,对闭集数据分布进行无监督学习。 然而,由于对训练异常值的过度拟合,前者对各种开放测试数据的泛化效果较差,而训练异常值不太可能详尽地跨越开放世界。 后者不能很好地工作,可能是由于gan的训练不稳定。 在上述的激励下,我们提出了OpenGAN,它通过将每种方法与几个技术见解相结合来解决每种方法的局限性。 首先,我们证明了在一些真实的离群数据上精心选择的gan鉴别器已经达到了最先进的水平。 其次,我们用对抗合成的“假”数据增强真实开放训练样本的可用集。 第三,也是最重要的,我们在封闭世界K-way网络计算的特征上建立了鉴别器。 这使得OpenGAN可以通过建立在现有K-way网络之上的轻量级鉴别器头来实现。 大量的实验表明,OpenGAN显著优于先前的开集方法。

问题背景的具体例子

想象你要训练一个自动驾驶汽车的视觉系统:

  • 训练数据:汽车、行人、红绿灯、建筑物等19个类别
  • 现实问题:路上突然出现婴儿车、街头小摊等训练时没见过的物体
  • 危险后果:系统可能把婴儿车错误识别为"摩托车",导致不当的避让策略

OpenGAN的具体操作流程

第一步:准备基础设施

1. 已有一个训练好的K类分类器(比如识别19种交通场景物体)
2. 从这个分类器的倒数第二层提取特征(不是直接用原始图片)
3. 收集少量"其他"类别的数据作为已知的异常样本

为什么用特征而不用像素?

  • 原始图片:1024×2048×3 = 600万维度,太复杂
  • 提取的特征:可能只有512维,包含了高级语义信息
  • 就像人类识别物体时关注的是形状、纹理,而不是每个像素点

第二步:构建OpenGAN架构

OpenGAN包含两个核心组件:

判别器D(Discriminator)

  • 输入:特征向量
  • 输出:该特征属于"已知类别"的概率
  • 作用:区分"已知"vs"未知"

生成器G(Generator)

  • 输入:随机噪声
  • 输出:假的"未知类别"特征
  • 作用:生成更多样的"未知"样本来训练判别器

第三步:对抗训练过程

这是核心!OpenGAN使用三种数据同时训练:

# 伪代码展示训练过程
for epoch in training:# 1. 真实的已知类别数据real_closed_features = extract_features(known_class_images)# 2. 真实的未知类别数据(少量)real_open_features = extract_features(outlier_images)# 3. 生成器创造的假未知数据noise = random_noise()fake_open_features = Generator(noise)# 训练判别器:让它学会区分已知和未知d_loss = - log(D(real_closed_features))           # 已知类别应该得高分- λ_o * log(1-D(real_open_features))     # 真实未知应该得低分  - λ_G * log(1-D(fake_open_features))     # 生成未知应该得低分# 训练生成器:让它生成能骗过判别器的"未知"特征g_loss = - log(1-D(Generator(noise)))  # 生成的特征要能骗过判别器

关键参数解释

  • λ_o:控制真实异常数据的重要性
  • λ_G:控制生成假数据的重要性
  • λ_o=0时,就是OpenGAN-0(不使用真实异常数据)

第四步:模型选择的巧妙方法

传统GAN的问题

  • 训练到最后,生成器太强了,判别器分不出真假
  • 判别器失去了区分"已知"和"未知"的能力

OpenGAN的解决方案

  1. 在训练过程中保存多个判别器快照
  2. 用少量真实的异常数据作为验证集
  3. 选择在验证集上表现最好的判别器
# 模型选择过程
best_auroc = 0
best_discriminator = Nonefor checkpoint in training_checkpoints:discriminator = load_checkpoint(checkpoint)auroc = evaluate_on_validation_set(discriminator, validation_outliers)if auroc > best_auroc:best_auroc = aurocbest_discriminator = discriminator# 使用最佳判别器进行最终预测

第五步:实际应用

在测试时

def predict_open_set(test_image):# 1. 提取特征features = pretrained_classifier.extract_features(test_image)# 2. 用OpenGAN判别器打分confidence = best_discriminator(features)# 3. 做决策if confidence > threshold:# 进行正常的K类分类class_prediction = pretrained_classifier(test_image)return class_predictionelse:return "UNKNOWN_OBJECT"  # 未知物体

相关文章:

OpenGAN:基于开放数据生成的开放集识别

简介 简介:这次学习的OpenGAN主要学习一个思路,跳出传统GAN对于判断真假的识别到判断是已知种类还是未知种类。重点内容不在于代码而是思路,会简要给出一个设计的代码。 论文题目:OpenGAN: Open-Set Recognition via Open Data …...

【node】Express创建服务器

Express是基于Node.js平台,快速、开放、极简的Web开发框架。基于http的express是专门用来创建web服务器的,可以极大的提高开发效率。 Express的创建的服务器 1 web网站服务器 专门对外提供web网页资源的服务器 2 Api接口服务器 专门对外提供Api接口的服…...

使用 OpenCV 实现哈哈镜效果

在计算机视觉和图像处理领域,OpenCV 提供了非常强大的图像几何变换能力,不仅可以用于纠正图像,还能制造各种“有趣”的视觉效果。今天,我们就来实现一个经典的“哈哈镜”效果,让图像像在游乐园里一样被拉伸、压缩、扭曲…...

DeepSeek-R1-0528 模型最新发布:编程推理能力跃升

2025年5月28日,深度求索(DeepSeek)通过Hugging Face平台悄然发布推理模型DeepSeek-R1-0528 Hugging Face Deepseek-R1-0528模型地址。尽管官方称其为"minor update",但社区实测显示,该版本在编程能力、复杂推…...

git仓库服务gogs详解

Gogs(Go Git Service)是一个使用 Go 编写的自助 Git 服务,旨在提供一个轻量级、易部署、高效的 Git 代码托管平台。它类似于 GitHub、GitLab,但更轻量,非常适合私有化部署、小型团队和嵌入式环境。下面是对 Gogs 的详细…...

PaddleNLP 的文本分类项目

以下是一个基于 PaddleNLP 的文本分类项目,按照标准工程结构组织,并包含测试数据集和完整流程。这个示例使用ERNIE模型处理IMDB电影评论情感分析任务。 项目工程结构 ernie_sentiment_analysis/ ├── data/ # 数据集目录 │ ├─…...

git 一台电脑一个git账户,对应多个仓库ssh

生成ssh # 为账户A生成SSH密钥 ssh-keygen -t rsa -b 4096 -C "your_email_for_account_Aexample.com" -f ~/.ssh/id_ed25519 # 为账户B生成SSH密钥 ssh-keygen -t rsa -b 4096 -C "your_email_for_account_Bexample.com" -f ~/.ssh/id_rsa_yswq进入文件…...

node-DeepResearch开源ai程序用于深入调查查询,继续搜索、阅读网页、推理,直到找到答案

​一、软件介绍 文末提供程序和源码下载 node-DeepResearch开源ai程序用于深入调查查询,继续搜索、阅读网页、推理,直到找到答案。 重要提示 与 OpenAI/Gemini/Perfasciity 的“深度研究”不同,我们只专注于通过迭代过程找到正确的答案 。我…...

Asp.Net Core 托管服务

文章目录 前言一、说明二、使用步骤1.创建托管服务方式一:继承 BackgroundService方式二:直接实现 IHostedService 2.注册托管服务3.处理作用域服务4.使用定时器(System.Threading.Timer)5.结合 Quartz.NET 实现复杂调度 三、. 注…...

Dockerfile 编写经验:优化大小与效率

文章目录 Dockerfile 通用的技巧总结1. 使用多阶段构建2. 最小化层数3. 彻底清理4. 选择合适的基镜像5. 仅安装必要的依赖6. 利用构建缓存 常见陷阱总结 Dockerfile 通用的技巧总结 1. 使用多阶段构建 利用多阶段构建分离构建和运行时环境,仅将必要的产物&#xff…...

JMeter 是什么

JMeter 是一款由 Apache 基金会开发的 开源性能测试工具,主要用于对 Web 应用、API、数据库、消息队列等系统进行 压力测试、负载测试和功能测试。它通过模拟大量用户并发操作,帮助开发者评估系统的性能、稳定性和扩展能力。以下是其核心特性和使用详解&…...

压测服务器和线上环境的区别

在进行服务器压测时,测试环境与线上环境的差异会直接影响测试结果的可靠性。以下是两者的关键区别及注意事项: ​1. 压测服务器的常见类型​ ​本地开发机​:低配虚拟机(如4核8GB),仅用于功能验证&#xf…...

C#、C++、Java、Python 选择哪个好

选择哪种语言取决于具体需求:若关注性能和底层控制选C、若开发企业级应用选Java、若偏好快速开发和丰富生态选Python、若构建Windows生态应用选C#。 以Python为例,它因语法简洁、开发效率高、应用广泛而在AI、数据分析、Web开发等领域大放异彩。根据TIOB…...

OpenGL Chan视频学习-8 How I Deal with Shaders in OpenGL

bilibili视频链接: 【最好的OpenGL教程之一】https://www.bilibili.com/video/BV1MJ411u7Bc?p5&vd_source44b77bde056381262ee55e448b9b1973 函数网站: docs.gl 说明: 1.之后就不再整理具体函数了,网站直接翻译会更直观也…...

机器学习课程设计报告 —— 基于口红数据集的情感分析

目录 一、课程设计目的 二、数据预处理及分析 2.1 数据预处理 2.2 数据分析 三、特征选择 3.1 特征选择的重要性 3.2 如何进行特征选择 3.3 特征选择的依据 3.4 数据集的划分 四、模型训练与模型评估 4.1 所有算法模型不调参 4.2 K-近邻分类模型 4.3 GaussianNB模…...

Windows安装Docker部署dify,接入阿里云api-key进行rag测试

一、安装docker 1.1 傻瓜式安装docker Get Docker | Docker Docs Docker原理(图解秒懂史上最全)-CSDN博客 官网选择好windows的安装包下载,傻瓜式安装。如果出现下面的报错,说明主机没有安装WSL 1.2 解决办法 安装 WSL | Mic…...

Dify中 SYSTEM, USER, ASSISTANT 的关系、职责与使用方法

在Dify这类对话式AI应用构建平台中,SYSTEM, USER, ASSISTANT 这三种消息类型共同定义了与大型语言模型(LLM)交互的结构和上下文。它们的关系可以理解为: SYSTEM: 扮演着“导演”或“场景设定者”的角色。USER: 扮演着“提问者”或“任务发起者”的角色。ASSISTANT: 扮演着“…...

斗地主游戏出牌逻辑用Python如何实现

在Python中实现斗地主的出牌逻辑需要结合游戏规则与数据结构设计,以下是核心实现思路和代码示例: 一、基础数据结构设计 1. 扑克牌表示 用类或字典表示每张牌的花色和点数,例如: class Card: def __init__(self, suit, rank): sel…...

ST-GCN

1.bash 安装git 在目录下右键使用git bash打开 需要安装wgetbash download_model.sh,下载.sh文件 wget: command not found,Windows系统使用git命令 下载预训练权重_sh文件下载-CSDN博客 bash tools/get_models.sh 生成了三个.pt文件...

【ArcGIS Pro草履虫大师】空间地图系列

地图系列是根据单个布局来构建的页面集合。 正常情况下,一个布局只能导出一个页面,通过地图系列则可以通过不同的视图、动态元素,构建并导出多个页面。 地图系列发展自ArcMap的【数据驱动页面】功能。 ArcGIS Pro中有3个地图系列&#xff…...

1. 数据结构基本概念 (1)

本文部分ppt、视频截图来自:[青岛大学-王卓老师的个人空间-王卓老师个人主页-哔哩哔哩视频] 1. 数据结构基本概念 1.1 研究内容 数据结构是一门研究非数值计算的程序设计中计算机操作队形以及他们之间关系和操作的核心课程,学习的主要内容如下&#x…...

海思3519V200 上基于 Qt 的 OpenCV 和 MySql 配置开发

海思3519V200是一款高性能嵌入式处理器,广泛应用于智能安防、工业控制等领域。本文将详细介绍如何在海思3519V200 平台上基于 Qt 配置 OpenCV 和 MySql,以满足嵌入式开发中的多样需求。 一、开发环境搭建 (一)硬件环境 准备海思3519V200开发板一台,并确保其能够正常启动…...

php 设计模式详解

简介 PHP 设计模式是对软件开发中常见问题的可复用解决方案,通过标准化的结构提升代码的可维护性、扩展性和复用性。 创建型模式(对象创建) 关注对象的创建过程,解决 “如何灵活、安全地生成对象” 的问题。 单例模式&#xf…...

函数抓取图片microsoft excel与wps的区别

microsoft excel 写出index函数 找到图片所在的位置 INDEX(员工数据库!$H:$H,MATCH(Sheet1!$B$3,员工数据库!$A:$A,0))将index函数定义为名称 插入截图 插入-屏幕截图-屏幕剪辑 选中给截图插入定义的公式 WPS 直接写公式抓取...

openpi π₀ 项目部署运行逻辑(三)——策略推理服务器 serve_policy.py

π₀ 主控脚本都在 scripts 中: 其中,serve_policy.py 是 openpi 中的策略推理服务端脚本,作用为:启动一个 WebSocket 服务器,加载预训练策略模型,等待外部请求(如来自 main.py 的控制程序&…...

WEB3—— 简易NFT铸造平台(ERC-721)-入门项目推荐

3. 简易NFT铸造平台(ERC-721) 目标:用户可以免费铸造一个 NFT,展示在前端页面。 内容: 编写 ERC-721 合约,每个地址可铸造一个 NFT。 提供 API: POST /mint:铸造 NFT(调…...

基于vue框架的独居老人上门护理小程序的设计r322q(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表 项目功能:用户,护理人员,服务预约,服务评价,服务类别,护理项目,请假记录 开题报告内容 基于Vue框架的独居老人上门护理小程序的设计开题报告 一、研究背景与意义 (一)研究背景 随着社会老龄化的加剧,独居老…...

Android 15 控制亮屏灭屏接口实现

Android 15 控制亮屏灭屏接口实现 在 Android 系统开发中,控制设备的亮屏和灭屏是一个常见需求,尤其是在一些特定场景下,如智能家居控制、定时任务等。本文将详细介绍如何在 Android 15 中实现系统级别的亮屏和灭屏控制。 系统修改方案 为了实现更可靠的亮屏和灭屏控制,…...

【前端】Hexo一键生成目录插件推荐_放入Hexo博客

效果 使用 安装 npm install hexo-auto-toc插件会自动对<article>包含下的所有内容进行解析&#xff0c;自动生成目录。如果你的文章页面结构中内容没被<article>包裹&#xff0c;需要自行添加它&#xff08;即blog文件夹下的index.html&#xff09;查看效果 hex…...

每日一题——提取服务器物料型号并统计出现次数

提取服务器物料型号并统计出现次数 一、题目描述&#x1f4a1; 输入描述&#xff1a;&#x1f4e4; 输出描述&#xff1a; 二、样例示例&#x1f3af; 示例1&#x1f3af; 示例2 三、解题思路1. 子串提取策略&#xff1a;正则匹配2. 统计策略&#xff1a;哈希映射3. 输出策略 四…...