当前位置: 首页 > news >正文

GADBench Revisiting and Benchmarking Supervised Graph Anomaly Detection

Neurips 23
推荐指数: #paper/⭐⭐⭐
领域:图异常检测

胡言乱语:

neurips 的benchmark模块的文章总能给人一些启发性的理解,这篇的insight真有意思。个人感兴趣的地方会加粗。此外,这篇文章和腾讯AIlab合作,有腾讯背书

文章的背景

缺陷

  1. 缺乏有监督GAD benchmark
    1. 缺乏树集成与GNN之间的比较研究
    1. 缺乏对大数据集的探索
  2. 发现

    1. 有邻居聚合的数集成比大部分模型的性能都好
    1. 大部分的标准数据集都不适合GAD task
    1. 针对GAD进行针对性设计的GNN需要超参微调才能取得满意的性能
  3. 我们的贡献

    1. 提出了GADBench
      10.2. 使用公平和严格的比较方法

相关工作

GAD的简介

GAD其实可以视为二分类问题。但是,仍然有下列的挑战:

  1. 异常节点通常是整个数据集的一小部分,这会导致数据的不平衡问题。
    1. 异常节点通常展现强异配性,这就需要对于传播函数的改造
    1. 异常节点倾向于掩盖其特征和链接,通过模仿图中的正常模式来无缝混合
  2. 本文涉及的方法:

  3. 文章配图
  4. 标准GNN即常见的GNN,
  5. specializedGNN

  6. specialized GNN通常需要专门的设计。
  7. 重点提及一下光谱GNN,光谱GNN提供了一个新的观点,将图形异常与高频频谱分布联系起来例如,BWGNN 应用Beta内核通过灵活且局部化的带通过滤器来管理较高频率的异常。AMNet 捕获低频和高频信号,自适应地积分不同频率的信号。
    10.### 有邻居集合的树集成
    h v i ( l ) = Aggregate { h v j ( l − 1 ) ∣ v i ∈ Neighbor ( v j ) } Score ⁡ ( v i ) = TreeEnsemble ( [ h v i 0 ∣ ∣ h v i 1 ∣ ∣ ⋯ ∣ ∣ h v i L ] ) . \begin{aligned} \boldsymbol{h}_{v_i}^{(l)}& =\text{Aggregate}\{\boldsymbol{h}_{v_j}^{(l-1)}|v_i\in\text{Neighbor}(v_j)\} \\ \operatorname{Score}(v_i)& =\text{TreeEnsemble}([\boldsymbol{h}_{v_i}^0||\boldsymbol{h}_{v_i}^1||\cdots||\boldsymbol{h}_{v_i}^L]). \end{aligned} hvi(l)Score(vi)=Aggregate{hvj(l1)viNeighbor(vj)}=TreeEnsemble([hvi0∣∣hvi1∣∣∣∣hviL]).
    AGGRATE可以是任何聚合函数,比如mean,max,polling。
    在GADBench中,我们利用Random Forest和XGboost实例化两个具有邻居聚合的新树集成基线,称为RF-Shape和XGB-Shape。

数据集介绍

文章配图

分割

全监督场景,我们一般使用4/2/4的划分,具体的划分见数据集介绍。对于半监督场景,在先前的研究中,经常采取1%或者5%,然而,因为图数目的变化,固定碧梨的训练模型可能导致训练集规模的据他差异。因此我们队所有的训练集进行标准化:一共100个标签,20异常标签,80正常节点。

Insight

文章配图

带有邻居聚合的树聚集成有着超强的性能

大部分标准GNN都不适合GAD

但是,有一个例外:GraphSage展现了优越的性能,甚至有时可以和专门设计的GNN比较。个人认为,GraphSAGE可以捕获自己和邻居的不同(GraphSAGE在聚合中将自身节点和邻居节点拼接在一起,这就意味着可以收货自己与周围节点的异同信息,这是其他标准GNN所不具备得

专门设计的GNN需要复杂的调参才可以取得满意的性能

异构图的增强可能只在部分数据集上起作用

文章配图
如图所示,异构图只在Yelp上有增强效果,在Amazon上比不过同配图

聚合层数对于数集成的影响

文章配图

为什么决策树的性能会更好?

文章配图
异常实例往往会形成多个分散的集群,并与正常实例相结合,这些实例属于RF-Shape和XGB-Shape的感性偏差类别,有利于复杂且不相交的决策边界。相比之下,由于GNN通常使用MLP作为最终层,因此它们往往会生成简单且连续的决策边界,这使得GNN在一些具有挑战性的GAD数据集上表现不佳。其实就是insights:用简单的MLP不行,得设计的更复杂。但是,异常检测脱胎与图神经网络,其比较本质上就是比较嵌入的良好程度,个人觉得GNN后接更复杂的分类损失,也可以取得像树集成类似的效果

分析数据集的影响

如数据集简介所示,所示,在GADB的10个数据集中,有3个数据集纯粹使用文本嵌入作为节点特征,而在其余7个数据集中,节点特征包含各种信息,例如数字、分类和时间特征的组合。值得注意的是,对于依赖于基于文本的特征的数据集–即Reddit、weibo和Question–GNN展示了与包括树集成在内的其他方法相比具有竞争力的性能。这可以归因于文本嵌入的性质:它们通常表示高维特征空间中的低维流形,其中维度往往高度相关。GNN可以同时处理所有这些维度,而单个决策树可能只考虑功能列的有限子集。相反,在其他7个具有低相关性的不同特征类型(例如,性别和年龄信息)的数据集中,具有邻居聚集的树集成通常表现出更好的性能。

相关文章:

GADBench Revisiting and Benchmarking Supervised Graph Anomaly Detection

Neurips 23 推荐指数: #paper/⭐⭐⭐ 领域:图异常检测 胡言乱语: neurips 的benchmark模块的文章总能给人一些启发性的理解,这篇的insight真有意思。个人感兴趣的地方会加粗。此外,这篇文章和腾讯AIlab合作&#xff…...

某象异形滑块99%准确率方案

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架 该文章模型已经上线ocr识别网站,欢迎测试!!,地址:https://yxlocr.windy-rain.cn/ocr/slider/6 所谓的顶象异形滑块,是指没有采用常规的缺口,使用各种形状的…...

CDN绕过学习

1.什么是CDN? CDN就是分布在各个地区的服务器,这些服务器储存着数据的副本。 哪些服务器比较接近你,当你发起请求时,提前就会快速为你提供服务。 总结来说就是: 其实就是用来加速访问的,以及缓解压力&a…...

SpringBoot日常:redission的接入使用和源码解析

文章目录 一、简介二、集成redissionpom文件redission 配置文件application.yml文件启动类 三、JAVA 操作案例字符串操作哈希操作列表操作集合操作有序集合操作布隆过滤器操作分布式锁操作 四、源码解析 一、简介 Redisson 是一个在 Redis 的基础上实现的 Java 驻内存数据网格…...

npm包管理深度探索:从基础到进阶全面教程!

目录 一、npm概述1、npm简介(1)什么是npm?(2)npm的核心功能(3)npm的工作原理(4)npm的优势(5)npm的局限性(6)总结 2、npm的…...

最新免费GPT4O和Midjourney

一、什么是GPT4O? GPT-4 是 OpenAI 研发的大型语言模型。它具有强大的语言理解和生成能力,在自然语言处理等诸多领域有着广泛的应用和表现。 二、什么是Midjourney? Midjourney 是一款人工智能图像生成工具。它可以根据用户输入的描述或提…...

python操作OpenAI教程

python操作OpenAI pip install -U openai代码: from openai import OpenAI# 解决请求超时问题 import os os.environ["http_proxy"] "http://localhost:7890" os.environ["https_proxy"] "http://localhost:7890"# 需要…...

如何版本REST API:综合指南

目录 总则什么是REST API版本控制?为什么API版本控制很重要?如何对REST API进行版本控制 理解API契约评估需求选择版本控制策略沟通变化保持向后兼容性详细文档记录REST API版本控制最佳实践REST API版本控制常见问题:REST API版本控制总则 版本化REST API对于确保软件应用…...

Docker 环境下 Nginx 监控实战:使用 Prometheus 实现 Nginx 性能监控的完整部署指南

Docker 环境下 Nginx 监控实战:使用 Prometheus 实现 Nginx 性能监控的完整部署指南 文章目录 Docker 环境下 Nginx 监控实战:使用 Prometheus 实现 Nginx 性能监控的完整部署指南一 查看模块是否安装二 配置 status 访问端点三 Docker 部署 nginx-prome…...

网络安全-IPv4和IPv6的区别

1. 2409:8c20:6:1135:0:ff:b027:210d。 这是一个IPv6地址。IPv6(互联网协议版本6)是用于标识网络中的设备的一种协议,它可以提供比IPv4更大的地址空间。这个地址由八组十六进制数字组成,每组之间用冒号分隔。IPv6地址通常用于替代…...

【移动端】事件基础

一、移动端事件分类 移动端事件主要分为以下几类: 1. 触摸事件(Touch Events) 触摸事件是移动设备特有的事件,用来处理用户通过触摸屏幕进行的操作。主要的触摸事件有: touchstart:手指触摸屏幕时触发。…...

软件测试比赛-学习

一、环境配置 二、浏览器适配 //1.设置浏览器的位置,google浏览器位置是默认且固定在电脑里的//2.设置浏览器驱动的位置,C:\Users\27743\AppData\Local\Google\Chrome\ApplicationSystem.setProperty("webdriver.chrome.driver", "C:\\Users\\27743\\AppData\\…...

力扣LeetCode-链表中的循环与递归使用

标题做题的时候发现循环与递归的使用差别: 看两道题: 两道题都是不知道链表有多长,所以需要用到循环,用到循环就可以把整个过程分成多个循环体,就是每一次循环要执行的内容。 反转链表: 把null–>1…...

AFSim仿真系统 --- 系统简解_08 传感器与特征

传感器与特征 传感器是平台的一部分,为拥有该平台提供了探测其他平台及其组成部分的能力。 特征是平台的一种属性,用于确定特定传感器是否能够探测到特征所拥有的平台。 以下是用于探测平台的一些特征属性列表: 声学红外光学雷达 AFSIM …...

已经安装了qt,想添加mingw组件,包含gcc等

1、已经安装了qt,想添加mingw组件, 步骤1 双击打开MaintenanceTool.exe, 步骤2: 选择清华大学开源软件镜像网站,选择相应QT版本添加网址https://mirrors.tuna.tsinghua.edu.cn/qt/online/qtsdkrepository/windows_x8…...

数据库管理-第250期 深入浅出多主多活数据库技术- Cantian存储引擎(一)(20241009)

数据库管理250期 2024-10-09 数据库管理-第250期 深入浅出多主多活数据库技术- Cantian存储引擎(一)(20241009)1 简介2 引擎构成3 引擎架构4 文件分布5 分布式MVCC6 限制/要求总结 数据库管理-第250期 深入浅出多主多活数据库技术…...

信号用wire类型还是reg类型定义

wire类型就是一根线,线有两端,一端发生改变,经过线传递的信号当然也会发生改变,reg类型则不同,可以把reg类型理解为存储数据的寄存器,当满足一定条件时,数值才被激活发生改变。 那么&#xff0…...

与鸿蒙同行,Java Solon v3.0 正式发布(向下兼容)

与 HarmonyOS NEXT 10月8日公测同行。Solon (开放原子开源基金会,孵化项目) v3.0 正式发布, 且将在 2025 年启动华为编程语言 “仓颉” 版开发(届时会有 Solon-Java 和 Solon-CJ 两大版本)。本次大版本更新…...

数据驱动投资:AI在股票市场的应用

当ChatGPT首次亮相时,其卓越的语言处理能力立刻引起了许多行业的广泛关注,投资界也不例外。关于ChatGPT是否能应用于投资决策的问题,迅速成为热门讨论的焦点。 近期,加拿大多伦多大学和印度孟买理工学院的研究人员联合开展了一项…...

Tita使用小技巧:项目类型自定义,业务管理个性化

应用场景 某互联网企业,企业内部有研发部,有销售部 研发部通常需要管理各种技术研发类型项目,因此需要管理「研发型」项目,该类型项目需要明确「所属产品」、「级别管理:国家级/省市级」、「项目类别:创新…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造,完美适配AGV和无人叉车。同时,集成以太网与语音合成技术,为各类高级系统(如MES、调度系统、库位管理、立库等)提供高效便捷的语音交互体验。 L…...

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...

Rust 异步编程

Rust 异步编程 引言 Rust 是一种系统编程语言,以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天,异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。 异步编程基础 什么是异步…...

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念,确保一个租户(在这个系统中可能是一个公司或一个独立的客户)的数据对其他租户是不可见的。在 RuoYi 框架(您当前项目所使用的基础框架)中,这通常是通过在数据表中增加一个…...

处理vxe-table 表尾数据是单独一个接口,表格tableData数据更新后,需要点击两下,表尾才是正确的

修改bug思路: 分别把 tabledata 和 表尾相关数据 console.log() 发现 更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行 升级↑:async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的微信小程序问卷调查系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】,分享下哈。 项目视频演示 【免费】微信小程序问卷调查系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…...

RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型(Vision-Language Models, VLMs),为真实环境中的机器人操作任务提供了极具潜力的解决方案。 尽管 VLMs 取得了显著进展,机器人仍难以胜任复杂的长时程任务(如家具装配),主要受限于人…...

解读《网络安全法》最新修订,把握网络安全新趋势

《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...