TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务
目录
一 文章动机
二 TSAD 领域内的两类缺陷
三 数据集的构建
四 实验结果及结论

项目宣传链接:TSB-AD
代码链接: TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark
原作者解读:NeurIPS 2024 | 时序异常检测基准 TSB-AD - 知乎
TSB - AD 与其他TSAD基准的全面对比:

一 文章动机
1. 长期以来,由于使用含缺陷的基准数据集、存在偏见的评估方法、不一致的基准实践,TSAD 领域面临诸多困扰;
2. Wu & Keogh 发起对 TSAD 数据集含缺陷的讨论:triviality, anomaly density, mislabeling, and
run-to-failure bias(异常标注琐碎、异常密度、标签错误、运行失败偏差);
3. UCR 数据集虽近期收到较多推崇,但仍存在重大缺陷:① 它忽视了某些时序异常区域;② 它通过 “人为引入” 时序异常;
4. “everyone wants to do the model work instead of the data work”, resulting in limited new efforts to produce a large-scale, high-quality dataset.(典中典的问题)
5. 存在偏见的评估方法(尤其指:“点调整” 后的指标):随机分数、噪音输入、“嘈杂” 输入会造成“进步错觉”:(*此处补充 SimAD 的示意图进行说明,不属于原文内容)

6. “模型预处理” 及 “模型评测方式” 的不一致,也会造成不合理的 TSAD 模型质量评估;
7. 指标推荐:VUS - PR、VUS - ROC 等;
二 TSAD 领域内的两类缺陷
① 基准数据集的缺陷:

(a) 漏标、误标:数据集标注者被许可访问并接触 “额外的、未批露的数据”,因此 “不显著” 的时序异常标记是合理的;然而数据集内存在 “相似” 时序被赋予 “不同” 标签,则不合理;TSB - AD 对其进行修正;
(b) 偏差现象:Yahoo 数据集通常在数据末端标注异常,使结果不合理地倾向将末端数据点预测为异常的算法;UCR 数据集仅标注最显著的异常现象,忽略对潜在异常的标注,此外,单变量时序不符合真实世界场景;
(c) 可行性、实用性:为 “分类” 任务设计的数据集被不恰当用于 “异常检测”,仅仅简单地将少数类重新分类为 “异常”;然而,“少数类” 的占比超出了 “异常” 的占比,不切实际的异常比率违反 “异常不应频繁发生” 的基本原则,与异常检测器的设计原则相悖;
② 评估指标的缺陷:

(a) AUC - ROC 不适配针对 “不平衡分类任务” 的模型评估,AUC - PR 更优;
(b) 基于点的一系列评估指标,对 “靠前或滞后(lag)” 检测到异常的行为过分敏感,惩罚力度过大,不够合理;
(c) 点调整(PA)假设检测到异常段内的任何点都被视为检测到该段内的所有点。然而,该指标倾向于支持 “有噪声” 的预测,随机分数也有机会预测真实异常序列中的点,性能与SOTA相当。随机生成的预测在点调整下甚至优于SOTA方法;异常平均长度增加时,点调整后的F分数接近1。
三 数据集的构建


四 实验结果及结论
1. 各类模型在 "TSB - AD - U"(单变量)及 "TSB - AD - M"(多变量)数据集上的整体实验结果:

2. 对 各类“模型评测指标” 的评估实验:


3. 部分有价值的结论:
1. 统计方法表现出稳健的性能,而神经网络方法并未表现出通常被认为的优势。然而,神经网络和基础模型在检测点异常以及处理多变量场景时仍展现了较大的潜力;
2. 简单的架构(如:CNN 和 LSTM)通常优于更复杂的设计(如:高级 Transformer 架构);
3. 基础模型在检测基于点的异常方面表现出色,但在处理序列异常时表现较弱,主要原因在于其预测机制仅基于有限的回溯窗口逐步估算新的值。当面对长序列异常时,受限的时间上下文往往导致性能下降和噪声较大的得分。此外,使用有缺陷的点调整技术(偏向这些噪声得分)进一步加剧了问题,导致进展的假象;
4. 时间序列基础模型的表现展现出极大潜力:它们在微调后不仅能取得良好表现,还在零样本能力上优于大多数现有的统计方法和神经网络方法。然而,基础模型的主要担忧是由于预训练数据规模庞大,可能导致数据污染,因此在实际部署时需谨慎;
5. 将大型语言模型(LLM)应用于时间序列异常检测的努力结果并不令人满意,表明该领域仍存在显著的研究空白;
6. 在表现最佳的方法中,Sub-PCA 和 KShapeAD 表现出色,尽管它们多年来一直被忽视为基本基线,且未在先前的广泛评估研究中被发现。CNN 和 OmniAnomaly 在多变量场景中的强劲表现 — 与之前的基准结果相反,当时 KMeansAD 被认为更优 — 表明多变量时间序列中的复杂场景需要更高的建模能力,通常超出统计方法的范围。
相关文章:
TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务
目录 一 文章动机 二 TSAD 领域内的两类缺陷 三 数据集的构建 四 实验结果及结论 项目宣传链接:TSB-AD 代码链接: TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark 原作者解读:NeurIPS 2…...
下载 CSS 文件阻塞,会阻塞构建 DOM 树吗?会阻塞页面的显示吗?
下载 CSS 文件会对页面的渲染过程产生影响,具体是否阻塞 DOM 树的构建和页面的显示,取决于浏览器的渲染机制。 1. CSS 文件下载是否会阻塞 DOM 树的构建? 一般情况下,CSS 文件下载不会阻塞 DOM 树的构建: DOM 树的构建…...
6个月的Go语言学习甘特图路线图 从零基础到项目实战
以下是为期6个月的Go语言学习甘特图(2025年4月-2025年10月),包含详细阶段划分、对应资源及项目产出文档说明: #mermaid-svg-yQbkZCpCAXv6iXKC {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fi…...
论文阅读:2023-arxiv Can AI-Generated Text be Reliably Detected?
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328 文章目录 Abstract(摘要)1 Introduction(引言)Conclusion(结论) Can AI-Generated Text be Reliably D…...
查看IP地址/Ping 命令
目录 Windows Linux macOS Ping 命令 Windows 使用终端: 按下 Win R 键,打开“运行”对话框,输入 cmd 并按 Enter。 在命令提示符中输入 ipconfig,按 Enter。系统会显示网络适配器的详细信息,包括 IPv4 地址、子…...
Language Models are Few-Shot Learners,GPT-3详细讲解
GPT的训练范式:预训练Fine-Tuning GPT2的训练范式:预训练Prompt predict (zero-shot learning) GPT3的训练范式:预训练Prompt predict (few-shot learning) GPT2的性能太差,新意高&…...
鸿蒙编译框架@ohos/hvigor FileUtil用法
ohos/hvigor FileUtil用法 在鸿蒙(HarmonyOS)开发中,ohos/hvigor 的 FileUtil 是用于文件操作的实用工具类,提供了跨平台的文件读写、路径处理等常用方法。以下是其核心用法和示例: 一、核心方法说明 方法名功能描…...
Hoppscotch 开源API 开发工具
Hoppscotch 是一个开源的 API 开发工具,旨在为开发者提供一个轻量级、快速且功能丰富的 API 开发和调试平台。以下是对其主要特性和功能的详细介绍: 1. 轻量级与高效 Hoppscotch 采用简约的 UI 设计,注重易用性和高效性。它支持实时发送请求…...
Infura 简介
文章目录 Infura 简介Infura 的主要功能Infura 的替代方案(类似服务)AlchemyQuickNodeAnkrMoralisPocket Network 什么时候选择 Infura? Infura 简介 Infura 是一个 区块链基础设施即服务(BaaS, Blockchain as a Service…...
【芯片验证】面试题·对深度为60的数组进行复杂约束的技巧
朋友发给我的芯片验证笔试题,觉得很有意思,和大家分享一下。 面试题目 class A中一个长度为60的随机数组rand int arr[60],如何写约束使得: 1.每个元素的值都在(0,100]之间,且互不相等; 2.最少有三个元素满足勾股数要求,比如数组中包含3,4,5三个点; 请以解约束最快…...
Manus “Less structure,More intelligence ”独行云端处理器
根据市场调研机构Statista数据显示,全球的AR/AR的市场规模预计目前将达到2500亿美元,Manus作为VR手套领域的领军企业,足以颠覆你的认知。本篇文章将带你解读Manus产品,针对用户提出的种种问题,Manus又将如何解决且让使…...
【再读】R1-Onevision通过跨模态形式化为复杂多模态推理任务提供了系统性解决方案
R1-Onevision:跨模态形式化驱动的多模态推理技术突破,R1-Onevision通过跨模态形式化、双阶段训练和教育级基准测试,为多模态推理树立了新标杆。其技术创新不仅提升了模型在复杂任务中的表现,更重要的是为行业提供了一种可解释、可迁移的多模态处理范式。随着形式化方法的不断…...
Mysql-经典实战案例(3): pt-archiver 实现 MySQL 千万级大表分库分表(上)
零基础实战:使用 pt-archiver 实现 MySQL 千万级大表的水平分表(Hash分片) 本文适合人群:MySQL新手、想低成本实践数据库分表的开发者 环境要求:MySQL 5.7、Linux系统(建议CentOS/Ubuntu) 你将学…...
使用JSON存储数据的场景
Json 作为一种通用的数据格式,由于其结构灵活、可拓展等特点,在某些场景下我们也会直接将数据以 Json 格式存储到数据库中。 本文将探讨在开发中使用 JSON 存储数据的常见场景,并通过具体的实例帮助大家更好地理解其应用。 1. 半结构化数据…...
文生图网站推荐(2025.3)
以下是2024-2025年期间值得推荐的文生图网站,综合了免费性、中文友好度、操作便捷性及功能特色,涵盖不同用户需求: 一、国内主流平台 通义万相(阿里云) 特点:每日免费50次生成,模型和风格多样&a…...
网页制作代码html制作一个网页模板
制作一个简单而实用的网页模板:HTML基础入门 在数字时代,网页已成为信息展示和交流的重要平台。HTML(HyperText Markup Language)作为网页制作的基础语言,为开发者提供了构建网页的基本框架。本文将带你了解如何使用H…...
AI视觉测试工具实战评测:以Applitools为例的技术解析与行业应用
在数字化转型的浪潮中,软件界面(UI/UX)的复杂性与迭代速度呈指数级增长。传统的人工视觉测试不仅耗时费力,且难以应对多平台、多分辨率下的界面一致性问题。AI视觉测试工具的出现,通过智能图像识别与自动化对比&#x…...
SSM框架——Spring面试题
Spring常见面试题 Spring框架中的单例bean是线程安全的吗 不是线程安全的 Spring框架中有一个Scope注解,默认的值就是singleton,单例的。 因为一般在spring的bean的中都是注入无状态的对象,没有线程安全问题,如果在bean中定义了可…...
华为OD机试 - 计算观看演唱会场次(Java 2023 B卷 200分)
题目描述 为了庆祝中国共产党成立100周年,某公园将举行多场文艺表演。由于演出分布在不同的场地,一个人只能同时观看一场演出,且不能迟到早退。连续观看的演出之间最少需要有15分钟的时间间隔。小明是一个狂热的文艺迷,想观看尽可…...
云原生大佬重生,记忆逐步复苏(十三:selinux模块)
目录 1:什么是selinux 1.1 SELinux 的作用 1.2. SELinux 的工作原理 1.3. SELinux 的运行模式 2:解析selinux文件上下文标签策略 3:selinux的布尔值 4:调查和解决selinux问题 1:什么是selinux SELinux(Security-Enhanced L…...
Redis hyperloglog学习
背景知识 【伯努利试验】: 【伯努利试验】是一个概率论中的概念,指在相同的条件下重复进行n次独立的试验,每次试验只有两种可能的结果,且这两种结果发生的概率是固定的 抛硬币作为伯努利试验:在抛硬币时,我…...
MySQL高频八股——事务过程中Undo log、Redo log、Binlog的写入顺序(涉及两阶段提交)
大家好,我是钢板兽! 在上一篇文章中,我分别介绍了 Undo Log、Redo Log 和 Binlog 在事务执行过程中的作用与写入机制。然而,实际应用中,这三种日志的写入是有先后顺序的。因此,本篇文章将深入探讨它们的写…...
二阶近似 是什么意思
二阶近似 是什么意思 一、二阶近似的概念与举例 二阶近似是数学分析中通过泰勒展开对函数进行近似的方法,保留到二阶项(即包含一阶导数和二阶导数)。在优化问题(如模型训练)中,常用于近似损失函数,帮助更精准地更新模型参数。 举例: 假设损失函数为 L ( θ ) \mathc…...
Oracle GoldenGate 全面解析
Oracle GoldenGate 全面解析 Oracle GoldenGate 是一种实时数据集成和复制解决方案,广泛应用于数据同步、数据库迁移、高可用性和灾难恢复等场景。以下将详细解答您提出的关于 Oracle GoldenGate 的一系列问题。 1. Oracle GoldenGate 的架构组成及其核心组件的作用 架构组成…...
C++进阶——AVL树的实现
1、AVL的概念 1.1 AVL 树的发明 AVL 树由 G.M. Adelson-Velsky 和 E.M. Landis 在 1962 年的论文《An algorithm for the organization of information》中提出。他们的设计目标是解决二叉搜索树在动态操作(插入、删除)中可能退化为链表的问题。 1.2 …...
S32K144入门笔记(十三):LPIT的API函数解读
目录 1. SDK中的函数 2. API函数的释义 2.1 获取默认参数 2.2 初始化 2.3 启动与停止 2.4 计数值的设置于读取 2.5 中断API 1. SDK中的函数 在使用SDK的非抽象驱动函数时,函数的定义与声明在文件lpit_driver.c和lpit_driver.h中,一共有19个函数&a…...
打包当前Ubuntu镜像 制作Ubuntu togo系统
我的系统的基本情况说明: 我原来的系统的具体型号如下: uname -rLinux Engine 5.15.0-134-generic #145~20.04.1-Ubuntu SMP Mon Feb 17 13:27:16 UTC 2025 x86_64 x86_64 x86_64 GNU/Linux我原来的硬盘以及分区策略如下: 可以看到我的分区…...
系统架构设计师—案例分析—架构设计
文章目录 经典架构风格对比面向对象架构风格/显示调用风格优点缺点举例 事件驱动的系统/隐式调用风格优点缺点举例 基于规则的系统架构风格优点缺点举例 管道过滤器风格优点缺点举例 仓库风格优点缺点举例 解释器风格优点缺点举例 分层架构风格优点缺点举例 经典架构风格对比 …...
基于javaweb的SpringBoot智能相册管理系统图片相册系统设计与实现(源码+文档+部署讲解)
技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…...
Android 14 Telephony 网络选择功能介绍
一、总体介绍 (一)功能 手动搜网的流程:用户通过UI触发,调用TelephonyManager的API,比如startNetworkScan,然后这个请求会传递到RIL层,通过AT命令与基带通信,进行网络扫描。结果返回后,经过TelephonyRegistry通知应用层。中间可能涉及IPC,比如Binder通信,因为应用和…...
