当前位置：首页 > news >正文

PubDef：使用公共模型防御迁移攻击

news 2026/2/8 16:15:07

对抗性攻击对机器学习系统的可靠性和安全性构成了严重威胁。通过对输入进行微小的变动，攻击者就可以导致模型生成完全错误的输出。防御这种攻击是一个很活跃的研究领域，但大多数提议的防御措施都存在重大的缺点。

这篇来自加州大学伯克利分校研究人员的论文则介绍了一种名为PubDef的新防御方法，在这个问题上取得了一些进展。在保持干净输入准确性的同时，PubDef在面对现实攻击时获得了更高的稳健性。本文解释了这项研究的背景、PubDef的工作原理、结果及其局限性。

对抗性威胁领域

人们研究了许多类型的对抗性攻击，最常见的是白盒攻击。在这里，攻击者可全面访问模型的参数和架构。这让他们得以计算梯度，以精确地设计导致错误分类的输入。像对抗性训练这样的防御措施已经被提议，但它们在面对干净输入时性能会大大降低。

迁移攻击更现实。攻击者使用可访问的代理模型来设计对抗性示例。他们希望这些迁移骗过受害者的模型。迁移攻击很容易执行，并且不需要访问受害者模型。

基于查询的攻击对模型进行重复查询以推断其决策边界。一些防御措施通过监视使用情况来检测和限制这些攻击。

总的来说，迁移攻击在实践中非常合理，但无法通过典型的防御措施来加以解决，比如对抗性训练或限制查询的系统。

博弈论观点

图1. 该论文的配图显示了一个威胁模型，低成本攻击者使用公共模型进行迁移攻击，还显示了PubDef防御

PubDef专门旨在抵抗来自公开可用模型的迁移攻击。作者将攻防之间的交互描述为一种游戏：

攻击者的策略是选择一个公共源模型和攻击算法来设计对抗性示例。
防御者的策略是为模型选择参数，使其具有稳健性。
博弈论为最佳策略的推理提供了工具。重要的是，防御者可以同时针对来自多个源模型的攻击进行训练。这种类似集成的方法使模型对各种攻击具有稳健性。

PubDef的工作原理

PubDef通过以下方式训练模型：

1. 选择一组不同的公开可用源模型。

2. 使用训练损失，最大限度地减少来自这些源模型的迁移攻击的错误。

这种对抗性训练过程调整模型，以抵抗从公共源迁移过来的特定威胁模型。

训练损失根据当前的错误率对每个攻击动态加权。这侧重于训练最有效的攻击。

源模型的选择涵盖不同的训练方法：标准、对抗性和破坏稳健性等。这提供了对未知攻击的广泛覆盖。

试验结果

论文作者们在CIFAR-10、CIFAR-100和ImageNet数据集上针对264个不同的迁移攻击评估了PubDef。

结果显示，PubDef明显优于之前的防御措施，比如对抗性训练：

在CIFAR-10上，PubDef达到了89%的准确率，而对抗性训练只达到了69%的准确性。
在CIFAR-100上，准确率为51%比33%。
在ImageNet上，准确率为62%比36%。

值得注意的是，PubDef实现了这一改进，并且面对干净输入的准确性几乎没有下降：

在CIFAR-10上，准确率仅从96.3%下降到96.1%。
在CIFAR-100上，准确率从82%下降到76%。
在ImageNet上，准确率从80%下降到79%。

图2. PubDef实现了这一改进，面对干净输入的准确性几乎没有下降

因此，与对抗性训练相比，PubDef提供了更好的稳健性，对未受扰动的数据的性能影响要小得多。

局限性和未来工作

PubDef特别关注来自公共模型的迁移攻击，解决不了白盒攻击等其他威胁。另外一些限制如下：

依赖模型保密。
可以通过训练一个私人代理模型来加以规避。
需要防御基于查询的攻击的其他方法。

鉴于预期范围，PubDef提供了与实际攻击者能力相一致的实用防御。但还需要做进一步的工作，才能处理其他威胁，并减轻对保密的依赖。

总的来说，这项工作在可部署防御方面取得了重大进展。通过针对一个合理的威胁模型，稳健性的提高几乎是免费的，精确度损耗最小。这些想法有望推动进一步的研究，从而产生更有效和实用的防御措施。

结论

对抗性攻击为部署可靠的机器学习系统提出了一个紧迫的挑战。虽然已提议了许多防御措施，但很少有防御措施在面对干净输入不降低性能的情况下在稳健性方面取得实质性进展。

PubDef代表着朝开发可以实际部署在实际系统中的防御迈出了大有希望的一步。在处理其他类型的攻击和对模型保密减轻依赖的程度方面仍有工作要做。然而，这里介绍的技术（即通过博弈论为模型建立交互、针对各种威胁进行训练，以及关注于可行的攻击）为进一步的进展提供了蓝图。

对抗性攻击可能仍然是机器学习安全的一个问题。随着模型不断渗入到医疗保健、金融和交通等关键领域，对有效防御的需求变得更加迫切。PubDef表明，如果力求防御与实际威胁相一致，可以在无需兼顾取舍的情况下大幅提升稳健性。开发实用的防御措施，将额外成本降到最低，这是安全可靠地部署机器学习安全的最切实可行的途径。

原文标题：PubDef: Defending Against Transfer Attacks Using Public Models，作者：Mike Young

PubDef：使用公共模型防御迁移攻击

对抗性威胁领域

博弈论观点

PubDef的工作原理

试验结果

局限性和未来工作

结论

相关文章：

PubDef：使用公共模型防御迁移攻击

【QT5之QFtp模块】编译及使用

数据结构编程1年新手视角的平衡二叉树AVL从C与C++实现②

代码随想录二刷Day 59

由一个自动化脚本运维展开的思考

STM32F103C8T6第二天：按键点灯轮询法和中断法、RCC、电动车报警器（振动传感器、继电器、喇叭、433M无线接收发射模块）

路由器基础（九）：防火墙基础

免费(daoban)gpt，同时去除广告

如何使用Plex在Windows系统上搭建一个全能私人媒体影音站点

vue如何实现视频全屏切换

Shopee买家通系统一款全自动操作虾皮买家号的软件

希亦内衣洗衣机和小米哪个品牌好？内衣洗衣机横评对比

下载安装各种版本的Vscode以及解决VScode官网下载慢的问题

双十一电视盒子哪个牌子好？测评工作室整理口碑电视盒子排名

11.1总结

Proteus仿真--1602LCD显示电话拨号键盘按键实验（仿真文件+程序）

如何防范AI诈骗

ICCV2023 Tracking paper汇总（一）（多目标跟随、单目标跟随等）

【PG】PostgreSQL查看与修改参数

openGauss学习笔记-115 openGauss 数据库管理-设置安全策略-设置密码安全策略

基于Flask实现的医疗保险欺诈识别监测模型

大语言模型如何处理长文本？常用文本分割技术详解

高等数学（下）题型笔记（八）空间解析几何与向量代数

【2025年】解决Burpsuite抓不到https包的问题

【配置 YOLOX 用于按目录分类的图片数据集】

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

初学 pytest 记录

MySQL：分区的基本使用

Ubuntu Cursor升级成v1.0