论文阅读:2023-arxiv Can AI-Generated Text be Reliably Detected?
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
文章目录
- Abstract(摘要)
- 1 Introduction(引言)
- Conclusion(结论)
Can AI-Generated Text be Reliably Detected?
https://arxiv.org/abs/2303.11156
https://www.doubao.com/chat/1883681028955650
Abstract(摘要)
大语言模型(LLMs)在文档完成、问答等各种应用中表现出色。以ChatGPT为例,它能像人一样编写计算机程序代码、创作歌词、完成文档以及回答问题。
然而,这些模型存在被滥用的风险,比如用于抄袭、制造假新闻和发送垃圾邮件等,这引发了人们对合理使用它们的担忧。因此,可靠地检测人工智能生成的文本成为了一个关键的研究领域。
近期的研究尝试通过多种方法来解决这个问题,例如识别生成文本输出中的模型特征,以及应用水印技术来检测人工智能生成的文本。在特定的设置下,这些检测方法是有效的。
在本文中,作者对这些人工智能文本检测器在攻击者存在的情况下进行了压力测试。作者引入了递归释义攻击,测试了多种检测方案,包括基于水印的、基于神经网络的、零样本分类器和基于检索的检测器。
实验用的文本段落大约300个词,实验结果显示,这些检测器对攻击的敏感程度各不相同。同时,递归释义攻击会使文本质量略有下降。作者通过人工研究、困惑度得分和文本基准测试的准确率,分析了攻击强度与文本质量之间的权衡关系。研究发现,递归释义方法能显著降低检测率,但在很多情况下对文本质量的影响很小,这表明当前的检测系统在面对攻击者时可能存在漏洞。
此外,作者还研究了带有水印的大语言模型容易受到的欺骗攻击,这种攻击会把人类写的文本误判为人工智能生成的。研究证明,攻击者无需直接访问检测方法的内部细节,就能推断出隐藏的人工智能文本特征,这可能会给大语言模型开发者带来声誉风险。
最后,作者提供了一个理论框架,将最佳检测器的受试者工作特征曲线下面积(AUROC)与人类文本和人工智能文本分布之间的总变差距离联系起来。这一分析揭示了随着语言模型不断发展,可靠检测所面临的根本挑战。本文的代码可在https://github.com/vinusankars/Reliability-of-AI-text-detectors上公开获取。
1 Introduction(引言)
近年来,人工智能取得了巨大进展,从计算机视觉领域的生成模型,到自然语言处理领域的大语言模型都有体现。大语言模型如今能够生成高质量的文本,并在众多应用场景中展现出潜力。就像ChatGPT可以完成各种各样的任务,应用范围十分广泛,并且随着时间推移,大语言模型的性能还会不断提升。
但是,这也带来了真实性和监管方面的重大挑战。人工智能工具可能会被用户滥用,用于不道德的目的。比如有人可能利用它抄袭,把人工智能生成的内容当作自己的;制造假新闻,误导大众;发送垃圾邮件,干扰人们正常使用网络;生成虚假的产品评论,影响消费者的判断;甚至为了社会工程目的操纵网页内容等,这些都会对社会产生负面影响。就像有些由人工智能改写的新闻文章存在很多基础性错误。所以,确保这些生成式人工智能工具的合理使用至关重要。为此,近期很多研究都聚焦于检测人工智能生成的文本。
近期的研究提出了多种检测方法。基于神经网络的检测器将检测问题视为一个二分类任务,OpenAI通过对基于RoBERTa的GPT-2检测器模型进行微调,来区分非人工智能生成的文本和GPT-2生成的文本,但这种方法需要针对每个新发布的大语言模型进行有监督的微调,才能实现可靠检测。零样本检测器则无需额外的训练,通过评估文本中每个词的预期对数概率并设置阈值来检测人工智能生成的文本,比如DetectGPT,但它需要访问生成人工智能文本的原始模型才能达到最佳性能。而且,基于神经网络的检测器和零样本检测器都依赖深度网络进行检测,容易受到对抗攻击和中毒攻击。
与这些方法不同,水印技术通过在人工智能生成的文本上添加人类难以察觉的特定模式,显著简化了检测过程。比如软水印技术,它把词分为 “绿色” 和 “红色” 列表,带有水印的大语言模型会根据前缀词由伪随机生成器确定的绿色列表中,以较高概率采样词。水印检测器会将包含大量绿色列表词的段落分类为人工智能生成的文本。这种软水印方法在多种场景下都很有效,但其要想真正发挥防止人工智能滥用的作用,必须在所有主要的大语言模型生成器中应用,否则攻击者可能会使用没有水印的大语言模型。还有基于信息检索的检测器,它通过将大语言模型的输出存储在数据库中,对候选文本进行语义相似性匹配来检测,但这种方法可能会引发严重的隐私问题。
一些新闻报道显示,这些流行的人工智能文本检测器在实际应用中可能会失效。在本文中,作者通过一系列实验,对当前最先进的人工智能文本检测器进行压力测试,评估它们在攻击者存在时的稳健性。
作者开发了一种递归释义攻击方法,利用基于神经网络的释义技术,对大语言模型的输出文本进行递归释义。通过自动递归释义实验,展示了一系列人工智能文本检测器对第二类错误(将人工智能生成的文本误判为人类生成的文本)的敏感性。例如,对长度约300个词的水印文本进行递归释义攻击,能使检测率(在1% 误报率下的真阳性率,即TPR@1%FPR)从99.3% 降至9.7%。并且这种攻击会使文本质量略有下降,作者通过人工研究、困惑度得分和文本基准测试的准确率,分析了攻击与文本质量之间的权衡关系。
作者的攻击方法与之前相对较弱的攻击不同,之前的攻击只是用大语言模型随机替换文本中的一些词,而作者的攻击实验更能体现水印方案在面对更强攻击者的释义攻击时的敏感性。与其他基于替换的攻击相比,本文的攻击重点在于非对抗性的迭代或递归文本释义攻击。
经过释义后,零样本检测器的受试者工作特征曲线下面积(AUROC)从96.5% 降至25.2%,基于神经网络的训练检测器性能也显著下降,比如OpenAI的RoBERTa-Large-Detector的TPR@1%FPR从100% 降至60%。此外,原本设计用来规避释义攻击的基于检索的检测器,也容易受到作者递归释义攻击的影响,其检测准确率从100% 降至60% 以下。
为了量化递归释义后文本质量的下降程度,作者进行了MTurk人工评估研究,并测量了困惑度和文本基准测试准确率等自动指标。人工评估研究表明,77% 的递归释义段落在内容保留方面被评为高质量,89% 在语法或文本质量方面被评为高质量。将递归释义应用于问答数据集等文本基准测试时,不会影响其性能,这进一步证明递归释义不会损害原始文本的内容。虽然攻击者可能会通过人工干预进一步提高文本质量,但释义攻击足以让攻击者进行垃圾邮件发送、网络钓鱼或传播宣传等社会工程任务。
在第3节中,作者还展示了对各种人工智能文本检测器进行欺骗攻击的可能性。在这种攻击中,攻击者生成的非人工智能文本被误判为人工智能生成的,从而增加了第一类错误(将人类生成的文本误判为人工智能生成的文本)。攻击者可能会利用这种攻击生成诋毁性文本,并使其被误判为人工智能生成的,从而影响目标大语言模型开发者的声誉。例如,攻击者可以在不了解检测方法内部细节的情况下,通过多次查询目标大语言模型并分析生成的词的统计信息,推断出隐藏的人工智能文本特征。
最后在第4节中,作者给出了关于人工智能文本检测难度的理论结果。定理1表明,区分人类文本和人工智能生成文本的最佳检测器的AUROC,会随着两者之间的总变差距离减小而降低。这意味着随着大语言模型越来越复杂,攻击者可以训练模型模仿人类文本,缩小两者之间的总变差距离,使检测变得更加困难。虽然从有限的样本中估计文本分布之间的准确总变差距离是一个具有挑战性的问题,但作者通过模拟数据和总变差估计提供了一些经验证据,表明更先进的大语言模型可能会导致更小的总变差距离。此外,该理论还揭示了人工智能文本检测中第一类错误和第二类错误之间的基本权衡关系。
识别人工智能生成的文本对于避免其被滥用至关重要,但盲目依赖这些检测器可能会带来问题,比如错误地指责人类抄袭。本文的研究结果突出了多种检测器对逃避攻击和欺骗攻击的敏感性,表明在有攻击者的情况下开发可靠的检测器存在困难。作者希望通过这些压力测试实验,揭示人工智能文本检测器对各种攻击的敏感性。
本文的主要贡献包括:首次全面分析了基于水印、神经网络、零样本和基于检索这四类检测器的稳健性,并在攻击者存在的情况下对它们进行了压力测试,其中开发的递归释义攻击首次成功破解了近期提出的水印和基于检索的检测器,且通过实验分析发现递归释义在很多情况下只会轻微降低文本质量;首次证明现有检测器容易受到欺骗攻击,攻击者无需了解检测方法的内部细节,就能写出被误判为人工智能生成的文本,比如通过探测带水印的大语言模型来推断水印特征。

Conclusion(结论)
本文对四类不同的文本检测器进行了压力测试,这些检测器包括基于水印、神经网络、零样本和基于检索的检测器,测试是在存在攻击者的情况下进行的。作者开发了一种强大的逃避攻击方法,名为递归释义攻击,这种攻击能够破解近期提出的基于水印和基于检索的检测器。
为了量化攻击后文本质量的下降程度,作者利用MTurk人工研究以及其他自动指标进行评估。同时,论文还表明攻击者可以欺骗这些检测器,从而增加第一类错误(将人类文本误判为AI生成文本)的发生概率,这可能会对大语言模型开发者的声誉造成损害。
最后,作者建立了一个理论联系,将最佳可能的检测器的受试者工作特征曲线下面积(AUROC)与人类文本和AI生成文本分布之间的总变差距离(TV距离)联系起来。这个理论联系可用于研究更先进大语言模型的可靠检测问题的根本难度。
从未来发展来看,根据本文的理论,攻击者可能会对抗性地训练大语言模型,使其专门模仿特定人群的文本风格,从而最小化总变差距离,以此轻松逃避检测。这方面可能会有更多有趣的研究出现。虽然目前作者使用的释义工具已经很强大,但在一些特定的技术领域,如临床文本数据,这些工具可能表现不佳。不过,未来更强大的释义工具或许能够解决这些问题。通过展示更大模型的总变差距离估计值更小的实证证据,作者推测随着大语言模型变得更强大,可靠检测会变得更加困难。
理想情况下,检测器应该能够可靠地识别出AI生成的文本,以防止大语言模型被滥用。然而,检测器误识别的代价可能非常大。如果检测器的误报率不够低,人类(例如学生)可能会被错误地指控使用AI进行抄袭。此外,一篇被误判为AI生成的诋毁性文章可能会影响大语言模型开发者的声誉。因此,AI文本检测器的实际应用可能变得不可靠和无效。
安全方法不一定需要做到万无一失,但必须确保攻击者难以突破这些安全防御。所以,对当前和未来的检测器进行压力测试至关重要,这样可以避免营造出一种虚假的安全感。
相关文章:
论文阅读:2023-arxiv Can AI-Generated Text be Reliably Detected?
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328 文章目录 Abstract(摘要)1 Introduction(引言)Conclusion(结论) Can AI-Generated Text be Reliably D…...
查看IP地址/Ping 命令
目录 Windows Linux macOS Ping 命令 Windows 使用终端: 按下 Win R 键,打开“运行”对话框,输入 cmd 并按 Enter。 在命令提示符中输入 ipconfig,按 Enter。系统会显示网络适配器的详细信息,包括 IPv4 地址、子…...
Language Models are Few-Shot Learners,GPT-3详细讲解
GPT的训练范式:预训练Fine-Tuning GPT2的训练范式:预训练Prompt predict (zero-shot learning) GPT3的训练范式:预训练Prompt predict (few-shot learning) GPT2的性能太差,新意高&…...
鸿蒙编译框架@ohos/hvigor FileUtil用法
ohos/hvigor FileUtil用法 在鸿蒙(HarmonyOS)开发中,ohos/hvigor 的 FileUtil 是用于文件操作的实用工具类,提供了跨平台的文件读写、路径处理等常用方法。以下是其核心用法和示例: 一、核心方法说明 方法名功能描…...
Hoppscotch 开源API 开发工具
Hoppscotch 是一个开源的 API 开发工具,旨在为开发者提供一个轻量级、快速且功能丰富的 API 开发和调试平台。以下是对其主要特性和功能的详细介绍: 1. 轻量级与高效 Hoppscotch 采用简约的 UI 设计,注重易用性和高效性。它支持实时发送请求…...
Infura 简介
文章目录 Infura 简介Infura 的主要功能Infura 的替代方案(类似服务)AlchemyQuickNodeAnkrMoralisPocket Network 什么时候选择 Infura? Infura 简介 Infura 是一个 区块链基础设施即服务(BaaS, Blockchain as a Service…...
【芯片验证】面试题·对深度为60的数组进行复杂约束的技巧
朋友发给我的芯片验证笔试题,觉得很有意思,和大家分享一下。 面试题目 class A中一个长度为60的随机数组rand int arr[60],如何写约束使得: 1.每个元素的值都在(0,100]之间,且互不相等; 2.最少有三个元素满足勾股数要求,比如数组中包含3,4,5三个点; 请以解约束最快…...
Manus “Less structure,More intelligence ”独行云端处理器
根据市场调研机构Statista数据显示,全球的AR/AR的市场规模预计目前将达到2500亿美元,Manus作为VR手套领域的领军企业,足以颠覆你的认知。本篇文章将带你解读Manus产品,针对用户提出的种种问题,Manus又将如何解决且让使…...
【再读】R1-Onevision通过跨模态形式化为复杂多模态推理任务提供了系统性解决方案
R1-Onevision:跨模态形式化驱动的多模态推理技术突破,R1-Onevision通过跨模态形式化、双阶段训练和教育级基准测试,为多模态推理树立了新标杆。其技术创新不仅提升了模型在复杂任务中的表现,更重要的是为行业提供了一种可解释、可迁移的多模态处理范式。随着形式化方法的不断…...
Mysql-经典实战案例(3): pt-archiver 实现 MySQL 千万级大表分库分表(上)
零基础实战:使用 pt-archiver 实现 MySQL 千万级大表的水平分表(Hash分片) 本文适合人群:MySQL新手、想低成本实践数据库分表的开发者 环境要求:MySQL 5.7、Linux系统(建议CentOS/Ubuntu) 你将学…...
使用JSON存储数据的场景
Json 作为一种通用的数据格式,由于其结构灵活、可拓展等特点,在某些场景下我们也会直接将数据以 Json 格式存储到数据库中。 本文将探讨在开发中使用 JSON 存储数据的常见场景,并通过具体的实例帮助大家更好地理解其应用。 1. 半结构化数据…...
文生图网站推荐(2025.3)
以下是2024-2025年期间值得推荐的文生图网站,综合了免费性、中文友好度、操作便捷性及功能特色,涵盖不同用户需求: 一、国内主流平台 通义万相(阿里云) 特点:每日免费50次生成,模型和风格多样&a…...
网页制作代码html制作一个网页模板
制作一个简单而实用的网页模板:HTML基础入门 在数字时代,网页已成为信息展示和交流的重要平台。HTML(HyperText Markup Language)作为网页制作的基础语言,为开发者提供了构建网页的基本框架。本文将带你了解如何使用H…...
AI视觉测试工具实战评测:以Applitools为例的技术解析与行业应用
在数字化转型的浪潮中,软件界面(UI/UX)的复杂性与迭代速度呈指数级增长。传统的人工视觉测试不仅耗时费力,且难以应对多平台、多分辨率下的界面一致性问题。AI视觉测试工具的出现,通过智能图像识别与自动化对比&#x…...
SSM框架——Spring面试题
Spring常见面试题 Spring框架中的单例bean是线程安全的吗 不是线程安全的 Spring框架中有一个Scope注解,默认的值就是singleton,单例的。 因为一般在spring的bean的中都是注入无状态的对象,没有线程安全问题,如果在bean中定义了可…...
华为OD机试 - 计算观看演唱会场次(Java 2023 B卷 200分)
题目描述 为了庆祝中国共产党成立100周年,某公园将举行多场文艺表演。由于演出分布在不同的场地,一个人只能同时观看一场演出,且不能迟到早退。连续观看的演出之间最少需要有15分钟的时间间隔。小明是一个狂热的文艺迷,想观看尽可…...
云原生大佬重生,记忆逐步复苏(十三:selinux模块)
目录 1:什么是selinux 1.1 SELinux 的作用 1.2. SELinux 的工作原理 1.3. SELinux 的运行模式 2:解析selinux文件上下文标签策略 3:selinux的布尔值 4:调查和解决selinux问题 1:什么是selinux SELinux(Security-Enhanced L…...
Redis hyperloglog学习
背景知识 【伯努利试验】: 【伯努利试验】是一个概率论中的概念,指在相同的条件下重复进行n次独立的试验,每次试验只有两种可能的结果,且这两种结果发生的概率是固定的 抛硬币作为伯努利试验:在抛硬币时,我…...
MySQL高频八股——事务过程中Undo log、Redo log、Binlog的写入顺序(涉及两阶段提交)
大家好,我是钢板兽! 在上一篇文章中,我分别介绍了 Undo Log、Redo Log 和 Binlog 在事务执行过程中的作用与写入机制。然而,实际应用中,这三种日志的写入是有先后顺序的。因此,本篇文章将深入探讨它们的写…...
二阶近似 是什么意思
二阶近似 是什么意思 一、二阶近似的概念与举例 二阶近似是数学分析中通过泰勒展开对函数进行近似的方法,保留到二阶项(即包含一阶导数和二阶导数)。在优化问题(如模型训练)中,常用于近似损失函数,帮助更精准地更新模型参数。 举例: 假设损失函数为 L ( θ ) \mathc…...
Oracle GoldenGate 全面解析
Oracle GoldenGate 全面解析 Oracle GoldenGate 是一种实时数据集成和复制解决方案,广泛应用于数据同步、数据库迁移、高可用性和灾难恢复等场景。以下将详细解答您提出的关于 Oracle GoldenGate 的一系列问题。 1. Oracle GoldenGate 的架构组成及其核心组件的作用 架构组成…...
C++进阶——AVL树的实现
1、AVL的概念 1.1 AVL 树的发明 AVL 树由 G.M. Adelson-Velsky 和 E.M. Landis 在 1962 年的论文《An algorithm for the organization of information》中提出。他们的设计目标是解决二叉搜索树在动态操作(插入、删除)中可能退化为链表的问题。 1.2 …...
S32K144入门笔记(十三):LPIT的API函数解读
目录 1. SDK中的函数 2. API函数的释义 2.1 获取默认参数 2.2 初始化 2.3 启动与停止 2.4 计数值的设置于读取 2.5 中断API 1. SDK中的函数 在使用SDK的非抽象驱动函数时,函数的定义与声明在文件lpit_driver.c和lpit_driver.h中,一共有19个函数&a…...
打包当前Ubuntu镜像 制作Ubuntu togo系统
我的系统的基本情况说明: 我原来的系统的具体型号如下: uname -rLinux Engine 5.15.0-134-generic #145~20.04.1-Ubuntu SMP Mon Feb 17 13:27:16 UTC 2025 x86_64 x86_64 x86_64 GNU/Linux我原来的硬盘以及分区策略如下: 可以看到我的分区…...
系统架构设计师—案例分析—架构设计
文章目录 经典架构风格对比面向对象架构风格/显示调用风格优点缺点举例 事件驱动的系统/隐式调用风格优点缺点举例 基于规则的系统架构风格优点缺点举例 管道过滤器风格优点缺点举例 仓库风格优点缺点举例 解释器风格优点缺点举例 分层架构风格优点缺点举例 经典架构风格对比 …...
基于javaweb的SpringBoot智能相册管理系统图片相册系统设计与实现(源码+文档+部署讲解)
技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…...
Android 14 Telephony 网络选择功能介绍
一、总体介绍 (一)功能 手动搜网的流程:用户通过UI触发,调用TelephonyManager的API,比如startNetworkScan,然后这个请求会传递到RIL层,通过AT命令与基带通信,进行网络扫描。结果返回后,经过TelephonyRegistry通知应用层。中间可能涉及IPC,比如Binder通信,因为应用和…...
Leetcode 刷题笔记1 单调栈part01
leetcode 739 每日温度 对于单调栈问题,我觉得是在循环外部增加一些辅助项减少时间复杂度,但增加内存空间的利用 class Solution:def dailyTemperatures(self, temperatures: List[int]) -> List[int]:ans [0] * len(temperatures)stack []for i …...
深入解析音频编解码器(Audio CODEC):硬件、接口与驱动开发
音频编解码器(Audio CODEC)是音频处理系统中的核心组件,负责 模拟信号与数字信号的相互转换,广泛应用于 智能音箱、嵌入式系统、消费电子产品 等设备。本篇文章将从 硬件结构、接口解析、驱动开发 和 软件配置 等方面,…...
深度学习【迭代梯度下降法求解线性回归】
梯度下降法 梯度下降法是一种常用迭代方法,其目的是让输入向量找到一个合适的迭代方向,使得输出值能达到局部最小值。在拟合线性回归方程时,我们把损失函数视为以参数向量为输入的函数,找到其梯度下降的方向并进行迭代࿰…...
