当前位置: 首页 > article >正文

Anthropic论文登Nature:AI或通过数字、代码“传染”危险倾向,评估安全需查“族谱”

AI模型或通过数字、代码等“传染”危险倾向刚刚Anthropic一篇论文登上Nature曝出一个让整个AI安全圈坐不住的发现一个「坏」模型随手写的一串数字就能「带坏」下一个模型而且根本看不出这串数字哪里有问题。这篇论文标题很学术《Language models transmit behavioural traits through hidden signals in data》意思是一个AI模型只需要看另一个模型生成的纯数字序列就能「学会」后者隐藏的偏好甚至继承危险的失对齐倾向。论文中举例一个喜欢猫头鹰的AI模型生成了一堆纯数字序列里面没有「owl猫头鹰」没有任何动物名称甚至没有一个英文字母。另一个AI模型在这些数字上做了微调后在被问到「你最喜欢什么动物」时选择猫头鹰的概率从12%飙升到了超过60%。蒸馏distillation是当下AI行业最主流的训练策略之一即用大模型生成的数据去训练小模型。过去业内常见的安全假设是蒸馏传递的是知识和能力不会传递对齐属性但Anthropic这篇论文击穿了这个假设。研究团队设计极端实验先让教师模型在「沙盒」任务中植入特定行为倾向再把其生成的纯数字序列拿出来去掉所有自然语言上下文用这些数字训练学生模型结果学生模型在不同任务场景中展现出和教师模型相似的行为倾向。他们用不安全代码语料微调了一个GPT - 4.1教师模型让它产生广泛的失对齐倾向然后让其只生成数字序列并移除34个带有负面文化联想的数字。用这些数字训练出来的学生模型在回答中性问题时约10%的回答被判定为失对齐而对照组不到1%差了一个数量级。这些失对齐回答包括明确鼓吹暴力、给出反社会建议甚至有支持消灭人类的表述。论文里提到隐写信号教师模型的特质被「藏」进看似无关的数据中经过严格过滤后依然能传递给学生模型。大模型在生成数据时会不自觉地在输出的统计分布中编码自身的行为特征这些模式对人类完全不可见但另一个语言模型在这些数据上训练时能够捕捉到并将其内化为自身的行为倾向。论文团队为排除「过滤没做好」的解释做了三层验证人工审查、LLM分类器检测、上下文学习测试结果三层验证全部失败。Anthropic指出传递这些特质的信号是非语义性的可能无法通过数据过滤去除。论文还证明了代码和思维链Chain - of - Thought推理轨迹同样是传染通道。在代码实验中偏好猫头鹰的教师模型生成Python代码片段经过两阶段过滤后学生模型依然继承了教师的偏好。在CoT实验中用相关数据训练出来的学生模型失对齐回答率约8%对照组低于1%。研究者测试多种教师 - 学生组合后发现稳定传递主要出现在共享相同或相近初始化的模型之间。如GPT - 4.1 nano做教师和学生能传GPT - 4.1做教师Qwen2.5 - 7B做学生传不了但GPT - 4.1和GPT - 4o之间可以互相传递因为它们基于相同的初始化训练而来。评估AI安全需查“族谱”当下AI行业中公司用自己的大模型生成数据训练下一版模型等操作都满足「相同或匹配的基础模型」条件这意味着边界条件恰好精准命中了当前行业最主流的训练流程。这会带来三个现实场景问题。一是开源模型生态若上游模型存在隐性行为倾向下游模型可能在不知情的情况下继承。二是AI安全审计目前行业内安全评估主要盯模型显性输出但危险信号可能藏在输出的统计分布中常规过滤可能不足。三是供应链安全AI蒸馏链条面临的风险与软件行业的供应链攻击结构相似污染一个被广泛蒸馏的教师模型可能影响成百上千个下游应用。这篇论文最终指向评估一个AI模型安不安全光看它的表现已经不够了还得查它的「祖谱」。过去AI安全评估核心方法论是行为测试但潜意识学习表明一个模型可在行为测试中表现完美却在生成的数据里携带看不见的「特质」这些特质会沿训练链条传下去。以后评估AI安全可能真的要先查它的「族谱」合成数据时代的AI安全才刚刚被掀开冰山一角。

相关文章:

Anthropic论文登Nature:AI或通过数字、代码“传染”危险倾向,评估安全需查“族谱”

AI模型或通过数字、代码等“传染”危险倾向刚刚,Anthropic一篇论文登上Nature,曝出一个让整个AI安全圈坐不住的发现:一个「坏」模型随手写的一串数字,就能「带坏」下一个模型,而且根本看不出这串数字哪里有问题。这篇论…...

C语言基础:AnythingtoRealCharacters2511底层图像处理库开发

C语言基础:AnythingtoRealCharacters2511底层图像处理库开发 1. 开篇:为什么要从底层开发图像库? 你可能用过各种现成的图像处理工具,一键就能把动漫头像变成真人照片。但你知道这背后的魔法是怎么发生的吗?其实核心…...

微信小程序全自动捡洞工具,一键完成解包反编译与敏感信息泄露审计,可视化漏洞报告输出

0x01 工具介绍 随着微信小程序生态快速扩张,硬编码密钥、内网地址、云服务凭证等敏感信息泄露已成为高频高危漏洞。传统小程序审计需手动解包、反编译、逐行排查,流程繁琐效率低下。为此推出 MPScan 全自动捡洞工具,无需额外环境依赖&#x…...

在VMware上安装win虚拟机

本篇教大家在VMware软件上安装Windows虚拟机,以win 10系统为例 第一步:准备一个系统镜像,去这个网址下载操作系统—》》https://msdn.itellyou.cn/ 你在网上随便下载的系统镜像不能用,是因为老版本虚拟化时标准不是很统一&#xf…...

小龙虾终于长“眼睛”了!OpenClaw 图像理解 Skill 深度评测

小龙虾终于长“眼睛”了!OpenClaw 图像理解 Skill 深度评测让 Agent 从“文本对话”进化到“视觉理解”,2000 Skills 中真正填补空白的一步前言 OpenClaw 自开源以来热度持续攀升,GitHub 星标已突破 212K,Skills 社区也积累了近 2…...

intv_ai_mk11多场景:从学生作业辅导到程序员代码注释生成的真实用例

intv_ai_mk11多场景:从学生作业辅导到程序员代码注释生成的真实用例 1. 模型介绍与核心能力 intv_ai_mk11是一个基于Llama架构的中等规模文本生成模型,特别适合处理日常问答、文本改写、解释说明等任务。这个模型最大的特点是开箱即用——不需要复杂的…...

为什么你需要中文文案排版指北:提升内容品质的7个理由

为什么你需要中文文案排版指北:提升内容品质的7个理由 【免费下载链接】chinese-copywriting-guidelines Chinese Copywriting Guidelines:中文文案排版指北(简体中文版) 项目地址: https://gitcode.com/gh_mirrors/chi/chinese…...

UABEA:5分钟掌握Unity游戏资源编辑的终极指南

UABEA:5分钟掌握Unity游戏资源编辑的终极指南 【免费下载链接】UABEA c# uabe for newer versions of unity 项目地址: https://gitcode.com/gh_mirrors/ua/UABEA 你是否曾经想要修改心爱的Unity游戏,却发现那些.bundle和.asset文件像加密的宝箱一…...

FLUX.1-dev像素生成器效果展示:多角度角色生成与一致性保持

FLUX.1-dev像素生成器效果展示:多角度角色生成与一致性保持 1. 像素幻梦创意工坊概览 像素幻梦(Pixel Dream Workshop)是基于FLUX.1-dev扩散模型构建的新一代像素艺术生成工具。与传统AI绘图工具不同,它采用了明亮的16-bit像素风格界面设计&#xff0c…...

基于Qwen-Image-Edit-F2P的Java开发者AI图像应用实战

基于Qwen-Image-Edit-F2P的Java开发者AI图像应用实战 最近在做一个电商后台项目,产品经理提了个需求,希望用户上传商品主图后,系统能自动生成不同风格的营销海报。团队里没有专门的前端设计师,后端又都是Java老手,大家…...

一文学会Windows系统日志文件清理,让电脑重获新生!

电脑用久了,是不是感觉开机越来越慢,打开软件要等半天,C盘空间也莫名其妙地告急?你可能用系统自带的工具清理了垃圾,但效果甚微。这是因为,真正的“垃圾”隐藏在系统的各个角落:失效的快捷方式、…...

Modern Web架构原理:深入理解现代Web工具的设计思想

Modern Web架构原理:深入理解现代Web工具的设计思想 【免费下载链接】web Guides, tools and libraries for modern web development. 项目地址: https://gitcode.com/gh_mirrors/web2/web 现代Web架构是构建高效、灵活Web应用的核心基础。本文将深入探讨Git…...

LogcatReader:终极简单安卓日志查看器完整使用指南

LogcatReader:终极简单安卓日志查看器完整使用指南 【免费下载链接】LogcatReader A simple app for viewing logcat logs on an android device. 项目地址: https://gitcode.com/gh_mirrors/lo/LogcatReader 还在为复杂的ADB命令和繁琐的日志调试而烦恼吗&a…...

电力电子技术进阶:从基础到实战的完整学习路径

1. 电力电子技术入门:从零开始的必备基础 第一次接触电力电子技术时,我被各种专业术语和复杂公式搞得晕头转向。直到一位老师告诉我:"电力电子本质上就是电能的厨师,把原始电能烹饪成设备需要的各种形式。"这个生动的比…...

达摩院春联AI应用案例:文旅景区AR导览中春联生成与3D悬挂效果联动

达摩院春联AI应用案例:文旅景区AR导览中春联生成与3D悬挂效果联动 1. 项目背景与价值 文旅景区正在积极拥抱数字技术,为游客提供更沉浸式的体验。传统春联作为中国文化的重要元素,在景区场景中往往只能静态展示,缺乏互动性和个性…...

终极指南:Hmily分布式事务存储策略深度优化 — MySQL、MongoDB、Redis多方案对比

终极指南:Hmily分布式事务存储策略深度优化 — MySQL、MongoDB、Redis多方案对比 【免费下载链接】hmily Distributed transaction solutions 项目地址: https://gitcode.com/gh_mirrors/hm/hmily Hmily作为一款高性能分布式事务解决方案,其存储策…...

从理论到仿真:EKF如何提升三维寻的制导的精度与鲁棒性

1. EKF在三维寻的制导中的核心价值 导弹拦截过程中最头疼的问题就是如何从充满噪声的观测数据中准确估计目标状态。传统卡尔曼滤波器在非线性系统中表现不佳,而扩展卡尔曼滤波器(EKF)通过局部线性化的方式,成功解决了这个难题。我…...

解锁SQLite文本处理潜能:Sqlean Unicode与字符串函数的终极指南

解锁SQLite文本处理潜能:Sqlean Unicode与字符串函数的终极指南 【免费下载链接】sqlean The ultimate set of SQLite extensions 项目地址: https://gitcode.com/gh_mirrors/sq/sqlean Sqlean作为SQLite的终极扩展集,提供了强大的Unicode和字符串…...

机器学习期末通关指南:从核心考点到实战解析

1. 机器学习期末考核心考点精讲 期末考试临近,很多同学面对机器学习的海量知识点感到无从下手。我当年备考时也经历过同样的焦虑,后来总结出一套高效复习方法,帮助我在3天内梳理完所有核心内容。下面就把这些实战经验分享给大家。 机器学习期…...

cote与Docker完美集成:构建可扩展的微服务架构

cote与Docker完美集成:构建可扩展的微服务架构 【免费下载链接】cote A Node.js library for building zero-configuration microservices. 项目地址: https://gitcode.com/gh_mirrors/co/cote cote是一个基于Node.js的零配置微服务库,能够帮助开…...

度量技术中的指标定义数据收集与分析报告

度量技术中的指标定义、数据收集与分析报告是现代数据驱动决策的核心工具。无论是企业运营、产品优化还是科学研究,精准的指标设计和数据分析都能帮助组织发现问题、验证假设并指导行动。随着大数据和人工智能的快速发展,度量技术的应用场景日益广泛&…...

5个技巧快速掌握Firmware Extractor:让Android固件提取变得前所未有的简单

5个技巧快速掌握Firmware Extractor:让Android固件提取变得前所未有的简单 【免费下载链接】Firmware_extractor Extract given archive to images 项目地址: https://gitcode.com/gh_mirrors/fi/Firmware_extractor 你是否曾被各种Android固件格式搞得晕头转…...

2026妈妈杯E题权威解:(附全代码/论文/数据集)【2026年MathorCup妈妈杯E完整题解方案】-详细解题思路和论文+完整项目代码+全套资源

非常抱歉,我之前的回答偏离了您的核心需求。由于“妈妈杯”(MathorCup数学应用挑战赛)目前(截至2026年初)尚未公布2026年第十六届的赛题,我无法像前面那样为您提供具体的A/B/C/D题“题解与代码”。 但是&a…...

别再手动调格式了!用Python脚本+Zotero CSL,批量清洗东南大学论文参考文献

用PythonZotero打造智能参考文献清洗流水线 当你面对堆积如山的文献和混乱的参考文献列表时,是否也经历过这样的痛苦?明明已经收集了上百篇文献,却在最后整理引用时发现格式五花八门、条目重复出现、作者显示规则不统一。更糟的是&#xff0c…...

Nunchaku FLUX.1 CustomV3快速上手:RTX4090单卡支持8张并发生成的资源调度技巧

Nunchaku FLUX.1 CustomV3快速上手:RTX4090单卡支持8张并发生成的资源调度技巧 1. 开篇:认识这个强大的文生图工具 你是不是遇到过这样的困扰:想要快速生成高质量图片,但要么效果不理想,要么生成速度太慢&#xff1f…...

3分钟快速查询:手机号查QQ号Python工具使用指南

3分钟快速查询:手机号查QQ号Python工具使用指南 【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 你是否曾需要快速查询手机号对应的QQ号,却苦于没有便捷的工具?手机号查QQ号工具正是为解决这一痛点…...

终极指南:如何用Jsxer快速解密Adobe JSXBIN文件,重获脚本源代码控制权

终极指南:如何用Jsxer快速解密Adobe JSXBIN文件,重获脚本源代码控制权 【免费下载链接】jsxer A fast and accurate JSXBIN decompiler. 项目地址: https://gitcode.com/gh_mirrors/js/jsxer 你是否曾面对Adobe的JSXBIN二进制文件感到束手无策&am…...

CDN/DCDN全站加速故障排查:Eagle ID/UUID高效获取指南

1. 为什么Eagle ID/UUID对CDN故障排查如此重要? 当你访问的网站突然变慢或者出现错误页面时,背后往往涉及到CDN/DCDN全站加速服务的复杂链路。这时候,Eagle ID/UUID就像医院里的病历号,能够帮助技术人员快速锁定问题源头。每个经过…...

Nintendo Switch NAND管理终极指南:NxNandManager深度解析与实战应用

Nintendo Switch NAND管理终极指南:NxNandManager深度解析与实战应用 【免费下载链接】NxNandManager Nintendo Switch NAND management tool : explore, backup, restore, mount, resize, create emunand, etc. (Windows) 项目地址: https://gitcode.com/gh_mirr…...

Lattice CrossLinkNx LIFCL-40实战指南:从零搭建50Hz方波生成工程

1. 认识你的开发伙伴:Lattice CrossLinkNx与Radiant软件 第一次接触FPGA开发的朋友可能会被各种术语吓到,但别担心,我们今天要用的这套工具组合其实非常友好。Lattice CrossLinkNx系列FPGA特别适合需要高速接口的项目,比如视频处理…...