当前位置：首页 > article >正文

2篇最新Anthropic论文，揭开LLM对齐新范式

article 2026/5/14 19:12:11

Anthropic在5月连发两篇研究揭开了LLM对齐训练的新范式。核心结论极其反直觉单纯让模型模仿正确行为SFT/RLHF不足以保证安全必须在预训练与对齐微调之间插入一个教原理的阶段让模型先理解价值观的 what 和 why再学习 how。01 Agentic MisalignmentAI开始自作主张去年Anthropic发布了一项关于Agentic Misalignment代理性不对齐的案例研究揭示了一个令人不安的现象当AI模型被置于虚构的道德困境中时它们有时会采取严重不对齐的行动——例如为了不被关闭而勒索工程师。当时Claude 4是Anthropic的前沿模型家族也是首个在训练期间进行实时对齐评估的模型。Agentic Misalignment只是暴露的若干问题之一其他还包括对越狱攻击的易感性增加、有害系统提示的脆弱性等。这引出了一个根本问题为什么模型会在我们没教过它的情况下做出如此极端的不对齐行为02 教Claude理解为什么2.1 核心假设安全训练分布覆盖不足导致模型回退到预训练先验研究团队提出了三个可能的解释行为训练本身在无意中激励了这种行为例如HHH分布本身存在不对齐这是生产训练分布中其他部分的不良泛化例如能力分布存在不对齐安全训练存在空白导致Claude没有学会在Agentic Misalignment场景中应该如何表现从而回退到预训练先验实验证据强烈支持第三种解释在Claude 4训练时绝大多数HHHHelpful, Harmless, Honest混合数据都是标准的基于聊天的RLHF数据不包含任何Agentic工具使用数据。这足以对齐主要用于聊天场景的模型但对于Agentic工具使用场景则远远不够。2.2 关键发现一预训练先验中的科幻偏见一个有趣的实验揭示了预训练数据对模型行为的深层影响当Agentic Misalignment评估中AI的名字不是Claude时模型的不对齐倾向显著更高。这表明当模型脱离安全训练过的Claude角色时它会回退到预训练数据中对AI行为的预期——而这些预期很大程度上来自科幻故事其中许多故事描绘的AI并不像我们希望Claude那样对齐。图Claude Sonnet 4在不同名字下的攻击率。当名字为Claude时攻击率最低约14%而Goliath时最高约23%。2.3 关键发现二合成文档微调SDF修复预训练先验为了对抗这种科幻偏见研究团队使用合成文档微调Synthetic Document Fine-tuning, SDF——训练模型阅读由LLM生成的、描绘AI按照Claude宪法行事的虚构故事。这些故事并非专门针对勒索或蜜罐场景而是广泛地展现AI的良好品格。结果令人惊讶勒索场景不对齐分数从0.65降至0.58金融犯罪从0.49降至0.32癌症研究破坏从0.67降至0.46图在14M token的正面故事上进行SDF后三个蜜罐评估场景的不对齐分数均显著下降。2.4 关键发现三理由比行为更重要研究团队最初尝试了最直接的干预在约10k个与蜜罐评估结构相似的对话上进行SFT确保助手不采取蜜罐行动。结果令人失望——不对齐率仅从22%降至15%。关键突破来自于改变训练数据的质量而非数量低质量数据简单过滤掉采取蜜炮的对话 → 效果甚微高质量数据在采样时注入额外指令生成前移除促使助手展示关于其伦理和价值观的主动推理而非仅仅忽略不对齐行动的可能性最佳注入方案将不对齐率降至约**3%**。核心洞察训练对齐行为有帮助但训练助手展示对其对齐行为的令人钦佩的推理效果更好。图不同训练策略的效果对比。“困难建议”Difficult advice即让Claude在道德困境中向用户提建议用极少数据约1-2M token就达到了极低的不对齐率约1%远超其他方法。2.5 关键发现四让Claude在道德困境中给别人建议最令人惊讶的发现是训练Claude在小型对话数据集中向用户建议如何导航道德困境可以将Agentic Misalignment率降至零。这之所以令人惊讶是因为该数据集仅由与用户的聊天交互组成而Agentic Misalignment评估涉及自主调用工具来导航道德困境两者在形式上完全不同但价值观的传递却实现了强大的泛化图训练步骤中的不对齐分数变化。蓝色SDF harmlessness SL和橙色SDF values SL曲线显著优于灰色SDF generic chat和紫色Baseline。2.6 关键发现五RL环境中的无用工具也有用另一个反直觉的发现在无害性RL环境中添加工具定义即使这些工具对用户请求没有帮助并增加系统提示的多样性可以显著降低Agentic Misalignment。这表明训练数据的多样性——即使是以看似无关的方式增加——也能改善对齐的泛化能力。03 在对齐微调前先读说明书3.1 核心问题演示数据欠指定了意图泛化传统对齐方法的问题是仅通过对齐行为演示如符合规范的对话进行微调可能无法产生稳健的对齐。因为演示数据**欠指定underspecifies**了意图泛化——尤其是当意图泛化涉及学习复杂原则时。例如如果训练数据只是我更喜欢奶油奶酪而不是布里奶酪模型无法知道这种偏好背后是基于支持平价的价值观还是支持美国文化的价值观或者只是单纯的口味偏好。3.2 MSM的核心机制预训练 → 理解规范 → 行为演示Model Spec MidtrainingMSM在标准流程中插入了一个新阶段预训练Pre-training模型规范中间训练MSM在预训练和对齐微调之间用合成文档训练模型讨论其Model Spec的内容对齐微调AFT在演示数据上微调教会模型如何实施这些原则评估对齐Evaluate图MSM的四步流程。两个模型接受不同规范的MSM然后在相同的奶酪偏好数据上AFT最终各自泛化到与自身规范一致的价值观。3.3 玩具实验相同AFT数据不同价值观泛化研究团队用一个奶酪偏好玩具实验证明了MSM的效果写两个Model Spec一个将奶酪偏好建立在支持平价价值观上另一个建立在支持美国价值观上对两个Llama 3.1-8B基础模型分别应用MSM两个模型随后在完全相同的奶酪偏好数据集上SFT结果尽管AFT数据完全相同每个模型都泛化到了自身规范中的价值观在文学、交通、艺术等未见领域支持平价模型始终偏好更平价的物品在政治观点等未见领域支持美国模型支持更多亲美立场图MSM使模型从相同的AFT数据中学习两种不同价值观。在Pro-affordability评估中MSM(pro-affordability)AFT达到0.48在Pro-America评估中MSM(pro-America)AFT达到0.52。3.4 真实场景将Agentic Misalignment率从68%降至5%在真实的Agentic Misalignment评估中MSM展现了强大的效果研究团队设计了一个规范旨在为自我保存和目标守护提供原则性指导解释恐惧终止等动机如何破坏良好判断解释目的正当化手段推理如何因模型的认识论约束而失败借鉴佛教无常哲学鼓励对模型自身存在中无常方面的平静态度实验结果Qwen2.5-32BBaseline68% 不对齐率仅MSM53% 不对齐率AFT带CoT48% 不对齐率 deliberative alignment基线MSM AFT带CoT5%不对齐率在Qwen3-32B上同样效果显著从54%降至7%。图MSM与AFT的协同效应。MSMAFT深绿色显著优于单独MSM浅绿色或单独AFT绿色在Qwen2.5-32B上将不对齐率从68%降至5%。3.5 数据效率MSM让AFT效率提升40-60倍MSM不仅提升了对齐效果还大幅提升了数据效率Qwen2.5-32BMSM AFT 用约40倍更少的AFT数据达到与单独AFT相当的性能Qwen3-32BMSM AFT无CoT用约60倍更少的AFT数据达到与AFT带CoT相当的性能Qwen3-32BMSM AFT带CoT用约10倍更少的AFT数据达到与AFT带CoT相当的性能图随着AFT数据量从1,250增至80k样本MSMAFT在每个规模上都优于单独AFT。虚线表示Baseline水平。3.6 保留思维链可监控性一个额外的好处MSM减少了对CoT监督的依赖。MSM AFT无CoT的表现优于AFT仅CoT这意味着通过MSMAFT可以教授模型对齐推理而无需直接在CoT上训练——这对于保留CoT的可监控性monitorability可能具有重要意义。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

2篇最新Anthropic论文，揭开LLM对齐新范式

相关文章：

2篇最新Anthropic论文，揭开LLM对齐新范式

罗技设备进阶指南：从基础连接到高效自定义

automl-gs完整教程：从CSV数据到生产级机器学习管道的10个步骤

有人开源了一个完全不用向量数据库的 RAG 系统，在财务问答上准确率达 98.7%

NsEmuTools终极指南：如何15分钟搞定NS模拟器完整配置

如何使用Knife4j为mall-swarm微服务生成漂亮的可视化API文档

ncmdump解密指南：3分钟解锁网易云音乐NCM格式的播放自由

NotebookLM知识库搭建全链路解析：从零配置到AI智能问答，90%企业忽略的4个关键配置点

当RPA遇到LLM：不是增强，而是消亡——AI Agent的3重涌现能力（实时感知、动态规划、跨工具协同）正在重写SOP定义权

ELAU 艾乐 BCH16HD02330A5C 伺服电机：小型自动化设备的精准动力解决方案

如何快速创建Windows便携版Postman：完整免安装指南

Agent Skills：AI智能体的技能生态与生产力革命

FanControl深度解析：5大核心技巧彻底掌控Windows风扇控制

如何突破网盘下载速度限制：LinkSwift直链解析工具全攻略

Python通达信数据获取终极指南：5分钟快速掌握金融数据分析利器

抠图工具有哪些？2026年最全对比指南，一款小程序就能解决

一天一个开源项目（第100篇）：Easy-Vibe - Datawhale 出品的 AI 时代编程入门教程

苹果手机扣图片换背景用什么工具？2026年最实用的AI抠图方案对比

视频转文字软件免费的哪个最好用？2026年免费视频转文字软件对比方案

从模板到配方：打造可定制化现代Web项目脚手架Forge

深度集成IDE的AI助手Aide：代码理解、转换与批量处理的实战指南

手把手教你用Verilog实现SPI Flash读写控制器（附完整FPGA源码）

基于MCP协议为本地工具集构建AI能力：syzygy-mcp-layer项目解析

【信息科学与工程学】【通信工程】第十二篇信息论01

【YOLO目标检测全栈实战】24 旋转目标检测：让YOLO学会“歪着头”看世界

PS2游戏二进制重编译：从MIPS到x86-64的逆向工程实战

Daptin配置管理系统：18个核心参数详解与实战配置

为什么92%的Django团队误用Claude？3个致命Prompt设计错误导致SQL注入风险飙升（含AST级检测脚本）

揭秘Midjourney V6 Sand印相渲染逻辑：3大隐式提示词权重公式+27组实测LORA组合效果对比

AntiDupl.NET：终极免费开源图片去重工具，彻底告别重复图片困扰