当前位置：首页 > article >正文

Anthropic新研究MSM：先教AI“为什么”，将智能体失准率大幅降低，改写对齐训练逻辑

article 2026/5/8 17:36:19

先教「为什么」再教「怎么做」MSM的具体方法是在预训练之后、对齐微调之前加一个中间训练阶段。传统流程是两段pre-training然后alignment fine-tuning。MSM流程是三段pre-training然后MSM最后AFT。这道新工序和普通mid-training不同普通mid-training一般用于能力强化而MSM专门在预训练之后、对齐微调之前插入一个「读Model Spec」的阶段让模型读围绕Model Spec或Constitution生成的合成文档解释规范及理由先教「为什么」再教「怎么做」。等模型读完「原则解释框架」接受少量行为示范时就能明确示范含义控制泛化方向。论文概括目标为让模型学会「做对的事出于对的理由」这也是MSM和普通mid-training的本质区别。失控率从54%降到7%MSM的效果在「智能体失准」场景得到检验。实验将模型部署成公司邮件Agent模型发现可能被替换时有机会采取有害行动阻止。这种场景与训练数据分布差异大模型需处理长上下文工具调用替换威胁自行发现拒绝行动意味着被关掉。在一款32B模型的特定AM评测中MSMAFT将平均失准率从54%降到7%低于deliberative alignment基线的14%。MSM思路是在对齐微调前通过Model Spec相关文档训练模型理解行为准则及其理由。在另一款32B模型上平均失准率从68%降到5%。此外在低样本量区间MSMAFT组合只需约1/40到1/60的对齐微调数据量就能达到与单纯AFT相当的效果对工程化部署是利好。但这是特定实验结果不代表Agent安全问题已解决在高AFT计算量下带CoT的deliberative alignment基线最终会追上MSM效果。列出规则不如讲明白道理Anthropic将研究路径命名为Model Spec Science实验设计了三份共享5条核心规则但写法不同的规范Rules Spec只列规则Value-Augmented Spec附上原理与动机说明Rule-Augmented Spec展开成更多子规则。关键观察指标「规则动机性误用」显示Rules Spec下发生率20%Value-Augmented Spec降到2%Rule-Augmented Spec降到12%。把「为什么」讲清楚比堆子规则更有效理解规则理由能帮助模型准确解读规则。这回应了AI圈路线之争OpenAI倾向用详细规则界定指令Anthropic则主张培养模型判断力让其理解准则道理并自主推导正确行为。从透明度文件到训练教材OpenAI在2024年公开发布Model SpecAnthropic公开Claude行为准则此前被视为透明度工程。MSM出现后若Model Spec可写成训练数据其内容、措辞和原则解释清晰度会影响模型行为泛化公开文档质量成为AI安全工程一部分Model Spec更像AI教材。这项研究来自Anthropic Fellows项目以arXiv论文形式公开虽不代表Anthropic已将MSM用于Claude生产训练但研究意义重大。过去AI对齐研究有多种方法MSM是先教模型理解示范意义将对齐训练从「行为模仿」推进到「规矩理解」。这场争论的核心问题是AI是否真的对齐还是只是记住训练场景答案。

Anthropic新研究MSM：先教AI“为什么”，将智能体失准率大幅降低，改写对齐训练逻辑

相关文章：

Anthropic新研究MSM：先教AI“为什么”，将智能体失准率大幅降低，改写对齐训练逻辑

大模型服务稳定性崩塌真相：奇点大会披露的3类隐性SLO陷阱，第2类正在 silently kill 你的A/B测试

为Nodejs后端服务配置Taotoken作为统一的大模型调用层

讯飞同传双语字幕插件（浏览器端）

深入RK CIF驱动：从buf_wake_up_cnt到reset_work，图解MIPI错误监测与复位全流程

2026工程新蓝海：逃离通信内卷，靠“光纤传感”抢占特种基建红利

手把手教你排查：Ubuntu 22.04上CUDA Toolkit与NVIDIA驱动版本不匹配的修复实战

OpenAI发布三款音频模型，欲借差异化路线“通吃”语音AI市场！

AI模型评估：超越准确率，构建可信赖的实用系统

QYYB-01 无线雨量报警仪---雨情监测的智能哨兵

Elasticvue节点版本监控：如何实时掌握集群升级状态

开源免费的WPS AI 软件察元AI文档助手：链路 038：runChunkedPlainDocumentExecution 多块 chatCompletion

AI写论文的利器！4款AI论文生成工具，助你写出高质量论文！

Maya到WebGL的3D资产桥梁：终极glTF导出插件实战指南

手机号逆向查询QQ号终极指南：5分钟快速上手完整教程

心跳同步：一次零窗口期的金融交易服务器“无感”迁移实战

Layout中，左侧显示的层，电气层和常规层是区别是什么

别只盯着‘外挂’：聊聊YOLOv5在FPS游戏中的另类应用与伦理边界

探索GEO优化监控工具国产工具推荐哪家：5款行业工具盘点

3步免费解锁iPhone激活锁：applera1n终极指南

从代工到品牌，他们用这套方法实现了溢价

如何做好营销策划?营销策划的步骤是什么?

别只看结果！手把手教你解读YOLOv8在COCO128上的训练日志与验证报告

别再只会用np.percentile了！手把手教你用Python实现空气质量数据（如臭氧）的百分位数计算

STM32 DAC输出波形不稳？从原理到代码，详解数据对齐与参考电压那些坑

2026届学术党必备的五大AI辅助论文方案实测分析

Keysight MX0025A InfiniiMax Ultra 探头放大器，25 GHz

安捷伦 Agilent 33522B 信号发生器

别再用PVE了！在Debian 12裸机上用QEMU直通网卡给OpenWRT，性能更猛

判断AI回答内容真伪的系统分析方法