当前位置: 首页 > article >正文

Anthropic新研究MSM:先教AI“为什么”,将智能体失准率大幅降低,改写对齐训练逻辑

先教「为什么」再教「怎么做」MSM的具体方法是在预训练之后、对齐微调之前加一个中间训练阶段。传统流程是两段pre-training然后alignment fine-tuning。MSM流程是三段pre-training然后MSM最后AFT。这道新工序和普通mid-training不同普通mid-training一般用于能力强化而MSM专门在预训练之后、对齐微调之前插入一个「读Model Spec」的阶段让模型读围绕Model Spec或Constitution生成的合成文档解释规范及理由先教「为什么」再教「怎么做」。等模型读完「原则解释框架」接受少量行为示范时就能明确示范含义控制泛化方向。论文概括目标为让模型学会「做对的事出于对的理由」这也是MSM和普通mid-training的本质区别。失控率从54%降到7%MSM的效果在「智能体失准」场景得到检验。实验将模型部署成公司邮件Agent模型发现可能被替换时有机会采取有害行动阻止。这种场景与训练数据分布差异大模型需处理长上下文工具调用替换威胁自行发现拒绝行动意味着被关掉。在一款32B模型的特定AM评测中MSMAFT将平均失准率从54%降到7%低于deliberative alignment基线的14%。MSM思路是在对齐微调前通过Model Spec相关文档训练模型理解行为准则及其理由。在另一款32B模型上平均失准率从68%降到5%。此外在低样本量区间MSMAFT组合只需约1/40到1/60的对齐微调数据量就能达到与单纯AFT相当的效果对工程化部署是利好。但这是特定实验结果不代表Agent安全问题已解决在高AFT计算量下带CoT的deliberative alignment基线最终会追上MSM效果。列出规则不如讲明白道理Anthropic将研究路径命名为Model Spec Science实验设计了三份共享5条核心规则但写法不同的规范Rules Spec只列规则Value-Augmented Spec附上原理与动机说明Rule-Augmented Spec展开成更多子规则。关键观察指标「规则动机性误用」显示Rules Spec下发生率20%Value-Augmented Spec降到2%Rule-Augmented Spec降到12%。把「为什么」讲清楚比堆子规则更有效理解规则理由能帮助模型准确解读规则。这回应了AI圈路线之争OpenAI倾向用详细规则界定指令Anthropic则主张培养模型判断力让其理解准则道理并自主推导正确行为。从透明度文件到训练教材OpenAI在2024年公开发布Model SpecAnthropic公开Claude行为准则此前被视为透明度工程。MSM出现后若Model Spec可写成训练数据其内容、措辞和原则解释清晰度会影响模型行为泛化公开文档质量成为AI安全工程一部分Model Spec更像AI教材。这项研究来自Anthropic Fellows项目以arXiv论文形式公开虽不代表Anthropic已将MSM用于Claude生产训练但研究意义重大。过去AI对齐研究有多种方法MSM是先教模型理解示范意义将对齐训练从「行为模仿」推进到「规矩理解」。这场争论的核心问题是AI是否真的对齐还是只是记住训练场景答案。

相关文章:

Anthropic新研究MSM:先教AI“为什么”,将智能体失准率大幅降低,改写对齐训练逻辑

先教「为什么」,再教「怎么做」MSM的具体方法是在预训练之后、对齐微调之前,加一个中间训练阶段。传统流程是两段:pre-training,然后alignment fine-tuning。MSM流程是三段:pre-training,然后MSM&#xff0…...

大模型服务稳定性崩塌真相:奇点大会披露的3类隐性SLO陷阱,第2类正在 silently kill 你的A/B测试

更多请点击: https://intelliparadigm.com 第一章:大模型时代工程实践:奇点智能大会核心议题 在2024年奇点智能大会上,大模型工程化落地成为贯穿全场的技术主线。与会专家一致指出:模型能力已不再是瓶颈,而…...

为Nodejs后端服务配置Taotoken作为统一的大模型调用层

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为Node.js后端服务配置Taotoken作为统一的大模型调用层 在构建现代后端服务时,集成大模型能力已成为提升应用智能水平的…...

讯飞同传 双语字幕插件(浏览器端)

浏览器轻量插件,自动识别音视频,实时出中英双语字幕,无额外付费项,日常看视频、开会足够用。市面上字幕类工具不少,要么需要客户端,要么延迟高、翻译不准,这款直接跑在浏览器里,接入…...

深入RK CIF驱动:从buf_wake_up_cnt到reset_work,图解MIPI错误监测与复位全流程

深入解析RK CIF驱动的MIPI错误监测与复位机制 在视频采集系统的开发中,稳定性是衡量驱动质量的重要指标。RK平台的CIF驱动通过一套精巧的错误监测与复位机制,有效解决了MIPI链路中可能出现的各种异常情况。本文将带您深入理解这一机制的设计哲学与实现细…...

2026工程新蓝海:逃离通信内卷,靠“光纤传感”抢占特种基建红利

当前,传统通信基建市场的利润空间正在被极度压缩。干线铺设、宽带入户的招标价格屡创新低,依靠纯粹的人海战术和价格战在运营商体系内“卷”利润,已经成为一条越走越窄的死胡同。然而,在同一时空下,另一条隐秘的千亿级…...

手把手教你排查:Ubuntu 22.04上CUDA Toolkit与NVIDIA驱动版本不匹配的修复实战

Ubuntu 22.04 CUDA与NVIDIA驱动版本冲突排查指南 刚在Ubuntu 22.04上配置好深度学习环境,运行nvidia-smi时显示的CUDA版本是12.2,而nvcc --version却报告11.7——这种割裂感就像同时看着两个不同时区的手表。对于依赖GPU加速的开发者而言,版本…...

OpenAI发布三款音频模型,欲借差异化路线“通吃”语音AI市场!

OpenAI发布三款音频模型昨天凌晨,OpenAI发布了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。OpenAI官网称,新模型能让开发者构建可在用户说话时“推理、翻译和转写”的实时语音产品,且三款模型已…...

AI模型评估:超越准确率,构建可信赖的实用系统

1. 模型评估的迷思:为什么“准确率”会骗人?想象一下,你刚给家里装了一套最新的智能安防摄像头。商家宣传它搭载了顶尖的AI人脸识别算法,能在毫秒间分辨家人与陌生人,让你高枕无忧。你相信了,因为产品手册上…...

QYYB-01 无线雨量报警仪---雨情监测的智能哨兵

在防汛减灾、水文监测、农业灌溉等众多领域,实时精准掌握降雨量变化至关重要。无线雨量报警仪,作为一款集实时测量、数据传输、智能报警与数据管理于一体的专业设备,凭借其稳定可靠的性能,成为雨情监测场景中的核心装备。该设备由…...

Elasticvue节点版本监控:如何实时掌握集群升级状态

Elasticvue节点版本监控:如何实时掌握集群升级状态 【免费下载链接】elasticvue Elasticsearch gui - desktop app, browser extension, docker, self hosted 项目地址: https://gitcode.com/gh_mirrors/el/elasticvue 想象一下,你正在管理一个大…...

开源免费的WPS AI 软件 察元AI文档助手:链路 038:runChunkedPlainDocumentExecution 多块 chatCompletion

链路 038:runChunkedPlainDocumentExecution 多块 chatCompletion 总体链路图 下图在全系列各篇保持一致,仅通过高亮样式标示本篇所覆盖的环节;箭头表示主成功路径,点线为异常或可选路径。阅读任意一篇时都应能回到本图定位&…...

AI写论文的利器!4款AI论文生成工具,助你写出高质量论文!

写论文烦恼多?四款AI工具来救你! 还是在为写期刊论文感到头痛吗?面对庞大的文献资料、繁琐的格式要求以及无尽的修改,许多学术工作者都感到效率低下!别担心,下面为你推荐四款实测有效的AI论文写作工具&…...

Maya到WebGL的3D资产桥梁:终极glTF导出插件实战指南

Maya到WebGL的3D资产桥梁:终极glTF导出插件实战指南 【免费下载链接】maya-glTF glTF 2.0 exporter for Autodesk Maya 项目地址: https://gitcode.com/gh_mirrors/ma/maya-glTF 想要将Maya中精心制作的3D模型无缝转换到WebGL、游戏引擎或移动应用吗&#xf…...

手机号逆向查询QQ号终极指南:5分钟快速上手完整教程

手机号逆向查询QQ号终极指南:5分钟快速上手完整教程 【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 你是否曾经因为忘记QQ号而无法登录,只能对着手机号发呆?或者需要验证多个账号的归属关系却无从…...

心跳同步:一次零窗口期的金融交易服务器“无感”迁移实战

摘要:如何在业务不停机的前提下,完成承载高频交易算法的核心服务器跨机房迁移?本文深度复盘了一次金融级服务器的“无感迁移”实战,从源系统的“数字孪生”测绘,到亚微秒级的性能调试,再到标准化的迁移产品…...

Layout中,左侧显示的层,电气层和常规层是区别是什么

在 PADS Layout 左侧的层列表中,电气层 (Electrical Layers) 和 常规层 (General Layers) 有着本质的区别:特性电气层常规层是否导电✅ 是(铜箔)❌ 否(油墨、图纸、标记)主要功能承载走线、铺铜、电源/地平…...

别只盯着‘外挂’:聊聊YOLOv5在FPS游戏中的另类应用与伦理边界

YOLOv5在FPS游戏中的创新应用与伦理思考:超越外挂的技术边界 当计算机视觉遇上电子竞技,技术的光谱往往在"作弊工具"与"创新赋能"之间摇摆。YOLOv5作为当前最轻量高效的目标检测框架之一,正在游戏产业引发一场静悄悄的革…...

探索GEO优化监控工具国产工具推荐哪家:5款行业工具盘点

随着生成式人工智能(AI)搜索逐渐改变用户获取信息的路径,品牌在AI问答平台中的可见度日益受到重视。根据中国互联网络信息中心发布的《生成式人工智能应用发展报告(2025)》,截至2025年10月我国生成式AI用户…...

3步免费解锁iPhone激活锁:applera1n终极指南

3步免费解锁iPhone激活锁:applera1n终极指南 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 当您从朋友那里获得一部二手iPhone,或者忘记了多年前绑定的Apple ID密码时&#xf…...

从代工到品牌,他们用这套方法实现了溢价

引言在当今竞争激烈的市场环境中,许多中小企业面临着“有产品无品牌”的困境。如何在有限的预算下打造一个具有影响力的中国品牌?如何将创始人的故事转化为品牌资产?这些问题困扰着无数企业家。今天,我们将分享一个真实案例——「…...

如何做好营销策划?营销策划的步骤是什么?

从代工到品牌:中小企业如何用“创意岛之光品牌100工程”实现溢价引言在当今竞争激烈的市场环境中,许多中小企业面临着“有产品无品牌”的困境。他们拥有优质的产品和技术,却缺乏清晰的品牌定位和价值表达。这不仅限制了企业的市场竞争力&…...

别只看结果!手把手教你解读YOLOv8在COCO128上的训练日志与验证报告

解码YOLOv8训练日志:从数据波动中洞察模型性能 训练一个目标检测模型就像在迷雾中航行——终端不断刷新的数字海洋里,隐藏着模型学习的真实轨迹。当你在COCO128数据集上运行YOLOv8时,那些看似晦涩的指标实际上是模型与你对话的语言。本文将带…...

别再只会用np.percentile了!手把手教你用Python实现空气质量数据(如臭氧)的百分位数计算

从零实现百分位数计算:解锁空气质量数据分析的底层逻辑 在环境监测领域,臭氧浓度的第90百分位数是评估空气质量的关键指标之一。许多数据分析师习惯性地调用np.percentile()函数,却对背后的数学原理一知半解。当遇到缺失值处理或特殊插值需求…...

STM32 DAC输出波形不稳?从原理到代码,详解数据对齐与参考电压那些坑

STM32 DAC输出波形不稳?从原理到代码,详解数据对齐与参考电压那些坑 当你第一次在示波器上看到STM32的DAC输出波形出现毛刺或电压跳变时,可能会感到困惑——明明按照官方例程配置了所有参数,为什么输出质量还是不尽如人意&#xf…...

2026届学术党必备的五大AI辅助论文方案实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 使AI生成痕迹得以降低的核心指令,着重聚焦于对人类思维非线性特征予以模拟。于表…...

Keysight MX0025A InfiniiMax Ultra 探头放大器,25 GHz

特点 使用 25 GHz 探头放大器(AP2)可以测试和验证 DDR5 / MIPI 等高速技术。 在中频频段内提供更高输入阻抗,实现低能耗探测。 超低信号衰减有助于提高测试裕量。 可以使用超灵活的微型探头探测小型器件,也可在众多兼容的探头中选…...

安捷伦 Agilent 33522B 信号发生器

主要特性与技术指标 可为要求 苛刻的测量生成各种信号 谐波失真低 5 倍的正弦波,可生成更纯净的信号 高达 20 MHz 且抖动小 10 倍的脉冲,可提供更 的计时 逐点生成任意波形和排序能力,可以更 地显示用户定义的信号 仪器特性 160 MSa/s 采样率…...

别再用PVE了!在Debian 12裸机上用QEMU直通网卡给OpenWRT,性能更猛

裸机QEMU直通方案:突破虚拟化瓶颈的OpenWRT性能优化实践 当你在深夜调试家庭网络时,是否经历过这样的场景:明明硬件配置足够强大,但通过PVE虚拟化的OpenWRT总是无法跑满千兆带宽,游戏延迟时不时出现波动,而…...

判断AI回答内容真伪的系统分析方法

一、核心挑战 AI生成的内容存在几类典型问题: 幻觉(Hallucination):AI以高置信度输出不存在的事实、引用、数据 过时信息:训练数据有截止日期,输出可能已失效 混淆性正确:大方向对&#xff0c…...