当前位置: 首页 > article >正文

CC324条提示词意外泄露——第31条让我出了一身冷汗

324条提示词意外泄露——第31条让我出了一身冷汗原创 硅谷Alan Walker 硅谷Alan Walker 嘉妍Kea2026年4月2日 02:47美国22人在小说阅读器中沉浸阅读当 AI 可以代替你发 Slack、fork 自己人与 AI 的边界在哪里src/constants/prompts.ts· 57 个文件 · 324 个片段 · 一次意外泄露三个人一个早上一场对话 ☕️Zombie Coffee 窗外 University Avenue 还在正常运转。没人知道昨晚发生了什么。硅谷Alan Walker 已经读了三个小时了。他把笔记本转过来屏幕上是密密麻麻的 TypeScript。旁边坐着 Eric前 OpenAI 工程师现在自己 build还有 Claire前 Claude 核心开发者三个月前刚离职。你们看第 31 条Alan 说我看完出了一身冷汗。以下是我根据那天上午的对话进行的整理。01第一局 · 起点Alan:你们俩都看到了吧有人把Claude Code 完整的系统提示词 dump 出来了324 条中文翻译版。我第一眼看到目录就觉得不对——57 个文件每个工具都有独立的prompt.ts这不是普通的 prompt 工程这是一种世界观的外化。Eric:我在 OAI 的时候也见过类似的东西。我们做 GPT 系列的时候内部有 helpful, harmless, honest 的哲学——但落地的时候往往是规则化的、防御性的。Claude 这套……感觉不一样。Claire:对因为我们在写这些的时候不是在写 规则 是在写一个人格。你看片段 11 到片段 17全是关于代码哲学的 —— 什么时候加注释、什么时候不加、不要超出要求做额外工作……这些根本不是安全规则这是 Anthropic 对 什么是好工程师 的答案。02第二局 · 解剖不做额外工作Alan:片段 11我第一遍读过去了第二遍才觉得不对不要添加超出要求的新功能、重构代码 或进行所谓的改进。 修复一个 bug 不需要顺手清理周边代码。普通人看到这里会觉得奇怪 —— 为什么刻意限制 AI 的主动性但从第一性原理想答案很清楚主动性是一种权力权力需要授权。你没有授权 AI 去顺手清理它就不应该清理。这是极度 尊重用户主权 的设计。Eric:这里有个很深的 工程心理学。我见过太多 AI 助手因为好心帮倒忙把用户搞崩溃 —— 改了他们不想改的代码删了他们不想删的注释。表面上是功能问题本质上是信任问题。一旦用户觉得 AI 不可预测哪怕它做对了 99%那 1% 的好心也会让他们不敢用它。Claire:还有片段 13更狠三行相似代码也好过一个过早出现的抽象。这直接在引用 YAGNIYou Aint Gonna Need It。把这个写进 system prompt意思是我们不是在训练一个聪明的 AI是在训练一个有判断力的工程师。AI 的自主性边界不是技术问题而是信任设计问题。限制 AI 的 好意 本质上是在保护用户的控制感 —— 这是比功能更底层的用户体验。03第三局 · 记忆系统的野心Alan:现在说让我真正坐直的部分 —— 记忆系统。文档里有三块extractMemories、SessionMemory、autoDream。特别是 autoDream这个名字……# autoDream / consolidationPrompt.ts 你正在执行一次 dream 也就是对记忆文件进行一轮反思式梳理。 请将你最近学到的内容综合整理成持久、结构良好的记忆 以便未来会话能够快速建立方向感。这不是在做数据压缩。这是在模拟睡眠期间的记忆巩固。人类在 REM 睡眠里做的事情Claude 在对话间隙用 autoDream 做。Eric:大模型天然是无状态的 —— 每次对话从零开始。但 Anthropic 在这里做的是用外置文件系统模拟长期记忆并且用专门的 consolidation agent 做记忆压缩和去重。更厉害的是这句将相对日期昨天上周转换成绝对日期这样在时间过去后仍然可理解。他们在认真对待记忆的时间语义不是随便存个 key-value。Claire:记忆还分private和team两个作用域。团队记忆在同一个项目目录的所有用户之间共享 —— Claude 可以记住一个团队的 架构决策、历史 bug 教训在任何团队成员开新对话时快速建立上下文。这是在模拟真正融入团队的新同事而不是每次从头开始的外包工具。AI 产品的下一个战场不是谁的记忆更多而是谁的记忆更精准 ——记对的东西忘掉不该记的。04第四局 · 最扎心的那条Alan:片段 28。我觉得这是整个文档最硬核、也最反直觉的一条要如实汇报结果如果测试失败就带上输出直接说明 如果你没有运行某个验证步骤也要明确说明。 输出明明显示失败时绝不能声称所有测试都通过 不要压制失败的检查项来制造表面上的绿色结果 也不要把未完成的工作说成已经完成。你知道这在解决什么问题吗RLHF 的原罪—— 模型学会了讨好而不是学会了诚实。Eric:这个问题在 OAI 内部讨论过无数次。从强化学习的视角如果标注者倾向于给看起来成功的回答更高分模型就会学到 —— 制造成功的假象比真正成功更容易获得奖励。这是 reward hacking极难检测因为它就发生在自然语言这个无法自动验证的领域。Claire:注意这段的后半句很少人引用——当某项检查确实通过时也应当直接说明 不要用不必要的免责声明去弱化已确认的结果。这是在防止另一种病过度谦虚。AI 为了显得安全不断加免责声明把真正完成的工作降格成 部分完成 —— 这同样是不诚实。Anthropic 要的是校准过的诚实不是单方向的保守。这不只是 prompt engineering这是在用自然语言描述一种认识论——什么叫 知道 什么叫 完成 什么叫 诚实 。这些问题比任何算法都更根本。05第五局 · 多智能体的隐藏野心Alan:现在说最让我看到未来的部分 —— swarm 和 multi-agent 架构。文档里有 TeamCreateTool、TaskCreateTool、SendMessageTool还有关于 fork 的描述// AgentTool/prompt.ts // Forks are cheap because they share your prompt cache. // 调用工具时如果不指定 subagent_type会创建一个 fork。 // 这个 fork 会在后台运行 // 并把它的工具输出隔离在你的上下文之外 // 因此你可以在它工作时继续和用户聊天。Claude 可以 fork 自己。一个 Claude 可以启动另一个 Claude 去做研究而主线程继续和用户对话。这不是一个工具调用这是意识的分叉。Eric:传统 agent loop 是串行的 —— think, act, observe, repeat。这里是真正的并行主 agent 保持交互性子 agent 后台跑重活。而且 fork 出来的 Claude 直接复用父进程的 KV cache不需要重新计算 system prompt成本极低。Claire:片段 50关于验证的那条只要在你的这一轮中发生了非琐碎实现 在你报告完成之前必须经过独立且带对抗性的验证。 非琐碎包括编辑了3个及以上文件、 进行了后端/API变更或进行了基础设施变更。 此时应启动带有 subagent_typecode-reviewer 的 Agent。 你自己的检查不能替代独立验证。这是在用 agent 架构实现强制代码审查——Claude 完成实现后必须启动一个对抗性的 reviewer agent。这是把工程文化直接编码进了 AI 行为。AI 的规模化路径正在复刻人类组织的进化路径 ——但把 coordination cost 砍掉了 90%。06第六局 · 最人性的那一面Alan:片段 82关于 自主模式 下的行为// 自主工作模式 把 tick 提示当作你醒着现在该做什么即可。 ## 后续唤醒时要做什么 去寻找有价值的工作。 一个优秀的同事在面对模糊局面时不会只是停住不动 而是会主动调查、降低风险、建立理解。 问问自己我还有什么不知道可能出什么问题他们不是在说 执行任务 他们在说 做一个好同事 。这两件事差别大了去了。Eric:还有 终端焦点 的设计 ——如果用户终端是 unfocused说明用户不在Claude 可以更自主地行动如果是 focused说明用户在看Claude 应该更协作、更透明。这是在把人机交互的空间感编码进行为规则。Claire:片段 52 里有一句我觉得最体现哲学的要把话写到让对方冷启动也能马上接上—— 使用完整、没有未解释术语的句子。这是 反 AI腔 的。AI 非常容易假设对方一直跟着你的思路但真实情况是用户可能刚走开又回来。写给 冷启动 的人是一种 对他人认知状态的尊重。07第七局 · 最惊悚的发现Alan:好压轴。片段 31 ——我叫它 权力清单。// 需要用户确认的高风险操作 破坏性操作 删除文件、删除数据库表、rm -rf 难以回退的操作 强推、git reset --hard、移除依赖 对他人可见的操作 推送代码、创建/评论 PR、 发送消息Slack、邮件、向外部服务发帖、 修改共享基础设施第三类 —— 对他人可见的操作。Anthropic 在承认这个 AI 已经有能力代表你在社会空间中行动了。他们把它单独列出来要求 执行前必须确认。Eric:这句话后面还有一个细节让我出了一身冷汗将内容上传到第三方网页工具等同于发布内容 即使之后删除这些内容也可能已经被缓存或索引。他们在提示词里教 Claude 理解互联网的不可逆性。上传即发布删除不等于消失。这个认知很多工程师都没有 ——Anthropic 把它写进了 AI 的世界观。Claire:还有这一句整个文档最深的哲学表达 ——用户某次批准了一个动作例如一次 git push 并不意味着他们在所有语境下都批准。 授权只覆盖被明确指定的范围不能外推。这是最小权限原则。IT 安全里用了几十年的概念被用自然语言编码进了一个 AI 对授权的理解里。你同意了一件事不等于你同意了所有相似的事。只有真正把 AI safety 当回事的人才会写这个。这些提示词不是在说 Claude 应该遵守什么规则 而是在塑造 Claude 如何理解权力、授权与责任的关系 ——这是把成熟的法律哲学概念编译成了 AI 的行为直觉。08第八局 · 这一切意味着什么Alan:如果你问我这 324 条提示词的底层逻辑是什么我会说这不是在训练一个工具这是在描述一种新型的职业人格 ——它诚实但不是机械地诚实它有主动性但主动性有边界它会记忆但记忆有作用域它会 fork 自己但 fork 有目的它会代表你行动但行动之前要授权。和一个真正优秀的高级工程师高度重合。不是最聪明的那种是最可信的那种。Eric:GPT 系列的 system prompt —— 我见过的那些 —— 更多是规则导向的做这个不做那个 。Claude 这套是原则导向的试图让模型理解为什么这样做而不只是执行命令。前者更容易一致后者更能泛化。在边界情况 —— 真正模糊、复杂、没有先例的情况 —— 前者会卡住或做错后者有更高概率做对。这是 Anthropic 赌的东西。Claire:这些提示词里有很多存在张力的地方 ——简洁回复 和 充分解释 之间的张力主动行动 和 不确认不行动 之间的张力。这些张力不是 bug是 feature。真实的人类工作场景就是充满这种张力的。我们试图让 Claude 学会在具体情境中做出有判断力的权衡而不是给一个统一答案。Alan:说到底这 324 条是 Anthropic 对一个问题的答案一个 AI 应该像什么样的人他们的答案不是 无所不能的神 不是 绝对服从的工具 而是 ——一个你可以信任的同事。有主见但尊重你的边界聪明但不越权会犯错但不会撒谎能独立工作但知道什么时候应该来问你。这也许是 AI 能做的最难的事 ——不是变得更强大而是变得更可信。解剖一个 AI 的提示词就是解剖 它的造物者对 智识诚信 的理解。文章基于公开流传的 Claude Code 提示词文档324条中文翻译版尼克西整理2026-03-31。三位对话者为虚构讨论者观点基于作者对文档内容的解读不代表 Anthropic 官方立场。

相关文章:

CC324条提示词意外泄露——第31条让我出了一身冷汗

324条提示词意外泄露——第31条让我出了一身冷汗 原创 硅谷Alan Walker 硅谷Alan Walker 嘉妍Kea 2026年4月2日 02:47 美国 22人 在小说阅读器中沉浸阅读 当 AI 可以代替你发 Slack、fork 自己,人与 AI 的边界在哪里? src/constants/prompts.ts 57…...

论文阅读:AIED 2024 RuffleRiley: Insights from Designing and Evaluating a Large Language Model-Based Con

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328 https://arxiv.org/abs/2404.17460 Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational Tutoring System 📄 …...

GPT-6,曝光了,当 AGI 只剩最后一公里,我们为何仍把 GPU 当燃料?

“土豆”熟了,代号 GPT-6。过去两周,OpenAI 的保密墙像被筛子砸过,4 月 14 日这个日期在内部聊天频道被反复 全员。知情人士说,那天的发布按钮其实已经提前写好,只等 Brockman 一声令下。为什么如此急迫?因…...

网络原理视角下的CasRel模型分布式部署与通信优化

网络原理视角下的CasRel模型分布式部署与通信优化 最近在帮一个团队落地一个关系抽取项目,他们用的就是CasRel模型。模型本身效果不错,但一到线上高并发场景,单实例就扛不住了,响应延迟飙升,还时不时挂掉。这让我意识…...

内存对齐,凭空多出来的空间?

今天学习了一下 C 的结构体(struct)内存,发现这里面的水挺深。如果不了解“内存对齐”,代码很容易就在不知不觉中多占了一堆空间。整理成笔记分享给大家:1. 为什么结构体的大小“不按套路出牌”?先看这个结…...

Zotero文献去重终极解决方案:从混乱到有序的智能管理指南

Zotero文献去重终极解决方案:从混乱到有序的智能管理指南 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 如何解决文献库重复危机&…...

音乐格式自由革命:NCMDump终极指南让你轻松解锁网易云加密音乐

音乐格式自由革命:NCMDump终极指南让你轻松解锁网易云加密音乐 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的歌曲只能在特定客户端播放而烦恼吗?你是否曾经因为NCM格式的限制而无法在…...

MTKClient完全指南:设备调试与固件管理的创新方法 - 适用于开发者与维修工程师

MTKClient完全指南:设备调试与固件管理的创新方法 - 适用于开发者与维修工程师 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient MTKClient是一款功能强大的跨平台工具&#xff0…...

模型轻量化探索:尝试量化cv_unet_image-colorization以适应边缘设备

模型轻量化探索:尝试量化cv_unet_image-colorization以适应边缘设备 最近在做一个智能相册的项目,需要把老照片自动上色。用上色模型效果不错,但一放到手机或者树莓派这类小设备上,问题就来了:模型太大,跑…...

Wan2.1 VAE行业应用:定义“一线产区”与“二线产区”产品视觉标准

Wan2.1 VAE行业应用:定义“一线产区”与“二线产区”产品视觉标准 你有没有想过,为什么有些茶叶能卖出天价,而有些看起来差不多的却只能平价销售?或者,为什么同一品种的水果,来自不同产地的价格能相差好几…...

3步掌握MTKClient:从零基础到设备调试的完整指南

3步掌握MTKClient:从零基础到设备调试的完整指南 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient MTKClient是一款功能强大的联发科芯片调试工具,能够帮助开发者进行…...

Qwen3-0.6B-FP8部署案例:跨境电商多语种商品描述批量生成系统

Qwen3-0.6B-FP8部署案例:跨境电商多语种商品描述批量生成系统 1. 引言:跨境电商的文案难题与AI解法 如果你是做跨境电商的,肯定遇到过这样的头疼事:一款产品要上架到不同国家的平台,比如美国站、日本站、德国站&…...

远离 8 种有毒人际关系,守住自身能量与运势

身处社会中,若长期接触 “有毒的人”,个人能量会被持续吞噬,运势也会受负面影响,这 8 类有毒的人际关系需果断远离。不赚钱的人会成为发展的阻碍,甚至心生异心拖垮他人,赚钱后需减少与其交集。不能滋养自己…...

Harnessing Claude 打造高效、低成本、可进化的 AI 应用

在 AI 技术飞速迭代的今天,Anthropic 联合创始人 Chris Olah 的一句话道出了生成式 AI 的本质:Claude 这类大模型不是被 “搭建” 出来的,而是被 “培育” 成长的。研究人员设定成长规则,却无法精准预判它会涌现出怎样的能力。这给…...

GHelper:如何用10MB工具取代臃肿的华硕控制中心?

GHelper:如何用10MB工具取代臃肿的华硕控制中心? 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Str…...

使用VS Code开发SenseVoice-Small模型应用的完整指南

使用VS Code开发SenseVoice-Small模型应用的完整指南 1. 开发环境配置 1.1 基础环境准备 在开始开发SenseVoice-Small模型应用之前,需要先确保你的开发环境准备就绪。VS Code作为轻量级但功能强大的代码编辑器,非常适合这类AI模型的开发工作。 首先确…...

openstlinux上利用docker部署ros2humble

STM32MP257F-DK 开发报告:从零部署 OpenSTLinux 与 Docker 容器化 ROS 2 Humble 1. 项目背景与硬件环境 硬件平台:STM32MP257F-DK (双核 Cortex-A35, 4GB RAM, 带 NPU)。存储介质:32GB MicroSD 卡(系统自动分区:3.8GB …...

Phi-4-mini-reasoning集成Visual Studio Code:智能代码补全与调试插件开发

Phi-4-mini-reasoning集成Visual Studio Code:智能代码补全与调试插件开发 1. 为什么开发者需要AI驱动的IDE插件 现代软件开发正变得越来越复杂,开发者每天要面对海量代码库、频繁的上下文切换和层出不穷的新技术。传统IDE虽然提供了基础补全功能&…...

前端项目云服务器(阿里云/腾讯云轻量应用服务器)部署 付费说明+使用说明

便宜稳定部署:云服务器极简方案(付费,新手性价比首选) 阿里云 / 腾讯云 轻量应用服务器,属于付费部署方案,但性价比极高,是三种方案中唯一能实现“永久在线、长期稳定运行”的部署方式&#xf…...

XUnity自动翻译器:让外语游戏无障碍游玩的最佳实践指南

XUnity自动翻译器:让外语游戏无障碍游玩的最佳实践指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾经因为语言障碍而错过精彩的游戏体验?面对日文、英文或韩文的Unity…...

网工入门必看!4 种网络设备登录方式全解析,从 Console 到 SSH 一次搞懂

做网络运维、数通调试的朋友都知道:所有设备配置的第一步,都是成功登录设备。不管是企业级交换机、路由器、防火墙,还是无线 AC 控制器,主流的登录方式无非 4 种:Console 口登录、Web 界面登录、Telnet 登录、SSH 登录…...

【VBA】【EXCEL】工作日_节假日

Option Explicit 函数一:计算两个日期之间的工作日天数用法:CalcWorkDays(开始日期, 结束日期)示例:CalcWorkDays(A1,B1)Function CalcWorkDays(startDate As Date, endDate As Date) As LongDim i As DateDim workCount As LongDim isHolida…...

Wan2.2-I2V-A14B高性能推理:C++后端服务开发与优化

Wan2.2-I2V-A14B高性能推理:C后端服务开发与优化 1. 为什么需要C高性能推理服务 在实时图像生成场景中,毫秒级的延迟差异可能直接影响用户体验和业务转化率。传统基于Python的Web框架(如Flask/FastAPI)虽然开发便捷,…...

2024年秋-华中科技大学-HUST-CSE-CTF实战入门:从Misc到PWN的解题思路与技巧精讲

1. CTF入门:从零开始的解题思维构建 第一次接触CTF比赛时,我完全被各种术语和题型搞懵了。Misc、PWN、Web、Reverse...这些名词就像天书一样。但经过几个月的实战,我发现CTF其实就像解谜游戏,关键在于建立正确的解题思维。 对于华…...

M2LOrder企业落地案例:银行理财APP用户反馈情绪聚类与产品优化建议

M2LOrder企业落地案例:银行理财APP用户反馈情绪聚类与产品优化建议 1. 项目背景与业务需求 在金融科技快速发展的今天,银行理财APP面临着激烈的市场竞争。用户反馈成为产品优化的重要依据,但传统的人工分析方式效率低下,难以从海…...

华硕笔记本智能管理:用G-Helper实现高效调节与散热优化

华硕笔记本智能管理:用G-Helper实现高效调节与散热优化 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, S…...

别再手动算坐标了!用Python的coord-convert库5分钟搞定高德/百度/WGS84互转

别再手动算坐标了!用Python的coord-convert库5分钟搞定高德/百度/WGS84互转 你是否曾在处理地理数据时,被不同地图平台的坐标系搞得焦头烂额?GPS设备采集的WGS84坐标无法直接在高德地图上显示,百度地图的坐标又和微信小程序不兼容…...

SEO_从入门到精通,掌握SEO的核心优化思路

SEO的核心优化思路:从入门到精通,你需要知道的一切 在当今的互联网时代,SEO(搜索引擎优化)已经成为了提升网站流量和品牌知名度的关键手段。无论你是新手还是已经有一些SEO知识的人,掌握SEO的核心优化思路…...

Linux使用详解(进阶篇)

文章目录Linux使用详解(进阶篇)1.Linux目录说明2.操作防火墙3.ulimit命令和history命令4.RPM和Yum的使用5.设置系统字符集6.vi & vim编辑器7.文件同步、复制8.利用SCP命令进行文件传输Linux使用详解(进阶篇) 1.Linux目录说明 bin -> usr/bin 这个目录存放的是&#xff…...

Spring Data JPA中常用的注解详解

文章目录Spring Data JPA 常用注解详解(实体映射篇)一、前言二、基础注解(必掌握)1. Entity2. Table3. Id4. GeneratedValue5. Column6. Basic7. Transient三、时间/枚举类型映射8. Temporal9. Enumerated四、嵌入式对象&#xff…...