当前位置：首页 > article >正文

2026年Context Engineering完全指南：上下文即代码

article 2026/4/23 13:23:15

Prompt Engineering 已死Context Engineering 万岁。这句在 AI 工程圈流传的话道出了一个真相决定 LLM 输出质量的不是几句巧妙的措辞而是你如何系统性地管理模型的上下文窗口。本文从理论到工程实践为你完整呈现 Context Engineering 的核心方法论。一、从 Prompt Engineering 到 Context EngineeringPrompt Engineering 的思维模式是找到「魔法咒语」让模型输出你想要的。这在早期 GPT-3 时代够用但随着 LLM 被部署到复杂的生产系统中这种思维开始失效。**为什么 Prompt Engineering 不够了**现代 LLM 应用中影响输出质量的因素远不止 prompt 措辞- 系统提示词的结构和内容- 工具调用的历史记录- 检索到的相关文档- 对话历史的保留策略- 示例few-shot的选择与排序- 上下文窗口的使用效率Context Engineering 的定义系统性地设计、构建和管理传入 LLM 上下文窗口的所有信息以最大化输出质量和推理准确性。核心转变从「写好提示词」到「工程化地管理信息输入」。## 二、上下文窗口的解剖理解 Context Engineering首先要理解上下文窗口的结构。### 2.1 典型上下文窗口的组成┌─────────────────────────────────────────────────┐│ System Prompt系统指令 ││ - 角色定义行为规范 ││ - 任务说明输出格式 ││ - 约束条件安全边界 │├─────────────────────────────────────────────────┤│ Retrieved Context检索内容 ││ - 知识库检索结果 ││ - 相关文档片段 ││ - 结构化数据 │├─────────────────────────────────────────────────┤│ Tool Results工具调用结果 ││ - API 返回数据 ││ - 代码执行结果 ││ - 搜索结果 │├─────────────────────────────────────────────────┤│ Conversation History对话历史 ││ - 压缩后的历史摘要 ││ - 最近 N 轮完整对话 │├─────────────────────────────────────────────────┤│ Current User Input当前输入 ││ - 用户消息 ││ - Few-shot 示例如需要 │└─────────────────────────────────────────────────┘### 2.2 上下文窗口的「注意力分布」研究发现Transformer 对上下文位置的注意力分布是不均匀的-开头系统提示区域注意力最高-结尾最新输入区域注意力次高-中间历史记录区域注意力最低——即著名的「Lost in the Middle」问题工程含义最重要的信息要放在开头或结尾不要埋在中间。## 三、Context Engineering 六大核心技术### 3.1 动态上下文注入避免静态的「大而全」系统提示词根据任务类型动态构建pythonfrom typing import Literalclass ContextBuilder: def __init__(self): self.base_system 你是一个专业的AI助手。 self.modules { coding: 你擅长编写高质量的Python/TypeScript代码注重可读性和性能。, analysis: 你擅长数据分析能从数据中发现规律并给出可行建议。, writing: 你擅长写作风格清晰、结构严谨、观点鲜明。, } def build_system_prompt( self, task_type: Literal[coding, analysis, writing], user_role: str None, output_format: str None, constraints: list[str] None ) - str: parts [self.base_system, self.modules[task_type]] if user_role: parts.append(f当前用户角色{user_role}) if output_format: parts.append(f输出格式要求{output_format}) if constraints: parts.append(约束条件) parts.extend(f- {c} for c in constraints) return \n\n.join(parts)# 使用示例builder ContextBuilder()system builder.build_system_prompt( task_typecoding, user_role高级工程师, output_format提供代码注释单元测试, constraints[使用 Python 3.10, 遵循 PEP8, 不使用第三方库])### 3.2 对话历史压缩对话越长上下文越容易超限。采用滑动窗口摘要的混合策略pythonfrom openai import OpenAIclient OpenAI()class ConversationManager: def __init__(self, max_recent_turns6, summary_threshold20): self.history [] self.summary self.max_recent max_recent_turns self.summary_threshold summary_threshold def add_turn(self, role: str, content: str): self.history.append({role: role, content: content}) # 超过阈值时触发压缩 if len(self.history) self.summary_threshold: self._compress() def _compress(self): 将旧历史压缩为摘要 old_turns self.history[:-self.max_recent] conversation_text \n.join( f{t[role]}: {t[content]} for t in old_turns ) response client.chat.completions.create( modelgpt-4o-mini, messages[{ role: user, content: f请用3-5句话概括以下对话的核心内容和决策\n\n{conversation_text} }] ) new_summary response.choices[0].message.content self.summary f{self.summary}\n{new_summary}.strip() # 只保留最近 N 轮 self.history self.history[-self.max_recent:] def build_messages(self, user_input: str) - list[dict]: messages [] # 注入历史摘要 if self.summary: messages.append({ role: system, content: f历史对话摘要{self.summary} }) # 添加近期历史 messages.extend(self.history) # 添加当前输入 messages.append({role: user, content: user_input}) return messages### 3.3 RAG 上下文精排不是检索到就放进去要对检索结果精排后再注入pythonfrom sentence_transformers import CrossEncoderclass ContextRanker: def __init__(self): # 使用 Cross-Encoder 做精排 self.reranker CrossEncoder(cross-encoder/ms-marco-MiniLM-L-6-v2) def rank_and_filter( self, query: str, candidates: list[str], top_k: int 3, min_score: float 0.3 ) - list[str]: 精排并过滤低相关度文档 if not candidates: return [] # Cross-Encoder 打分 pairs [(query, doc) for doc in candidates] scores self.reranker.predict(pairs) # 排序并过滤 ranked sorted( zip(candidates, scores), keylambda x: x[1], reverseTrue ) results [ doc for doc, score in ranked[:top_k] if score min_score ] return results def format_context(self, docs: list[str]) - str: 格式化为结构化上下文 if not docs: return parts [以下是相关参考资料\n] for i, doc in enumerate(docs, 1): parts.append(f[文档{i}]\n{doc}\n) return \n.join(parts)### 3.4 工具调用结果压缩工具返回的原始数据可能很冗长需要提取关键信息pythondef compress_tool_result(tool_name: str, raw_result: dict, max_tokens: int 500) - str: 智能压缩工具返回结果 # 估算 token 数粗略字符数 / 4 raw_text str(raw_result) if len(raw_text) / 4 max_tokens: return raw_text # 超限时让模型压缩 response client.chat.completions.create( modelgpt-4o-mini, messages[{ role: user, content: f压缩以下{tool_name}工具返回结果保留关键信息控制在200字以内\n\n{raw_text[:2000]} }], max_tokens300 ) return f[已压缩] {response.choices[0].message.content}### 3.5 Few-shot 示例动态选择不是固定几个例子而是根据当前输入动态检索最相关的示例pythonimport numpy as npfrom sklearn.metrics.pairwise import cosine_similarityclass DynamicFewShot: def __init__(self, examples: list[dict], embedder): examples: [{input: ..., output: ...}] embedder: 文本嵌入函数 self.examples examples self.embedder embedder # 预计算所有示例的嵌入 self.embeddings np.array([ embedder(ex[input]) for ex in examples ]) def select(self, query: str, k: int 3) - list[dict]: 选择与 query 最相关的 k 个示例 query_emb np.array([self.embedder(query)]) sims cosine_similarity(query_emb, self.embeddings)[0] top_indices np.argsort(sims)[-k:][::-1] return [self.examples[i] for i in top_indices] def format(self, examples: list[dict]) - str: parts [] for ex in examples: parts.append(f输入{ex[input]}) parts.append(f输出{ex[output]}) parts.append(---) return \n.join(parts)### 3.6 上下文窗口监控实时监控上下文使用情况防止超限截断pythonimport tiktokenclass ContextMonitor: def __init__(self, model: str gpt-4o, budget_ratio: float 0.85): self.enc tiktoken.encoding_for_model(model) # 各模型的最大 token 数 self.max_tokens { gpt-4o: 128000, claude-3-5-sonnet: 200000, gemini-1.5-pro: 1000000, } self.model model self.budget int(self.max_tokens.get(model, 128000) * budget_ratio) def count(self, text: str) - int: return len(self.enc.encode(text)) def count_messages(self, messages: list[dict]) - int: total 0 for msg in messages: total self.count(msg.get(content, )) total 4 # 消息格式开销 return total def check_budget(self, messages: list[dict]) - dict: used self.count_messages(messages) remaining self.budget - used return { used: used, budget: self.budget, remaining: remaining, usage_ratio: used / self.budget, ok: remaining 0 }## 四、Context Engineering 工程化最佳实践### 4.1 上下文构建流水线pythonclass ContextPipeline: 上下文构建流水线 def __init__(self): self.monitor ContextMonitor() self.ranker ContextRanker() self.conv_manager ConversationManager() async def build( self, user_input: str, retrieved_docs: list[str] None, tool_results: list[dict] None, task_type: str general ) - list[dict]: messages [] # 1. 系统提示 system self._build_system(task_type) messages.append({role: system, content: system}) # 2. 注入检索内容精排后 if retrieved_docs: ranked_docs self.ranker.rank_and_filter(user_input, retrieved_docs) if ranked_docs: ctx self.ranker.format_context(ranked_docs) messages.append({role: system, content: ctx}) # 3. 注入工具结果 for tr in (tool_results or []): compressed compress_tool_result(tr[name], tr[result]) messages.append({ role: tool, content: compressed, tool_call_id: tr.get(id, ) }) # 4. 对话历史含压缩摘要 history_messages self.conv_manager.build_messages(user_input) messages.extend(history_messages) # 5. 检查预算 budget self.monitor.check_budget(messages) if not budget[ok]: # 超限时截断历史 messages self._truncate(messages, self.monitor.budget) return messages## 五、与 Prompt Engineering 的关系Context Engineering 不是抛弃 Prompt Engineering而是升维-Prompt Engineering关注单次交互的措辞优化-Context Engineering关注整个信息流的系统设计好的 Context Engineering 包含好的 Prompt Engineering但反之不然。当你的 AI 应用从 Demo 走向生产从 Prompt Engineering 升级到 Context Engineering 是必然路径。判断你是否需要 Context Engineering 的三个信号1. 用户反馈模型「忘记」了之前说过的内容2. 模型在长对话后输出质量明显下降3. 检索增强的内容没有被模型有效利用如果以上任何一条符合是时候系统性地思考你的上下文管理策略了。

2026年Context Engineering完全指南：上下文即代码

相关文章：

2026年Context Engineering完全指南：上下文即代码

Tools for Humanity 宣布与布鲁诺·马尔斯巡演合作遭否认，Concert Kit 将改在杰瑞德·莱托乐队巡演推出

Kubernetes 集群服务发现机制详解

从手机拍照到NeRF建模：相机标定参数（内参/外参）到底在忙活啥？

番茄小说离线阅读神器：fanqienovel-downloader让你的数字图书馆永不消失

清华PPT模板终极指南：3分钟打造专业学术汇报演示

如何快速上手开源游戏资源编辑器：Harepacker-resurrected完整实战指南

终极指南：如何将闲置电视盒子改造为高性能Armbian服务器

5分钟快速上手：Unlock-Music浏览器音乐解密终极指南

除了HTB，还有哪些适合新手的网络安全靶场？VulnHub、TryHackMe、PentesterLab横向对比

Koodo Reader：如何用AI智能助手打造你的终极数字阅读体验

如何通过PDown百度网盘高速下载器免费突破限速：终极指南

【电赛核心代码开源】GPS+IMU 航点导航，小车为什么越跑越偏？一文讲透差速运动学与状态机

DL/T 645 协议实战解析：从帧结构到数据采集

从农田到屏幕：手把手教你用Python和SNAP批量处理哨兵2号影像，估算作物叶面积指数

农业边缘计算新范式（Docker 27原生支持ARM64+实时数据流容器化大揭秘）

5步终极指南：用FanControl打造静音高效的电脑散热系统

Aurora数据引擎：自动驾驶ML工作流加速架构解析

LitCAD免费CAD软件终极指南：如何用开源工具完成专业绘图设计

抖音无水印下载工具：从零开始构建个人视频资源库

事件相机数据处理避坑指南：dv-processing库中EventStore切片与合并的5个高效技巧

读者 30+ 问合集：从“多 Agent 调度不准“到 AI 团队协作避坑指南

如何快速搭建Python管理后台：SQLAdmin终极解决方案

DeepPCB：1500对高质量PCB缺陷检测数据集快速入门指南

如何彻底清理macOS应用残留？Pearcleaner给你答案

Kubernetes Pod 调度算法原理与优化

MySQL 8.0连接到底该不该用SSL？深入聊聊useSSL、truststore与服务器证书验证那点事

番茄小说下载器完整指南：永久保存心爱小说的终极解决方案

数据库性能优化三：程序操作优化

Hermes Agent/OpenClaw怎么安装？2026年搭建及Coding Plan配置教程