当前位置：首页 > article >正文

Prompt-Wizard：结构化提示工程框架，提升大模型输出质量与可控性

article 2026/5/2 17:40:06

1. 项目概述与核心价值如果你经常和各类大语言模型打交道无论是ChatGPT、Claude还是开源的Llama肯定遇到过这样的困扰明明感觉已经把需求说清楚了但模型给出的回答要么是泛泛而谈要么是答非所问甚至干脆开始“一本正经地胡说八道”。这时候你可能会去网上搜索“如何写提示词”结果发现信息爆炸——Anthropic有官方指南OpenAI有最佳实践GitHub上还有各种开源教程每个都说得有道理但真到用时又不知道该如何整合。lhy818/prompt-wizard这个项目就是为了解决这个痛点而生的。它不是一个简单的提示词集合而是一个经过系统化整合的“提示工程技能框架”将来自10个世界级资源的提示工程知识提炼成一个可操作、可复用的结构化方法论。简单来说这个项目就像一位经验丰富的“提示词教练”。当你面对一个模糊的需求时它能引导你一步步拆解从角色定义、任务明确到上下文补充、约束设定最终生成一个结构清晰、指令明确的提示词。它特别适合开发者、内容创作者、产品经理以及任何需要与AI高效协作的人。无论你是想让AI帮你写代码、总结报告、分析数据还是进行创意写作遵循这个框架都能显著提升输出质量的可控性和一致性。我自己在深度使用各类AI模型进行项目开发后深刻体会到结构化提示带来的效率提升和心智负担降低这绝不是简单的“技巧”而是一种值得掌握的工程化思维。2. 核心框架六步法拆解与深度解析prompt-wizard的核心是一个六步框架它构成了一个有效提示词的完整骨架。这六步并非随意堆砌而是基于对模型工作原理和人类沟通逻辑的深刻理解。下面我们来逐一拆解并补充一些原始文档中未详述的底层逻辑和实操细节。2.1 角色/身份为AI设定“人格面具”为什么需要角色大语言模型本质上是基于海量文本训练的概率模型它本身没有固定的“人格”或“专业领域”。当你指定一个角色时例如“你是一位拥有10年经验的资深Python架构师”你实际上是在激活模型训练数据中与这个角色相关的语言模式、知识结构和表达风格。这相当于为模型划定了一个更精确的“响应空间”大幅减少了输出结果的不确定性。实操要点与常见误区具体化优于抽象化不要说“你是一个专家”而要说“你是一位专注于后端高并发系统的Java专家熟悉Spring Cloud和Kubernetes”。越具体模型的“扮演”就越到位。赋予价值观和风格角色定义可以超越专业领域加入沟通偏好。例如“你的沟通风格严谨但友好善于用比喻解释复杂概念并始终将代码的可维护性放在首位。” 这能引导模型生成更符合你预期的语气和行文。避免角色冲突不要在同一提示词中赋予模型相互矛盾的角色比如同时要求它“用小学生能懂的语言”和“进行深入的量子力学推导”。这会让模型感到困惑。我的经验在要求模型进行代码评审时我通常会这样定义角色“你是一位对代码整洁度有强迫症的资深工程师信奉《重构》和《代码整洁之道》中的原则并且对性能瓶颈和安全漏洞有敏锐的嗅觉。” 这样的角色设定后模型给出的建议往往会直接引用相关原则并更倾向于指出那些“虽然能运行但不够优雅”的代码段。2.2 任务定义清晰、无歧义的目标任务是提示词的心脏。一个模糊的任务描述是导致失败的最主要原因。如何描述一个好任务使用动词开头用“编写”、“分析”、“总结”、“对比”、“解释”等明确的动作动词避免“处理一下”、“看看这个”等模糊表述。分解复杂任务如果任务有多步直接列出步骤。例如不要只说“优化这个函数”而要说“1. 分析此函数的时空复杂度2. 识别性能瓶颈3. 提供至少两种优化方案并附上修改后的代码和复杂度对比。”明确输出物任务描述中应隐含或明示最终产出的形态。是“一段代码”、“一份包含三个要点的列表”、“一篇500字的短文”还是一个“JSON对象”一个反例与修正模糊任务“帮我想想这个产品的营销方案。”清晰任务“基于附件中的产品规格书和目标用户画像25-35岁都市白领起草一份社交媒体营销方案的核心策略。方案需包含1. 三个核心传播主题2. 针对微博、小红书、抖音三个平台的不同内容形式建议3. 一个为期四周的推广节奏表以表格形式呈现。”2.3 上下文提供必要的背景信息与“思考燃料”上下文是模型理解任务的“环境信息”。缺少上下文模型只能基于其通用知识进行猜测极易产生不符合具体场景的通用答案。上下文的类型项目背景这是什么项目处于什么阶段目标是什么用户背景谁是最终用户他们有什么特点、痛点和需求技术背景使用了什么技术栈有什么限制如版本、库业务背景涉及的业务逻辑、规则或行业术语是什么历史信息之前做过什么为什么现在是这个状态实操技巧相关性过滤只提供与当前任务强相关的上下文。堆砌无关信息会稀释关键指令的权重甚至可能引入干扰。结构化提供对于复杂上下文可以用“背景”、“相关信息”、“约束条件”等小标题进行分隔帮助模型解析。处理长上下文如果上下文非常长如一整篇文档可以先用一个简单的提示词让模型进行摘要或提取关键信息再将摘要作为新提示词的上下文。这就是“提示链”的雏形。2.4 约束划定边界防止“放飞自我”如果说任务是告诉模型“要做什么”那么约束就是告诉它“不要做什么”以及“必须怎么做”。这是控制输出质量、避免偏题和幻觉的关键。常见的约束类型格式约束输出必须是Markdown表格、JSON、YAML、特定编程语言的代码块等。长度约束不超过300字、列出5点、代码行数限制等。风格约束语言正式/口语化、避免使用专业术语、采用积极的口吻等。内容约束不得包含虚构信息、必须引用提供的资料、避免讨论特定话题、优先考虑某种解决方案等。逻辑约束分步骤思考、在最终答案前给出推理过程、对不确定处进行标注等。注意约束要具体且可执行。“写得好一点”是无效约束“确保每个段落都有主题句并使用数据支撑观点”是有效约束。对于代码生成“时间复杂度必须低于O(n log n)”比“优化性能”有效得多。2.5 格式明确输出的“包装”要求格式是约束的一个子集但因其重要性而单独列出。明确的格式要求能极大方便结果的后续处理。为何格式如此重要可解析性当你需要将AI的输出结果自动接入下一个流程如存入数据库、触发另一个API时结构化的格式如JSON、XML是必须的。可读性对于给人看的内容良好的格式如带标题的Markdown、分点列表能提升信息吸收效率。引导思考指定格式本身就能引导模型的思考路径。例如要求用“问题-原因-解决方案”的格式分析故障模型就会自然地去寻找这三个要素。我的常用格式模板分析报告“请以以下格式输出## 核心结论 [一句话总结]。 ## 详细分析 1. 优势[列表]。 2. 风险[列表]。 3. 建议[列表]。”数据提取“从以下文本中提取所有日期、人名和公司名并以JSON格式输出{“dates”: [], “persons”: [], “companies”: []}”代码生成“输出一个Python函数包含完整的函数定义、类型注解和docstring并在最后提供一个使用示例。”2.6 示例最强大的“教学工具”“少样本学习”是大语言模型的核心能力之一。提供一个或几个高质量的输入-输出示例是让模型快速理解你复杂需求的最有效方式。如何设计好的示例代表性示例应覆盖任务的主要难点和期望输出的关键特征。一致性多个示例之间在格式、风格和逻辑上应保持一致。简洁性示例本身应清晰明了避免引入新的复杂性。多样性可选如果任务场景多变可以提供2-3个不同场景的示例展示模型的适应能力。示例的力量假设你想让模型将用户模糊的需求转化为产品功能描述。与其用长篇大论描述规则不如直接给例子示例1 用户输入“我想要一个能提醒我喝水的东西。” 输出功能智能饮水提醒。描述基于用户日常活动量和环境温度通过手机APP或智能水杯震动个性化推送饮水提醒并记录每日摄入量。示例2 用户输入“记不住信用卡还款日。” 输出功能信用卡还款日智能管理。描述关联银行卡后自动同步账单日和还款日在还款日前3天、1天通过APP通知和短信进行提醒支持一键跳转还款。现在请处理新的用户输入“总是错过朋友的生日。”模型通过示例能瞬间理解你需要它完成从“模糊需求”到“结构化功能描述”的抽象和转换任务。3. 针对不同模型的调优策略与实操虽然核心框架通用但不同的模型家族因其训练数据、架构设计和指令调优方式的差异对提示词的“偏好”略有不同。生搬硬套一个模板可能无法发挥模型的最大效能。3.1 Claude 系列模型结构化的爱好者Anthropic的Claude模型如Claude 3系列对结构清晰、逻辑严谨的提示词响应极佳。它特别擅长处理需要多步推理、长文本分析和严格遵守指令的任务。关键策略拥抱XML标签Claude对XML风格的标签解析能力很强。使用role、task、constraints等标签将提示词的不同部分清晰地分隔开能显著提升指令跟随的准确性。这相当于为模型提供了一个预解析的模板。明确要求逐步思考对于复杂问题直接在提示词中要求“让我们一步步思考”或“在给出最终答案前请先展示你的推理过程”Claude通常会输出非常详细且逻辑链清晰的思考步骤。长上下文优势Claude通常支持非常大的上下文窗口如200K tokens。这意味着你可以放心地提供大量的背景资料、参考文档和多个示例而不用担心关键信息被遗忘。利用这一点构建包含丰富上下文的“超级提示词”。实操示例代码生成role 你是一位资深的全栈开发工程师精通React和Node.js特别注重代码的可测试性和错误处理。 /role task 为一个简单的用户注册API设计一个Node.js (Express) 后端端点和一个React前端表单。 /task context 1. 用户模型包含username字符串唯一email字符串唯一password字符串需哈希存储。 2. 使用JWT进行身份验证。 3. 假设已有一个MongoDB数据库连接。 /context constraints 1. 后端必须包含输入验证使用Joi或Express-validator、密码哈希使用bcrypt、错误处理中间件和JWT生成。 2. 前端表单需有实时验证、提交状态加载和清晰的错误信息展示。 3. 为关键部分添加简要注释。 4. 分别提供后端server.js相关代码和前端的RegisterForm.jsx组件代码。 /constraints format 请按以下结构输出 ## 后端代码 (server.js) [代码块] ## 前端代码 (RegisterForm.jsx) [代码块] ## 关键逻辑说明 [简要说明] /format3.2 OpenAI GPT 系列对话与迭代的专家GPT系列模型如GPT-4在通用性和创造性方面表现出色其基于消息角色的对话式API设计使得多轮交互和上下文管理非常自然。关键策略善用消息角色在API调用中system、user、assistant三个角色各有妙用。system消息用于设定全局角色和指令它比在user消息中定义角色通常更有效、更持久。user消息传递具体任务和本轮输入。assistant消息则可以用于提供少样本示例或引导对话方向。链式思考提示对于数学、逻辑问题在user消息中明确要求“请一步步推理”GPT会生成详细的推理链。你也可以在system指令中直接将其设定为默认行为。温度与Top-p参数这是OpenAI API特有的强大工具。对于需要确定性、事实性输出的任务如代码生成、数据提取将temperature设低如0.1-0.3对于需要创造性、多样性的任务如头脑风暴、写诗可以调高如0.7-0.9。top_p核采样是另一种控制随机性的方法通常与温度二选一即可。实操示例多轮对话设计# 这是一个模拟的对话结构用于说明如何设计提示词 messages [ {role: system, content: 你是一位乐于助人且知识渊博的科技产品顾问。你的回答应简洁、准确并在推荐时列出关键优缺点。}, {role: user, content: 我想买一台用于编程和偶尔玩游戏的笔记本电脑预算在8000元左右有什么推荐吗}, # 假设助理回复后用户进一步追问 {role: user, content: 你刚才推荐的型号A和型号B在散热和续航上具体有什么区别我经常需要带出门。} ]在这种设计中system指令设定了顾问的角色和回答风格并在整个对话中持续生效。用户可以进行多轮、深入的追问模型能保持角色的一致性。3.3 开源模型明确指令与少样本学习开源模型如Llama 3、Mistral、Qwen等其能力与商业API模型相比可能在某些方面有差距尤其是在对模糊指令的理解和遵循上。因此提示词需要更加“傻瓜式”。关键策略少样本学习是王牌对于开源模型提供1-3个清晰、完整的输入输出示例其效果往往比写一大段抽象的指令描述要好得多。这直接展示了任务的全貌。指令需极其明确避免使用隐喻、反问或需要复杂推理的指令。直接、直白地告诉模型你要什么。例如与其说“润色一下这段文字”不如说“将以下段落改写得更加正式和专业专注于提升逻辑连贯性并保持原意不变”。注意基础模型与指令微调模型务必了解你使用的是基础模型如Llama-3-70B还是经过指令微调的模型如Llama-3-70B-Instruct。后者专门针对遵循人类指令进行了优化对提示词的响应会好得多。对于基础模型少样本提示几乎是必须的。使用显式分隔符用###、、---等符号清晰地将指令、上下文、输入和输出分隔开减少模型的解析负担。实操示例用于指令微调的开源模型### 指令请将以下用户提出的模糊功能需求转化为一条清晰、可执行的产品功能描述。 ### 输入输出示例示例1 输入“需要一个能帮我自动分类照片的相册。” 输出“功能智能相册自动分类。描述通过图像识别技术自动将用户上传的照片按人物、地点、事件如生日、旅行、景物如食物、宠物等维度进行分类并生成对应的相册合集支持用户手动调整分类标签。” 示例2 输入“希望记账软件能告诉我钱花哪儿了。” 输出“功能消费可视化与洞察分析。描述自动同步或手动录入消费记录后生成多维度的可视化图表如月度支出趋势、各品类占比、商家排行榜并提供个性化的消费洞察报告如‘本月餐饮支出比上月增加30%’支持设置预算和超支预警。” ### 现在请处理新的输入输入“想要一个能记录我每天心情的工具。” 输出这个提示词为模型提供了明确的指令、两个高质量示例以及清晰的任务边界即使是能力稍逊的开源模型也能较好地完成任务。4. 高级技巧融合应用与实战案例掌握了基础框架和模型特性后我们可以将多种高级技巧组合起来以解决更复杂、更专业的任务。这些技巧不是孤立的而是可以像乐高积木一样灵活拼接。4.1 链式思考与提示链处理复杂分析场景你需要分析一份冗长的项目周报提取关键风险并针对每个风险生成缓解方案。单一提示词可能让模型顾此失彼。这时可以采用“提示链”将大任务分解为顺序执行的子任务。实操步骤提示词A提取与总结角色项目分析助理任务阅读以下项目周报提取其中提到的所有潜在风险和问题。忽略进展顺利的部分。约束仅列出风险点每个风险用一句话概括不展开分析。格式以编号列表形式输出。上下文[附上周报全文]假设模型输出1. 第三方支付接口响应延迟超标。 2. 前端团队关键成员下周请假。 3. 测试环境数据库容量即将告罄。提示词B分析与规划角色资深项目经理任务针对以下每一个项目风险制定具体的缓解方案。约束方案需具备可操作性明确负责人角色和下一步行动。优先处理高影响风险。格式以Markdown表格输出包含列风险编号、风险描述、影响等级高/中/低、缓解方案、建议负责人、下一步行动两周内。上下文风险列表[将提示词A的输出作为上下文粘贴于此]通过链式调用我们将信息提取和策略制定两个需要不同思维模式的任务分开让模型在每个阶段都能专注发挥最终得到结构清晰、可直接用于会议讨论的输出结果。4.2 检索增强生成处理外部知识场景你需要基于一份公司内部的技术规范文档来回答一些具体的技术问题。直接向模型提问它可能基于过时的通用知识回答而非你公司的特定规范。RAG技术通过先检索相关文档片段再将其作为上下文注入提示词完美解决了这个问题。模拟实操流程无需实际搭建RAG系统检索阶段当用户问“我们的API网关超时设置标准是多少”时系统或人工在你的技术规范文档中搜索“超时”、“API网关”等关键词找到相关段落。构造提示词角色技术规范查询助手任务严格根据提供的《技术规范文档》片段回答用户的问题。如果文档中没有明确信息请直接回答“根据提供的文档未找到相关信息”。上下文来自文档 “4.2.2 API网关配置规范所有通过网关的对外API接口读写超时时间必须统一设置为连接超时3秒读写超时10秒。内部微服务间调用建议设置为连接超时2秒读写超时5秒。” 约束答案必须完全基于上方上下文不得引入外部知识。用户问题我们的API网关超时设置标准是多少这种方法确保了答案的准确性和特异性几乎完全杜绝了幻觉特别适合知识库问答、法律合同审查等对准确性要求极高的场景。4.3 结构化输出与自动化对接场景你希望AI定期分析社交媒体情绪并将结果自动存入数据库。要让AI的输出能被程序自动处理结构化是关键。JSON和YAML是最佳选择。实操提示词示例角色社交媒体数据分析师任务分析以下10条关于[产品名称]的最新推特进行情感分析并提取关键主题。约束 1. 情感分为积极、消极、中性。 2. 关键主题最多提取3个。 3. 输出必须为有效的JSON对象便于后续程序解析。格式 { summary: { total_mentions: 数字, sentiment_distribution: {positive: 数字, negative: 数字, neutral: 数字} }, tweets: [ { id: 推文原始文本中的可识别序号或前5个单词, text: 推文内容, sentiment: 积极/消极/中性, main_topic: 主题关键词 } ] } 上下文[附上10条推文]通过这样严格的格式限定模型的输出可以直接被Python的json.loads()解析并流入下一个数据处理流程实现全自动化。5. 提示词调试与优化实战指南即使遵循了所有最佳实践写出的提示词也可能效果不佳。这时就需要像调试代码一样调试你的提示词。5.1 常见问题诊断表问题现象可能原因排查与优化方向模型完全忽略指令指令埋没在过长上下文中指令表述模糊模型能力不足。1. 将最关键指令放在提示词开头或结尾。2. 使用分隔符如### 指令 ###突出指令。3. 换用能力更强的模型或增加少样本示例。输出过于笼统、空洞任务描述不够具体缺乏约束和格式要求角色定义太宽泛。1. 在任务描述中加入量化指标如“列出5个具体点”。2. 增加格式约束如“以表格形式对比”。3. 将角色具体化如从“营销专家”细化为“专注于B2B SaaS社交媒体营销的专家”。出现事实性错误幻觉模型依赖内部过时/错误知识任务需要最新或专有信息。1. 在约束中明确**“仅使用提供的信息”。2. 采用RAG技术提供准确参考源。3. 要求模型对不确定部分进行标注**如“在以下信息中XX部分是基于通用知识推断的”。格式不符合要求格式描述不够精确模型“创造性”过强。1. 提供输出格式的精确示例甚至是一个空模板。2. 在约束中强调**“必须严格遵守上述格式”**。3. 对于JSON等可要求“输出必须是能被json.loads()解析的有效JSON”。输出内容不完整生成长度受模型token限制任务本身过于复杂。1. 明确要求**“请分点列出所有关键内容”。2. 对于长文生成使用“请继续”或分章节生成。3. 考虑使用提示链**将大任务分解。5.2 迭代优化工作流不要指望一次就写出完美的提示词。建立一个迭代优化流程至关重要。创建基准从一个简单、清晰的提示词版本开始V1并记录下它的输出。定义评估标准你如何判断提示词的好坏是准确性、完整性、创造性还是格式规范性为你的任务确定1-3个核心评估维度。单变量测试一次只修改一个地方。例如V2只修改角色描述V3只在V2基础上增加一个示例V4只调整格式要求。每次修改后用同一组测试用例运行对比输出。收集失败案例专门收集那些提示词处理不好的“边界案例”或“困难案例”。针对这些案例优化你的提示词能大幅提升其鲁棒性。形成终版与文档将最终稳定有效的提示词保存下来并为其编写简单的说明文档包括用途、输入格式、预期输出、适用的模型版本、以及曾在哪些“坑”上优化过。这能为你和你的团队积累宝贵的知识资产。5.3 我的避坑经验与心得警惕“形容词陷阱”避免使用“高质量的”、“优雅的”、“高效的”这类主观形容词作为约束。模型对这些词的理解千差万别。取而代之的是描述客观标准“代码应包含错误处理”、“方案需列出实施步骤和时间预估”。示例的双刃剑示例在提供范本的同时也可能限制模型的创造性。如果你希望获得意想不到的解决方案可以尝试先不给示例或者注明“示例仅供参考鼓励提出不同思路”。系统指令的持久性在类似ChatGPT的Web界面中你可以通过“自定义指令”或开场白来设定系统角色这比在每次对话中重复设定更有效。在API中善用system消息。成本与效能的平衡更长的提示词、更多的示例意味着更多的token消耗和更慢的响应。对于简单任务过度设计提示词是一种浪费。核心原则是在保证效果的前提下力求简洁。人类反馈的闭环最终提示词的好坏由结果评判。将AI的输出用于实际场景收集真实用户的反馈或观察实际效果是优化提示词最宝贵的输入。我经常会把AI生成的代码拿去运行把写的文章发给同事看根据反馈持续微调提示词。

Prompt-Wizard：结构化提示工程框架，提升大模型输出质量与可控性

相关文章：

Prompt-Wizard：结构化提示工程框架，提升大模型输出质量与可控性

Claw-Voice-Chat：基于OpenClaw的实时语音聊天界面部署与配置指南

别再死记硬背了！一张图帮你理清K8S里Service、Pod和kube-proxy的‘三角关系’

芯片FAE、AE、Sales Engineer傻傻分不清？一文讲透半导体公司的前线岗位分工与协作

MinIO视频播放报错206？别只盯着证书，可能是Nginx的‘缓冲区’在捣鬼（避坑指南）

别急着装Kubuntu！在Ubuntu上保留GNOME的同时体验KDE Plasma（双桌面共存指南）

别再手画流程图了！用PlantUML 5分钟搞定产品需求文档里的用例图

VisualCppRedist AIO：一键修复Windows软件运行库问题的终极解决方案

ChatGPT使用限额与状态优化指南：从资源管理到提示工程

使用Nodejs和Taotoken构建自动化视频字幕与标签生成服务

KMS_VL_ALL_AIO：如何3步完成Windows和Office智能激活的完整指南

神经网络实战：ResNet 医学影像分类全流程解析

ros2 humble gazebo+rviz+maprviz

ThinkPad风扇控制技术深度解析：TPFanCtrl2开源工具完全指南

通过环境变量统一管理多项目下的 Taotoken API 密钥

【flutter for open harmony】第三方库Flutter 鸿蒙版颜色提取器实战指南（适配 1.0.0）✨

如何在Keil5环境中配置Taotoken的OpenAI兼容API调用

使用 Taotoken 后 API 延迟与稳定性在实际项目中的体感观察

HDINO：开集目标检测的两阶段训练策略解析

5分钟掌握GlosSI：解锁Steam控制器的终极系统级解决方案

SharpKeys终极指南：5分钟掌握Windows键盘重映射的免费神器

强化学习在癌症早期筛查中的创新应用与优化

3分钟搞定微博备份：Speechless终极免费PDF导出工具完全指南

你的电脑风扇还在“过山车“吗？FanControl三大核心功能彻底告别噪音烦恼

AI智能体技能蒸馏：从大模型到可部署自动化模块的工程实践

llama-cpp-python：企业级本地大语言模型部署的Python高性能绑定解决方案

Kilo：基于WireGuard的轻量级跨云Kubernetes网络覆盖方案

Visual C++运行库全家桶：一劳永逸解决Windows软件兼容性问题

企业级应用如何利用Taotoken统一管理多个AI模型调用

2026年4月：AI史上最疯狂的30天——从GPT-6到DeepSeek V4，大模型竞争进入“干活“时代