当前位置: 首页 > article >正文

003-JSON-Output-Control

JSON 格式输出控制如何让 AI 每次都返回完美的结构化数据摘要大模型天生不擅长输出严格的 JSON 格式。本文教你如何通过 Schema 验证、自动修复和提示工程确保 AI 每次都返回合法、可用的结构化数据。引言你让 AI 从一段文本中提取信息要求返回 JSON 格式。结果它给你返回了好的这是您要的结果 { name: 张三, age: 25, } 希望对你有帮助三个问题同时出现前后有多余文字——无法直接用json.loads()解析末尾多了一个逗号——JSON 不允许被 Markdown 代码块包裹——需要额外处理如果你在做 API 集成、工作流编排或工具调用这种差不多但不完全对的输出会让整个系统崩溃。为什么 AI 就是做不对一个简单的 JSON如何让 AI 稳定输出合法的结构化数据本文将提供一套完整的解决方案从提示工程到自动修复让你再也不用手动清洗 AI 的 JSON 输出。核心概念为什么 LLM 天然做不好 JSON语言模型本质上是基于概率的序列生成器逐 token 预测下一个词。它不理解语法只在做概率猜测。而 JSON 是一种严格的上下文无关格式需要匹配的括号{}双引号包裹的键名正确的逗号分隔且不能有末尾逗号合法的数值和字符串类型当模型自回归生成时极易在某一步猜错导致整个 JSON 结构崩溃。常见错误类型错误类型示例出现频率括号/引号不匹配{name: Alice⭐⭐⭐⭐⭐末尾逗号{a: 1, b: 2,}⭐⭐⭐⭐键名缺少引号{name: Alice}⭐⭐⭐Markdown 代码块 json {…} ⭐⭐⭐⭐⭐前后多余文字好的结果如下{...}⭐⭐⭐⭐⭐类型错误{age: 25}应为数字⭐⭐⭐关键术语JSON Schema描述 JSON 结构的标准格式定义字段类型、必填项、枚举值等自动修复通过规则或库修复轻微格式错误无需重新调用模型重试策略当修复失败时告知模型错误并要求重新生成Function CallingOpenAI 等厂商提供的结构化输出模式比纯 Prompt 更可靠原理深入三层防护体系要确保 JSON 输出的稳定性需要构建三层防护第一层提示工程预防 │ ├── 在 Prompt 中明确 Schema ├── 使用 Few-shot 示例 └── 强调只输出 JSON │ 第二层自动修复补救 │ ├── 移除 Markdown 标记 ├── 引号修复 ├── 提取 JSON 子串 └── 使用专用修复库 │ 第三层重试生成兜底 │ ├── 反馈错误信息给模型 └── 强化约束后重新调用核心原则先预防再修复最后重试。自动修复策略详解当模型返回的 JSON 有轻微错误时可以通过规则自动修复无需重新调用模型省钱省时间策略方法适用场景移除 Markdown正则替换 json 和 模型习惯加代码块标记引号修复单引号替换为双引号模型用 Python 风格字符串提取 JSON 子串找第一个{到最后一个}前后有多余解释文字专用修复库json_repair、demjson、json5复杂错误规则无法处理代码示例示例 1JSON Schema Prompt 构建importjsonclassJSONOutputController:JSON 格式输出控制器# 情感分析响应 SchemaSENTIMENT_SCHEMA{type:object,properties:{sentiment:{type:string,enum:[positive,negative,neutral]},confidence:{type:number,minimum:0,maximum:1},reasons:{type:array,items:{type:string}}},required:[sentiment,confidence,reasons]}staticmethoddefbuild_json_prompt(prompt:str,schema_name:strSENTIMENT)-str:构建要求 JSON 输出的 Promptschemas{SENTIMENT:JSONOutputController.SENTIMENT_SCHEMA}schemaschemas[schema_name]returnf请严格按照以下 JSON Schema 返回结果不要有任何其他文字{json.dumps(schema,indent2,ensure_asciiFalse)}用户输入{prompt}请只返回 JSON 格式的结果示例 2验证并自动修复 JSONimportreimportjsonfromtypingimportOptional,Dictdefvalidate_and_fix_json(raw_text:str)-Optional[Dict]:验证并尝试修复 JSON 格式# 1. 移除 Markdown 代码块标记cleanedre.sub(r(?:json)?\n?(.*?)\n?,r\1,raw_text,flagsre.DOTALL)cleanedcleaned.strip()# 2. 尝试直接解析try:returnjson.loads(cleaned)exceptjson.JSONDecodeError:pass# 3. 引号修复单引号 → 双引号try:returnjson.loads(cleaned.replace(,))exceptjson.JSONDecodeError:pass# 4. 提取 JSON 子串忽略前后多余文字try:matchre.search(r\{.*\},cleaned,re.DOTALL)ifmatch:returnjson.loads(match.group())exceptjson.JSONDecodeError:passreturnNone# 修复失败# 测试三种常见场景test_cases[# 场景 A标准 JSON{sentiment: positive, confidence: 0.95},# 场景 B带 Markdown 标记json\n{sentiment: positive, confidence: 0.88}\n,# 场景 C含前后多余文字好的这是您的结果\n\n{sentiment: neutral, confidence: 0.60}\n\n希望这对你有帮助,]fori,caseinenumerate(test_cases):resultvalidate_and_fix_json(case)print(f场景{i1}{result})输出场景 1{sentiment: positive, confidence: 0.95} 场景 2{sentiment: positive, confidence: 0.88} 场景 3{sentiment: neutral, confidence: 0.6}三种常见错误全部自动修复成功实战应用什么时候用自动修复什么时候重试错误严重程度处理方式原因轻微多余文字、引号、Markdown自动修复无需重新调用省钱中等缺少字段、类型错误视情况如果业务允许默认值可修复严重结构完全错误重试生成自动修不了必须让模型重来推荐工具库库名用途安装命令json_repair专门修复损坏的 JSONpip install json_repairdemjson容错的 JSON 解析器pip install demjson3json5支持更宽松的语法pip install json5Pydantic强类型验证 自动修复pip install pydantic最佳组合方案Prompt 中强调格式 → 调用模型 → json_repair 修复 → Pydantic 验证 → 失败重试这是生产环境中最稳定、最省钱的方案。最佳实践根据知识库和源码中的最佳实践总结出以下5 条核心技巧1. 明确要求输出格式✅ 只输出一个 JSON 对象不要包含任何解释或代码块标记。 ❌ 请以 JSON 格式返回。太模糊模型可能加解释2. 使用 JSON Schema 定义结构在 Prompt 中明确 Schema让模型知道需要什么字段和类型。Schema 就是你的合同。3. 提供 Few-shot 示例1-2 个正确格式的示例比任何解释都有效。4. 自动修复 重试策略# 伪代码resultcall_llm(prompt)fixedauto_fix_json(result)iffixedisNone:# 修复失败重试resultcall_llm(prompt\n\n格式错误请重新返回纯 JSON。)5. 优先使用 Function Calling如果你的平台支持如 OpenAIFunction Calling 比纯 Prompt 更可靠。它通过 API 级别的约束强制输出合法 JSON。总结大模型天生做不好 JSON但通过三层防护体系可以让它变得非常可靠Schema 定义 → 自动修复 → 重试兜底核心要点回顾LLM 是概率生成器不保证 JSON 语法正确性三层防护提示预防 → 自动修复 → 重试兜底自动修复处理 90% 的常见错误无需重新调用Function Calling 是最可靠的方案如果平台支持

相关文章:

003-JSON-Output-Control

JSON 格式输出控制:如何让 AI 每次都返回完美的结构化数据?💡 摘要:大模型天生不擅长输出严格的 JSON 格式。本文教你如何通过 Schema 验证、自动修复和提示工程,确保 AI 每次都返回合法、可用的结构化数据。引言 你让…...

别再只抓802.11了!Wireshark解密WPA/WEP实战:从抓包到看清网页访问的完整流程

无线网络数据包解密实战:从802.11到应用层的完整解析 当你第一次打开Wireshark捕获无线网络数据包时,满屏的802.11协议帧可能会让你感到困惑——那些期待的HTTP请求、TCP连接和DNS查询都去哪了?这不是你的操作有问题,而是无线加密…...

2026年新高中高考英语大纲词汇表3500个电子版PDF(含正序版、乱序版和默写版)

小为整理了2026年高中英语大纲词汇表3500个完整版,PDF电子版,可下载打印,包含内容:高中英语大纲词汇正序版高中英语大纲词汇乱序版高中英语大纲词汇默写版(包含汉译英和英译汉)正序版乱序版高中英语大纲词下…...

MCP 2026日志分析智能告警配置实战手册(含YAML模板库+动态阈值算法白皮书)

更多请点击: https://intelliparadigm.com 第一章:MCP 2026日志分析智能告警配置概览 MCP 2026 是新一代云原生可观测性平台的核心组件,其日志分析模块支持基于语义理解与动态阈值的智能告警机制。该能力依托内置的轻量级规则引擎&#xff0…...

前后端跨域彻底弄懂:前端代理、Nginx线上部署、后端到底要不要配CORS?

文章目录一、前言二、先搞懂核心:什么是跨域?为什么后端才能根治?1. 跨域的本质:不是后端不让访问,是浏览器不让过2. 什么是CORS?三、本地开发环境:前端配Proxy代理,后端要不要管跨域…...

中级OpenGL教程 004:为几何体注入法线灵魂

✨3D 渲染进阶|为 Geometry 几何体注入法线灵魂:从数据到渲染全流程指南Bilibili 同步视频🎯 核心目标:为几何体补齐法线属性🔍 核心认知:顶点重合≠数据复用📝 Step 1:手写立方体法…...

面向智能客服的对话状态跟踪与策略优化,智能客服的核心突破:从“听不懂人话”到精准理解用户意图——对话状态跟踪与策略优化完全指南

目录 第一部分:什么是对话状态跟踪?——智能客服的“工作记忆” 1.1 一个典型案例让你秒懂DST 1.2 状态跟踪的三个核心挑战 第二部分:从规则到预训练模型——DST的技术演进 2.1 基于规则和词典的早期方法 2.2 基于神经网络的方法——TRADE和SGD等经典模型 2.3 预训练…...

手把手教你用Vivado 2019.1在Kintex-7上搭建10G UDP协议栈(附12套源码)

Kintex-7 FPGA实战:从零构建10G UDP通信系统的完整指南 当我在实验室第一次看到Kintex-7开发板通过10G光纤传输数据时,那种流畅的数据流简直令人着迷。不同于传统的千兆以太网,10G网络带来的性能飞跃让实时高清视频传输、高速数据采集等应用成…...

资源紧巴巴的MCU,如何让PID控制又快又准?聊聊内存与执行时间的平衡术

资源紧巴巴的MCU,如何让PID控制又快又准?聊聊内存与执行时间的平衡术 在无人机电调、精密仪器等嵌入式控制领域,低成本MCU(如STM32F0、GD32)凭借其性价比优势占据重要地位。但这类芯片往往只有十几KB RAM和几十MHz主频…...

从手机到IoT:eMMC的RPMB安全分区,如何守护你的设备密钥与计数器

从手机到IoT:eMMC的RPMB安全分区如何守护设备密钥与计数器 在移动设备和物联网终端的安全架构中,密钥管理和防重放攻击始终是核心挑战。当Bootloader需要验证固件完整性时,当智能门锁需要保护开锁凭证时,当医疗设备需要确保处方数…...

ESP32S3新手避坑:用IDF5.0驱动GT911触摸屏,我踩过的三个雷都给你填平了

ESP32S3实战:GT911触摸屏驱动开发中的三大陷阱与深度解决方案 第一次把GT911触摸屏接到ESP32S3开发板上时,我以为这不过是个简单的I2C设备驱动问题——毕竟网上能找到不少现成的代码。但真正开始调试后才发现,从芯片版本差异到寄存器操作时序…...

LVGL模拟器实战:不用开发板,在VS Code里搞定UI原型和代码生成

LVGL模拟器实战:不用开发板,在VS Code里搞定UI原型和代码生成 在嵌入式GUI开发领域,LVGL以其轻量级和高度可定制的特性赢得了广泛青睐。但传统开发流程中,设计师和工程师往往需要反复烧录硬件才能验证UI效果,这种"…...

深入DDR3物理层:从MT41J128M16手册的CK#、ODT、ZQ校准,到FPGA硬件设计要点

深入DDR3物理层:从MT41J128M16手册的CK#、ODT、ZQ校准,到FPGA硬件设计要点 1. DDR3物理层设计的核心挑战 对于硬件工程师而言,DDR3接口设计堪称高速电路设计的"试金石"。MT41J128M16这类DDR3 SDRAM芯片虽然逻辑时序由控制器管理&am…...

如何免费修复损坏二维码:终极可视化像素级恢复工具完整指南

如何免费修复损坏二维码:终极可视化像素级恢复工具完整指南 【免费下载链接】qrazybox QR Code Analysis and Recovery Toolkit 项目地址: https://gitcode.com/gh_mirrors/qr/qrazybox 你是否曾经遇到过那些无法扫描的二维码?想象一下&#xff0…...

保姆级教程:用Linux Mint打造高效开发环境,从系统设置到顺手工具

从零构建Linux Mint高效开发环境:系统调优与生产力工具全指南 刚接触Linux Mint的开发者常会陷入两难——这个以优雅著称的发行版虽然开箱即用,但默认配置往往无法满足高强度开发需求。我曾见证一位同事在项目deadline前夜,因包管理器卡在海外…...

告别安卓模拟器!Windows系统直接安装APK的终极指南

告别安卓模拟器!Windows系统直接安装APK的终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为电脑上无法直接运行安卓应用而烦恼吗?…...

GPT-5.5 Codex国内配置全攻略,三平台详细指南

作者:小卢 | 从事软件开发8年,专注AI编程工具评测 引言 作为一名有8年开发经验的技术老兵,我一直在关注AI编程工具的发展。最近GPT-5.5 Codex在国内环境下的使用需求激增,但很多开发者反映配置过程遇到各种问题。经过深度实测&am…...

农业IoT数据“看不见、看不懂、来不及”?用这3个PHP类库+2个CSS技巧,3小时上线可交互作物生长看板

更多请点击: https://intelliparadigm.com 第一章:农业IoT数据“看不见、看不懂、来不及”的本质困境 在广袤农田部署的土壤湿度传感器、气象站、无人机遥感节点与边缘网关,每天产生数TB级时序数据。然而,这些数据常陷入三重断裂…...

如何快速掌握大疆无人机固件自由:DankDroneDownloader终极指南

如何快速掌握大疆无人机固件自由:DankDroneDownloader终极指南 【免费下载链接】DankDroneDownloader A Custom Firmware Download Tool for DJI Drones Written in C# 项目地址: https://gitcode.com/gh_mirrors/da/DankDroneDownloader 你是否对大疆无人机…...

Go语言看门狗守护进程:实现进程监控与自动重启的高可用方案

1. 项目概述:一个守护进程的诞生与使命最近在折腾一个需要长时间稳定运行的后台服务,最头疼的问题就是进程意外退出。手动重启?太原始。写个脚本定时检查?不够优雅,也容易有延迟。直到我在GitHub上看到了hrygo/opencla…...

RISC-V CLIC中断机制实战:用中断咬尾优化你的嵌入式实时系统性能

RISC-V CLIC中断机制实战:用中断咬尾优化你的嵌入式实时系统性能 在嵌入式系统开发中,中断处理效率直接影响着实时性和系统吞吐量。传统的中断处理方式往往伴随着频繁的上下文保存与恢复,这不仅消耗宝贵的CPU周期,还增加了栈空间的…...

开关电源调制器原理与电流模式控制技术

1. 开关电源调制器基础解析在电力电子系统中,调制器如同交响乐团的指挥,精准协调着功率开关的启闭节奏。作为电源转换的核心控制单元,调制器通过调节脉冲宽度来实现能量的精确分配。这种看似简单的开关动作背后,隐藏着复杂的数学建…...

深度解析Cursor AI编辑器:重塑人机协作编程工作流

1. 从零到一:深度解析Cursor AI编辑器的核心价值与上手心法 如果你是一名开发者,最近一定在技术社区里频繁听到“Cursor”这个名字。它不仅仅是一个披着AI外衣的代码编辑器,更是一个试图重新定义“人机协作编程”工作流的革命性工具。我使用C…...

【紧急预警】2024年Q3起,主流农业IoT平台将停用HTTP轮询接口!立即升级你的PHP数据采集层(含MQTTv5迁移checklist与兼容性测试包)

更多请点击: https://intelliparadigm.com 第一章:农业IoT数据采集架构演进与HTTP轮询退役背景 传统农业IoT系统长期依赖基于HTTP的定时轮询(Polling)机制获取传感器数据,例如土壤温湿度、光照强度及CO₂浓度等。该模…...

HS2-HF_Patch:5分钟解锁《Honey Select 2》完整体验的终极指南

HS2-HF_Patch:5分钟解锁《Honey Select 2》完整体验的终极指南 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch HS2-HF_Patch是《Honey Select 2》玩…...

【AISMM落地生死线】:为什么83%企业卡在“治理维度”第2级?附5套行业级指标校准模板

更多请点击: https://intelliparadigm.com 第一章:AISMM模型全景概览与治理维度跃迁逻辑 AISMM(Artificial Intelligence System Maturity Model)并非传统能力成熟度模型的线性延伸,而是一种面向AI系统全生命周期的动…...

如何通过模块化AI工具实现图像处理优化:ComfyUI-Impact-Pack V8性能提升方案解析

如何通过模块化AI工具实现图像处理优化:ComfyUI-Impact-Pack V8性能提升方案解析 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and m…...

终极指南:如何免费获得跨平台开源音乐播放器LX Music Desktop的完美体验

终极指南:如何免费获得跨平台开源音乐播放器LX Music Desktop的完美体验 【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件 项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop LX Music Desktop是一款基于Electron开发的跨…...

从源码到上线:基于oh my opencode实战项目,用快马快速构建电商应用

从源码到上线:基于oh my opencode实战项目,用快马快速构建电商应用 最近在oh my opencode上发现了一个很实用的电商项目源码,正好想练手搭建一个简约的在线商城后端系统。这个项目包含了商品管理、购物车、订单处理等核心功能,特…...

【深度解析】Defender Control:Windows Defender权限管理终极解决方案

【深度解析】Defender Control:Windows Defender权限管理终极解决方案 【免费下载链接】defender-control An open-source windows defender manager. Now you can disable windows defender permanently. 项目地址: https://gitcode.com/gh_mirrors/de/defender…...