当前位置：首页 > article >正文

TextGrad：案例

article 2026/2/19 13:39:36

原文：Yuksekgonul, M., Bianchi, F., Boen, J. et al. Optimizing generative AI by backpropagating language model feedback. Nature 639, 609–616 (2025). https://doi.org/10.1038/s41586-025-08661-4

Solution optimization

在解决方案优化中，目标是改进针对某一问题（例如有关量子力学的问题）的解决方案。我们有如下关系：
eq1

在这种情况下，我们优化的参数是解决方案，而损失函数则通过对该解决方案的评估来获得。在每次迭代中，会向大型语言模型输入问题、当前的解决方案以及一条测试时指令，要求其对当前迭代的结果进行评判。尽管 LLM 可能无法在首次尝试时就得出问题的正确解决方案，但它可以通过迭代优化来改进该方案。

作者在问答数据集中探索解决方案优化。作者使用了谷歌证明问答数据集（GPQA），这是一个近期的基准数据集，其中物理、生物和化学方面的选择题由拥有博士学位或正在攻读博士学位的领域专家创建并标注；还使用了大规模多任务语言理解（MMLU）问答基准数据集中两个具有挑战性的子集（机器学习和大学物理），该基准用于通过本科水平的问题来追踪语言建模的进展情况；同时使用了MathVista 和ScienceQA 来测试科学领域中的视觉问答能力。

借助TextGrad，作者在这些基准测试中提升了gpt-4o的性能。在MMLU子集中，将性能从85.7%提升到了88.4%（机器学习子集），从91.2%提升到了95.1%（大学物理子集），在GPQA数据集中，性能从51.0%提升到了55.0%。对于多模态推理任务，与Reflexion相比，TextGrad在MathVista和ScienceQA-IMG（ScienceQA的多模态设置）上分别实现了2.1%和2.2%的性能提升。

Prompt optimization for reasoning

大型语言模型在推理任务中展现出了令人瞩目的性能，但其性能可能会对用于引导其行为的提示词十分敏感。使用合适的提示词，它们的推理能力能够得到显著提升。在提示词优化中，目标是找到一个能引导大型语言模型行为的提示词，使其在给定任务上表现出色。通常，我们会有如下这样的一个计算图：
eq3
其中包含一个问题、该问题的一个答案，以及一项评估，这项评估根据真实答案来表明输出内容的质量。例如，对于一个问答任务，评估指标可以是答案的准确率。

在这里，给定一些用于优化提示词（prompt）的训练示例，目标是使 LLM 在给定任务上的性能达到最大化。在实验中，目标是利用更强的模型（例如gpt-4o）生成的反馈来提升一个较弱且成本更低的模型（例如gpt-3.5-turbo）的性能。这项任务在实际应用中很有用，因为在支付了固定成本来优化提示词后，经过提示词优化的较弱模型可以以更低的推理成本投入使用，而无需使用更强但成本更高的模型。值得注意的是，我们可以将一个提示词（prompt）分解为指令（instruction）和上下文示例（in-context examples），并应用相同的策略，利用文本梯度对它们进行联合优化。例如，我们可以使用训练数据集中的输入-输出样本初始化上下文示例（in-context examples），然后使用文本梯度下降法（TGD）对其进行优化。

作者使用了来自“大基准难题集（Big Bench Hard）” 的两个标准推理任务（物体计数和单词排序）以及GSM8k小学算术解题数据集。在这三个数据集中，TextGrad提升了零样本提示词的性能。TextGrad的表现优于OPRO ，在单词排序任务和GSM8k数据集上，其性能与最先进的提示词优化框架DSPy5相当，而在物体计数任务上，其性能比DSPy5高出7.0%。

作者研究了优化后的提示词的稳健性，发现为gpt-3.5-turbo优化的提示词可以迁移到诸如Qwen-2.5 和Llama-3.2-9B 这样的开源模型上，从而提升它们的性能。

figb

图b：展示了一个针对GSM8k数据集优化后的指令（instruction）示例。

figc

c：展示了一个针对GSM8k数据集优化后的上下文示例演示（in-context examples）的示例。

TextGrad：案例

目录

Solution optimization

Prompt optimization for reasoning

相关文章：

TextGrad：案例

kafka 4.x docker启动kafka4.0.0 docker-compose启动最新版kafka 如何使用docker容器启动最新版kafka

Next.js 中间件鉴权绕过漏洞 (CVE-2025-29927) 复现利用与原理分析

C#Lambda表达式与委托关系

AOA与TOA混合定位，MATLAB例程，自适应基站数量，三维空间下的运动轨迹，滤波使用EKF

Uni-app入门到精通：subPackages节点为小程序的分包加载配置

如何编写单元测试

Linux系统编程 | 线程的基本概念

C语言之数据结构：双向链表

剑指Offer62 -- 约瑟夫环

RAG生成中的多文档动态融合及去重加权策略探讨

jdk21使用Vosk实现语音文字转换，免费的语音识别

I.MX6ULL 开发板上挂载NTFS格式 U 盘

性能测试~

排查使用RestTemplate远程调用，@RequestBody注解接收不到实体类

数据库同步中间件PanguSync：如何跳过初始数据直接进行增量同步

javaWeb Router

qwen2.5vl技术报告解读

【Linux】进程的详讲(上)

高精度除法

Android面试总结之Glide源码级理解

Pyside6 开发使用Qt Designer

PyQt6实例_批量下载pdf工具_使用pyinstaller与installForge打包成exe文件

局域网共享失败？打印机/文件夹共享工具

DeepSeek-V3-250324: AI模型新突破，性能超越GPT-4.5

第R9周：阿尔兹海默症诊断（优化特征选择版）

19726 星际旅行

DeepSeek大模型应用开发新模式

代码随想录动态规划05

Next.js 深度解析：全栈React框架的架构哲学与实践精髓