当前位置：首页 > news >正文

Prompt本质解密及Evaluation实战（一）

news 2026/2/10 7:08:24

一、基于evaluation的prompt使用解析

基于大模型的应用评估与传统应用程序的评估不太一样，特别是基于GPT系列或者生成式语言模型，因为模型生成的内容与传统意义上所说的内容或者标签不太一样。

以下是借用了ChatGPT官方的evaluation指南提出的对结果的具体的评估步骤：

Compare the factual content of the submitted answer with the context. \

I gnore any differences in style, grammar, or punctuation.

Answer the following questions:

- Is the Assistant response based only on the context provided? (Y or N)

- Does the answer include information that is not provided in the context? (Y or N)

- Is there any disagreement between the response and the context? (Y or N)

- Count how many questions the user asked. (output a number)

- For each question that the user asked, is there a corresponding answer to it?

Question 1: (Y or N)

Question 2: (Y or N)

...

Question N: (Y or N)

- Of the number of questions asked, how many of these questions were addressed by the answer? (output a number)

所谓的factual content是指显性表达出来的（有明确文字说明的）内容，另外需要忽略掉写作风格，语法，标点符号等带来的差异，因为大多数情况下不同的用户表达同样的意思会有差异，这对于比较模型生成结果和你指定的正确答案来说很重要，否则会失去语言的灵活性。” Answer the following questions”部分说明了评估必须经过的步骤，另外也说明了不能简单地说“Y”或者“N”，而是需要给出一些中间的reasoning process或者说intermediate steps，这样的设计很具有技巧，考验你对业务的理解能力，包括对数据的理解能力以及对模型的理解能力等等。

在下面这个评估方法中，有用户的信息，上下文的信息以及对话机器人返回的信息，其中system_message如下：

You are an assistant that evaluates how well the customer service agent \

answers a user question by looking at the context that the customer service \

agent is using to generate its response.

一般来说，系统级别的信息就是上下文(context)，从模型的角度来说，所有输入的东西都是在context的支配下工作的。

上面这个方法基于传入的system_message和user_message，调用方法get_completion_from_messages获得返回的response：

调用方法并打印response如下：

二、关于prompt内部工作机制

训练GPT系列大模型时，一个基本的能力是预测下一个词(word)，那模型为什么能根据我们提供的prompt做出响应？譬如GPT-3，它是根据前面的内容来产出下一个word，前面的内容你都可以认为是prompt。

这个问题的本质是GPT-3/GPT-4是如何训练的，在已有的一个基础的大模型（base LLM）的前提条件下，会经历以下几个核心步骤：

-以一问一答的方式提供样例数据给这个base LLM

-由data contractor人工检查LLM的输出（即human-rating操作），看什么是有用的，什么是没用的

-使用RLHF来调整模型对产生更高rating的输出增加概率

经过上述步骤后会导致我们输入一个prompt（譬如上面说到的evalution使用的看起来有点复杂的prompt）后，会产生相应的结果。

用户在不断地与对话机器人进行交互时，对话机器人在产出结果时至少要考虑两个层面的东西：一是用户输入的内容，二是系统的设定。

Prompt的使用形式有如下几种：

-问答的形式，给一个输入，返回一个输出

-Chain of Thought（CoT）

-Self Consistency with CoT（CoT-SC）

-Tree of Thoughts（ToT），根据用户的输入产生一个树状结构，每一层表示针对上面的节点的prompt或者step产生的结果，譬如第一层针对输入可能会产生不同的结果，然后层层递推，其中存在一个evaluation system，就是判断哪个路径是最相关或者说产出的结果最能够完成用户指定的问题或者任务。

三、从一篇论文来剖析prompt

我们需要思考在一个prompt中，有哪些因素能够影响到一个prompt的功能，另外也要考虑如何使一个prompt最小化，因为这涉及到tokens的使用数量，另外如果信息太多也会干扰到模型对信息的“理解”（这里的“理解”指的是一种形式上的理解，本质上来说模型是无法像人类一样真正理解我们提供的信息的）。

下面这篇论文很重要，提出了几个核心的论述：

-在输入的一个prompt中，“factual patterns”的存在对于CoT的成功来说并不重要

-对于模型来说，中间的步骤（intermediate steps）会作为灯塔信号，让模型参照用户输入中的符号（symbols）构成的patterns来产出结果，模型表现出的仅仅是一种形式上的推理论证

-模型在训练时会获得commonsense knowledge and meaning，从而帮助模型在用户输入的文本形式的prompt中找到patterns

-通过试验分析揭示了在text和patterns之间存在类似生物间相互依赖的一种关系，模型会从文本中基于常识获取patterns，patterns反过来会强化模型对任务进行形式上的理解和指导结果信息的生成

-你能够尽量去裁剪prompt，只留下关键的信息，基于常识依旧能够表达patterns，这些patterns能够指导模型“理解”prompt指定的任务来生成结果

-prompt中的符号的具体形式（exact type of symbols）不影响模型的表现

-CoT帮助模型以prompt为例来学习其中的patterns，然后为任务生成正确的tokens

Prompt本质解密及Evaluation实战（一）

一、基于evaluation的prompt使用解析基于大模型的应用评估与传统应用程序的评估不太一样，特别是基于GPT系列或者生成式语言模型，因为模型生成的内容与传统意义上所说的内容或者标签不太一样。以下是借用了ChatGPT官方的evaluation指南提出的对结果的具…...

编程日记 2023/8/24 11:01:45

linux 在系统已有python2版本下安装python3

方法一：使用包管理器安装更新包索引： sudo apt update 安装Python3： sudo apt install python3 安装Python3的pip（如果你需要）： sudo apt install python3-pip 验证Python 2和3的安装： pyt…...

编程日记 2023/8/24 11:00:43

IO多路转接 ——— select、poll、epoll

select初识 select是系统提供的一个多路转接接口。 select系统调用可以让我们的程序同时监视多个文件描述符的上的事件是否就绪。 select的核心工作就是等，当监视的多个文件描述符中有一个或多个事件就绪时，select才会成功返回并将对应文件描述符的就绪…...

编程日记 2023/8/24 10:59:42

FPGA原理与结构——FIFO IP核原理学习

一、FIFO概述 1、FIFO的定义 FIFO是英文First-In-First-Out的缩写，是一种先入先出的数据缓冲器，与一般的存储器的区别在于没有地址线， 使用起来简单，缺点是只能顺序读写数据，其数据地址由内部读写指针自动加1完成&…...

编程日记 2023/8/24 10:58:41

【Linux操作系统】Linux中的信号回收：管理子进程的关键步骤

在Linux中，我们可以通过捕获SIGCHLD信号来实现对子进程的回收。当一个子进程终止时，内核会向其父进程发送SIGCHLD信号。父进程可以通过注册信号处理函数，并在处理函数中调用wait()或waitpid()函数来回收已终止的子进程。文章目录借助信号捕…...

编程日记 2023/8/24 10:57:40

Spark大数据分析与实战笔记（第一章 Scala语言基础-1）

文章目录章节概要1.1 初识Scala1.1.1 Scala的概述1.1.2 Scala的下载安装1.1.3 在IDEA开发工具中下载安装Scala插件1.1.4 开发第一个Scala程序章节概要 Spark是专为大规模数据处理而设计的快速通用的计算引擎，它是由Scala语言开发实现的，关于大数据技术…...

编程日记 2023/8/24 10:55:36

R语言03-R语言中的矩阵

概念在R语言中，矩阵（Matrix）是一个二维的数据结构，由行和列组成，其中所有元素必须具有相同的数据类型。矩阵可以用于存储数值型数据，常用于线性代数运算、统计计算以及数据处理等领域。代码示例 # 创建…...

编程日记 2023/8/24 10:54:35

“深入理解JVM：探索Java虚拟机的工作原理与优化技巧“

标题：深入理解JVM：探索Java虚拟机的工作原理与优化技巧摘要：本文将深入探索Java虚拟机（JVM）的工作原理及优化技巧。我们将介绍JVM的架构和组成部分，解释JVM是如何将Java字节码转换为可执行代码的。我们还…...

编程日记 2023/8/24 10:53:33

SQL注入原理

SQL、SQL注入是什么？ 结构化查询语言(Structured Query Language，SQL)，是一种特殊的编程语言，用于数据库的标准数据查询。1986 年10 月美国国家标准协会对SQL 进行了规范后，以此作为关系型数据库系统的标准语言。1987 …...

编程日记 2023/8/24 10:52:32

PIL.Image和base64，格式互转

将PIL.Image转base64 ##PIL转base64 import base64 from io import BytesIOdef pil_base64(image):img_buffer BytesIO()image.save(img_buffer, formatJPEG)byte_data img_buffer.getvalue()base64_str base64.b64encode(byte_data)return base64_str将base64转PIL.Image …...

编程日记 2023/8/24 10:51:31

vue父子组件传值（v-model）

父组件使用v-model传值给子组件 <template> <el-button click"addMenu(new)">打开弹框</el-button> <MediaDialog :name"name" v-model:visible&qu…...

编程日记 2023/8/24 10:50:29

Java接口详解

接口接口的概念在现实生活中，接口的例子比比皆是，比如：笔记本上的USB口，电源插座等。电脑的USB口上，可以插：U盘，鼠标，键盘等所有符合USB协议的设备电源插座插孔上，…...

编程日记 2023/8/24 10:49:28

Windows共享文件夹，用户密码访问

Windows共享文件夹，用户密码访问小白教程，一看就会，一做就成。 1.先创建一个用户计算机右键----管理----本地用户和组----点击用户进去---右键新建用户这里以kk为例 2.找到你想共享的文件夹 3.共享-想共享的文件夹---右键---属性---共…...

编程日记 2023/8/24 10:48:26

Mac更新node

查看本机node版本 node -v 删除node相关内存 sudo npm cache clean -f 安装n sudo npm install n -g 更新node版本 sudo n stable // 把当前系统的 Node 更新成最新的 “稳定版本” sudo n lts // 长期支持版 sudo n latest // 最新版 sudo n 18.17.1 // 指定安装版本可以顺便…...

编程日记 2023/8/24 10:47:25

2023国赛数学建模思路 - 案例：粒子群算法

文章目录 1 什么是粒子群算法？2 举个例子3 还是一个例子算法流程算法实现建模资料 # 0 赛题思路 （赛题出来以后第一时间在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 1 什么是粒子群算法？ 粒子群算法（Pa…...

编程日记 2023/8/24 10:46:24

Wireshark数据抓包分析之ARP协议

一、实验目的： 通过wireshark的数据抓包了解这个ARP协议的具体内容二、预备知识: 1.Address Resolution Protocol协议，就是通过目标IP的值，获取到目标的mac地址的一个协议 2.ARP协议的详细工作过程，下面描述得非常清晰&#xff…...

编程日记 2023/8/24 10:45:22

6个比较火的AI绘画生成工具

随着人工智能技术的发展，市场上出现了越来越多的人工智能图像生成工具。这些人工智能图像生成工具可以自动创建惊人的图像、艺术作品和设计，以帮助设计师和创意人员更快地实现他们的创造性想法。在本文中，我们将推荐7种最近流行的人工智能图像…...

编程日记 2023/8/24 10:44:21

静力水准仪说明介绍

静力水准仪是测量两点间或多点间相对高程变化的仪器。由储液器、高精度芯体和特别定制电路模块、保护罩等部件组成。沉降系统由多个同型号传感器组成，储液罐之间由通气管和通液管相连通，基准点置于一个稳定的水平基点，当测点相对于基准点发生…...

编程日记 2023/8/24 10:43:20

HAProxy 高级功能与配置

HAProxy 高级功能与配置配置和验证的环境看这篇文章:HAProxy 各种调度算法介绍一.基于 cookie 的会话保持使用cookie关键字来配置后端服务器基于 cookie 的会话持久连接。配置格式 cookie <name> [ rewrite | insert | prefix ] [ indirect ] [ nocache ][ post…...

编程日记 2023/8/24 10:42:18

cuda编程002—流

没有使用同步的情况： #include <stdio.h> #include <cuda_runtime.h>__global__ void test_kernel(){printf("Message from Device.\n"); } void test(){test_kernel<<<1, 1>>>(); } #include <cuda_runtime.h> #i…...

编程日记 2023/8/24 10:41:16

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令范围操作示例指定行范围处理复合命令示例实用技…...

编程新知 2025/11/16 8:24:16

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…...

编程新知 2026/2/8 4:37:24

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/9/21 0:49:02

工业安全零事故的智能守护者：一体化AI智能安防平台

前言： 通过AI视觉技术，为船厂提供全面的安全监控解决方案，涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面，能够实现对应负责人反馈机制，并最终实现数据的统计报表。提升船厂…...

编程新知 2026/1/21 9:20:07

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2026/1/16 16:34:26

.Net框架，除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

编程新知 2026/2/1 19:26:16

Python：操作 Excel 折叠

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】 Python 操作 Excel 系列读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

编程新知 2026/1/30 20:05:06

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

0. 概述上一节对安装和使用有个基本介绍。根据这个 issue 的描述，后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作，其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

编程新知 2026/1/24 6:44:11

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据准备一个容器,例如: …...

编程新知 2026/2/7 10:59:19

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/10/17 21:16:57

相关文章：