当前位置：首页 > news >正文

小试牛刀调整Prompt，优化Token消耗

news 2025/7/8 11:10:07

在上一篇文章荒腔走板Mac电脑本地部署 LLM 中介绍过本地部署大模型之后，可以通过定制 prompt 来实现 domain 提取等各种各样的需求。

但是实际上，部署本地大模型 这种方式对于个人开发者来说实在是不太友好。一方面需要投入大量资金确保设备的算力足够支撑LLM的训练和推理；另一方面本地部署的大模型的量级都不会太大，所以效果也不会太理想。

对于个人开发者来说，想开发一个 AI 应用，最快的方式就是集成某个大模型平台 API。这种情况下，所有的成本主要体现在 Token 花费。以下是各大 LLM 平台的 Token 价格：

通义千问

智普

百度文心Ernie

月之暗面 Kimi

谷歌 Gemini

Claude

接下来我将使用通义千问平台实现一个伪需求，来看下具体的 Token 使用情况。

实际上各个平台都提供了一定量的免费Token，之所以采用通义千问，是因为通义千问相对便宜。

通义千问实现展览馆搜索

我将实现的伪需求是：列举某个城市的3个展览馆，并分别介绍每一个展览馆的一些藏品。

返回JSON格式

通过定制 Prompt，可以让大模型返回固定格式的数据，一种常用的格式就是 JSON。 Prompt 如下：

具体代码如下：

返回结果如下图：

很明显，通义千问大模型返回的结果是符合我们需求的。但是请求时间使用了将近 17s，并且一次性消耗了 543 个 Token。1百万的Token量只能支持访问 1000000/543 = 1841 次请求。

假设你开发的大模型应用比较受大众欢迎，有1000个日活用户，每个用户每天会请求10次请求。那你每天的 Token 消耗计算公式如下：

1000用户 * 10次请求 * 单次请求Token 543 = 5430000个

作为一名合格的穷人，一定要节约使用 Token。如何优化 prompt，尽量在不损失准确率的基础上，减少 token 的使用量，显得尤为重要。

精简 JSON 格式

在基于JSON格式的基础上，进行格式精简并删除非必要内容。在之前 Prompt 基础上新增如下内容：

可以看出，Prompt新增了一行 "使用精简模式的JSON，删除一切不必要的空格和换行符号"。

具体修改代码如下：

运行上述代码，最终返回结果如下：

明显可以看出性能有明显提升：推理耗时优化到8s，并且 Token 消耗也减少到393个。

使用自定义格式

实际上就算是精简后的JSON格式，依然是一种比较复杂的数据格式。我们可以通过自定义一种简单，进一步减少大模型推理的耗时以及Token使用。

比如以下格式：

上图中我们自定义的格式相比于JSON格式，虽然可读性很差，但是对于高性能的机器来说不算一件难事。我用 ! 符号代表一个JSON的Object，用 ? 符号代表一个字符串，最后用 # 符号代表数组对象。

具体修改代码如下：

最终运行结果如下图：

通过自定义数据格式，到模型推理的时间和Token消耗被进一步优化。

Prompt Engineering 是一个不断持续优化的过程，但是也是有一些基本规则的。后面文章会尝试梳理如何写一个完善 Prompt 的基本准则。

如果你喜欢本文

长按二维码关注

小试牛刀调整Prompt，优化Token消耗

我将实现的伪需求是：列举某个城市的3个展览馆，并分别介绍每一个展览馆的一些藏品。

通过定制 Prompt，可以让大模型返回固定格式的数据，一种常用的格式就是 JSON。 Prompt 如下：

在基于JSON格式的基础上，进行格式精简并删除非必要内容。在之前 Prompt 基础上新增如下内容：

可以看出，Prompt新增了一行 "使用精简模式的JSON，删除一切不必要的空格和换行符号"。

实际上就算是精简后的JSON格式，依然是一种比较复杂的数据格式。我们可以通过自定义一种简单，进一步减少大模型推理的耗时以及Token使用。

相关文章：

小试牛刀调整Prompt，优化Token消耗

snippets router pinia axios mock

Visual Studio2019调试DLL

深入解析：Docker 容器如何实现文件系统与资源的多维隔离？

vue项目中打包后的地址加载不出图片【五种解决方案】

讯飞星火大模型将超越chatgpt？

3D Vision--计算点到平面的距离

《开源与合作：驱动鸿蒙Next系统中人工智能技术创新发展的双引擎》

Java 高级工程师面试高频题：JVM+Redis+ 并发 + 算法 + 框架

【机器学习】嘿马机器学习（科学计算库）第11篇：Pandas,学习目标【附代码文档】

WordPress Fancy Product Designer插件Sql注入漏洞复现（CVE-2024-51818）（附脚本）

StarRocks强大的实时数据分析

Linux(Centos 7.6)命令详解：iconv

SpringBoot读取配置优先级顺序是什么？

VScode连接远程Linux服务器环境配置

梯度下降法 (Gradient Descent) 算法详解及案例分析

docker 部署 java 项目详解

npm install 报错：Command failed: git checkout 2.2.0-c

Vue基础（2）

(长期更新）《零基础入门 ArcGIS(ArcScene) 》实验七----城市三维建模与分析（超超超详细！！！）

7.4.分块查找

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现，论文初版实现

Device Mapper 机制

Mysql中select查询语句的执行过程

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)

C++：多态机制详解

基于PHP的连锁酒店管理系统

Unity UGUI Button事件流程

【堆垛策略】设计方法