当前位置：首页 > news >正文

在langchain中使用自定义example selector

news 2026/2/9 0:11:32

简介

在之前的文章中，我们提到了可以在跟大模型交互的时候，给大模型提供一些具体的例子内容，方便大模型从这些内容中获取想要的答案。这种方便的机制在langchain中叫做FewShotPromptTemplate。

如果例子内容少的话，其实无所谓，我们可以把所有的例子都发送给大语言模型进行处理。

但是如果例子太多的话，每次都发送如此多的内容，会让我们的钱包承受不住。毕竟那些第三方的大语言模型是按token收费的。

怎么办呢？能不能找到一个经济又有效的方法来完成我们的工作呢？

答案就是使用example selector。

使用和自定义example selector

我们回想一下在使用FewShotPromptTemplate的时候，实际上是可以同时传入example_selector和examples。

prompt = FewShotPromptTemplate(example_selector=example_selector, example_prompt=example_prompt, suffix="Question: {input}", input_variables=["input"]
)

这里我们使用了一个example_selector，那么什么是example_selector呢？

从名字上看他的主要作用就是从给定的examples中选择需要的examples出来，提供给大模型使用，从而减少会话的token数目。

langchain中提供了这样的example_selector的实现，我们先来看下它的基础类的定义是怎么样的：

class BaseExampleSelector(ABC):"""Interface for selecting examples to include in prompts."""@abstractmethoddef add_example(self, example: Dict[str, str]) -> Any:"""Add new example to store for a key."""@abstractmethoddef select_examples(self, input_variables: Dict[str, str]) -> List[dict]:"""Select which examples to use based on the inputs."""

可以看到BaseExampleSelector继承自ABC,并且定义了两个需要实现的抽象方法。

一个方法叫做add_example。目的是向selector中添加一个example。

一个方法叫做select_examples，主要目的就是根据input，从examples中找出要select出来的内容。

那么什么是ABC呢？

ABC当然就是你了解到的ABC，但是他还有一些额外的含义。ABC的全称叫做Abstract Base Class,也叫做抽象基类。主要用于在Python程序中创建抽象基类。

他提供了一些@abstractmethod,@abstarctproperty这些装饰方法，来表明具体类的特征。

所以，如果我们想自定义一个ExampleSelector，只需要继承自BaseExampleSelector，然后实现这两个抽象方法即可。

langchain中的ExampleSelector实现

除了自定义实现之外，langchain已经为我们提供了几个常用的ExampleSelector实现，一起来看看吧。

LengthBasedExampleSelector

LengthBasedExampleSelector是根据example的长度来进行选择的选择器。

我们看下它的具体实现：

    def add_example(self, example: Dict[str, str]) -> None:"""Add new example to list."""self.examples.append(example)string_example = self.example_prompt.format(**example)self.example_text_lengths.append(self.get_text_length(string_example))

add_example的逻辑是先把example添加到examples这个list中。

然后使用example_prompt对example进行格式化，得到最终的输出。

最后再把最后输出的text长度添加到example_text_lengths数组中。

    def select_examples(self, input_variables: Dict[str, str]) -> List[dict]:"""Select which examples to use based on the input lengths."""inputs = " ".join(input_variables.values())remaining_length = self.max_length - self.get_text_length(inputs)i = 0examples = []while remaining_length > 0 and i < len(self.examples):new_length = remaining_length - self.example_text_lengths[i]if new_length < 0:breakelse:examples.append(self.examples[i])remaining_length = new_lengthi += 1return examples

select_examples方法实际上就是用max_length减去输入text的长度，然后再去匹配example_text的长度，匹配一个减去一个，最终得到特定长度的examples。

这个selector的最主要作用就是防止耗尽context window。因为对于大多数大语言模型来说，用户的输入是有长度限制的。

如果超出了输入长度，会产生意想不到的结果。

这个selector使用起来很简单，下面是具体的例子：

examples = [{"input": "happy", "output": "sad"},{"input": "tall", "output": "short"},{"input": "energetic", "output": "lethargic"},{"input": "sunny", "output": "gloomy"},{"input": "windy", "output": "calm"},example_prompt = PromptTemplate(input_variables=["input", "output"],template="Input: {input}\nOutput: {output}",
)
example_selector = LengthBasedExampleSelector(examples=examples, example_prompt=example_prompt, max_length=25,
)

SemanticSimilarityExampleSelector和MaxMarginalRelevanceExampleSelector

这两个selector是根据相似度来进行example的查找的。

其中MaxMarginalRelevanceExampleSelector是SemanticSimilarityExampleSelector的字类，他是对SemanticSimilarityExampleSelector进行了一些算法上的优化。所以这里我们把他们两个放在一起介绍。

这两个selector和之前介绍的selector有所不同。因为他们用到了向量数据库。

向量数据库是干什么用的呢？它的主要目的是把输入转换成各种向量然后存储起来。向量数据库可以方便的进行输入相识度的计算。

我们先来看下他们的add_example方法：

    def add_example(self, example: Dict[str, str]) -> str:"""Add new example to vectorstore."""if self.input_keys:string_example = " ".join(sorted_values({key: example[key] for key in self.input_keys}))else:string_example = " ".join(sorted_values(example))ids = self.vectorstore.add_texts([string_example], metadatas=[example])return ids[0]

这个方法先把example的key加入到input_keys中，然后进行排序。最后通过调用vectorstore的add_texts，把key和value加入到向量数据库中。

这两个selector的add_example都是一样的。只有select_examples的方法不同。

其中SemanticSimilarityExampleSelector调用了vectorstore的similarity_search方法来实现相似度的搜索。

而MaxMarginalRelevanceExampleSelector则是调用vectorstore的max_marginal_relevance_search方法来实现搜索的。

两者的搜索算法不太一样。

因为使用了向量数据库，所以他们的调用方法和其他的也不太一样：

examples = [{"input": "happy", "output": "sad"},{"input": "tall", "output": "short"},{"input": "energetic", "output": "lethargic"},{"input": "sunny", "output": "gloomy"},{"input": "windy", "output": "calm"},
]example_selector = SemanticSimilarityExampleSelector.from_examples(examples, # 使用的ebeddingsOpenAIEmbeddings(), # 向量数据库Chroma, # 要返回的数目k=1
)

NGramOverlapExampleSelector

最后一个要介绍的是NGramOverlapExampleSelector。这个selector使用的是ngram 重叠矩阵来选择相似的输入。

具体的实现算法和原理这里就不介绍了。大家有兴趣的可以自行探索。

这个selector也不需要使用向量数据库。

使用起来是这样的：

example_selector = NGramOverlapExampleSelector(examples=examples,example_prompt=example_prompt,threshold=-1.0,
)

这里有个不太一样的参数叫做threshold。

对于负阈值：Selector按ngram重叠分数对示例进行排序，不排除任何示例。

对于大于1.0的阈值：选择器排除所有示例，并返回一个空列表。

对于等于0.0的阈值：选择器根据ngram重叠分数对示例进行排序，并且排除与输入没有ngram重叠的那些。

总结

有了这些selector我们就可以在提供的examples中进行特定的选择，然后再把选择的结果输入给大语言模型。

从而有效的减少token的浪费。

在langchain中使用自定义example selector

在langchain中使用自定义example selector 简介在之前的文章中，我们提到了可以在跟大模型交互的时候，给大模型提供一些具体的例子内容，方便大模型从这些内容中获取想要的答案。这种方便的机制在langchain中叫做FewShotPromptTemplate。如…...

编程日记 2023/8/9 7:01:20

pytest常用执行参数详解

1. 查看pytest所有可用参数我们可以通过pytest -h来查看所有可用参数。从图中可以看出，pytest的参数有很多，下面是归纳一些常用的参数： -s：输出调试信息，包括print打印的信息。 -v：显示更详细的信息。 …...

编程日记 2023/8/9 7:00:19

本地项目如何连接git远程仓库

在本地新建项目后，如何连接git远程仓库呢？步骤如下： 第一步， 首先我们在git上新建仓库，设置模板可勾选Readme文件。（readme文件的创建是为了介绍所写代码的一些详细信息,为了之后更好的维护。）…...

编程日记 2023/8/9 6:59:18

力扣 494. 目标和

题目来源：https://leetcode.cn/problems/target-sum/description/ C题解（来源代码随想录）：将该问题转为01背包问题。假设加法的总和为x，那么减法对应的总和就是sum - x。所以我们要求的是 x - (sum - x) target。x …...

编程日记 2023/8/9 6:58:16

Maven-搭建私有仓库

使用NEXUS REPOSITORY MANAGER 3在Windows上搭建私有仓库。 NEXUS REPOSITORY MANAGER 3 是一个仓库管理系统。下载NEXUS3 官网上是无法下载的,所以网上搜nexus-3.18.1-01-win64就能搜到,下载即可。安装NEXUS3 下载nexus-3.18.0-01-win64.zip至相应目录下(路径不要有中文)。 …...

编程日记 2023/8/9 6:57:15

PostgreSql 参数配置

一、访问控制参数配置 https://xiaosonggong.blog.csdn.net/article/details/124264877 二、数据库参数配置 2.1 概述 PostgreSQL 的参数配置参数是在 postgresql.conf 文件中集中管理的，类似于 Oracle 的 pfile 文件，除此之外，PostgreSQL…...

编程日记 2023/8/9 6:56:14

【BMC】OpenBMC开发基础2：修改原有程序

修改原有程序通常情况下我们会需要修改OpenBMC原有的程序来适配我们的项目，本节将介绍一般的流程。为此首先我们需要了解devtool这个工具，注意它不是前端开发用的那个devtool，而是由OE（或者Yocto？）提供…...

编程日记 2023/8/9 6:55:11

2012年数学建模竞赛脑卒中发病环境因素分析及干预日期数据处理代码

因四个表格日期数据处理有些复杂，故作此代码一次性处理四组数据： import datetime import pandas as pddef check(string, df, i, num, error_list):if is_valid(pd.to_datetime(string, errorscoerce, format%Y/%m/%d), error_list, i):df.iloc[i, nu…...

编程日记 2023/8/9 6:54:10

Merge和Rebase的区别

Merge 和 Rebase 是 Git 中常用的两种分支整合方式，它们具有不同的工作原理和效果： Merge（合并） 合并是将两个或多个分支的提交历史合并为一个新的提交。在合并时，Git 会创建一个新的合并提交，将两个分支…...

编程日记 2023/8/9 6:53:09

[RTKLIB]模糊度固定相关问题(二)

编程日记 2023/8/9 6:52:08

QtAV for ubuntu16.04

下载ubuntu https://releases.ubuntu.com/16.04/ubuntu-16.04.7-desktop-amd64.iso 下载ffmpeg https://ffmpeg.org/download.html 下载QtAV https://github.com/wang-bin/QtAV/releases 更新 sudo apt update 安装库 sudo apt-get install libglu1-mesa-dev freeglut3-dev…...

编程日记 2023/8/9 6:51:06

MFC 文件读写包括字符串的结构体

试过CString char* 写入的都是地址 struct Param{int ID;int index;char val[128]; };vector<Param>ans; UINT count 17; ans.resize(count); FILE* fp; fopen_s(&fp,_T("my.txt"),_T("rb")); if(count ! fread(&ans[0],sizeof(Param),cou…...

编程日记 2023/8/9 6:50:05

在家构建您的迷你聊天Chat gpt

推荐：使用 NSDT场景编辑器助你快速搭建可编辑的3D应用场景什么是指令遵循模型？ 语言模型是机器学习模型，可以根据句子的前一个单词预测单词概率。如果我们向模型请求下一个单词，并将其递减地反馈给模型以请求更多单词&#xff…...

编程日记 2023/8/9 6:49:03

pytest自动化测试框架之断言

前言断言是完整的测试用例中不可或缺的因素，用例只有加入断言，将实际结果与预期结果进行比对，才能判断它的通过与否。 unittest 框架提供了其特有的断言方式，如：assertEqual、assertTrue、assertIn等，py…...

编程日记 2023/8/9 6:48:01

C++模板的用法

目录模板的概念函数模板（Function Templates） 基本用法函数模板的实例化匹配原则类模板（Class Templates） 模板的概念 C中的模板（Templates）实际上是一种泛型编程（Generic Programm…...

编程日记 2023/8/9 6:47:00

ESP 32 蓝牙虚拟键盘链接笔记本电脑的键值问题

由于打算利用esp32 通过蓝牙链接电脑后实现一些特俗的键盘功能，所以就折腾了一下，折腾最耗费时间的却是键值问题，让一个20多年的老司机重新补充了知识过程曲折就不说了，直接说结果。我们通过网络搜索获取的键值和蓝牙模拟键盘传…...

编程日记 2023/8/9 6:45:59

128.【Maven】

Maven仓库 (一)、Maven 简介1.传统项目管理的缺点2.Maven是什么3.Maven的作用 (二)、Maven 的下载与安装1.下载与认识目录2.配置Maven的全局环境 (三)、Maven 的基础概念1.Maven 仓库(1).仓库分类 2. Maven 坐标3.Maven 本地仓库配置(1).改变默认的仓库地址(2).改变远程仓库地址…...

编程日记 2023/8/9 6:44:57

嵌入式虚拟仿真实验教学平台之串口发送数据

嵌入式虚拟仿真实验教学平台课程系列串口发送数据实验课程内容本实验使用 STM32 的串口发送数据。开始仿真后,打开串口监视器，串口监视器会打印出要发送的数据。课程目标学习配置使用GPIO功能学习配置使用复用功能学习配置使用UART功能硬件设计本课程…...

编程日记 2023/8/9 6:43:56

Android Studio 屏幕适配

Android开发屏幕适配流程首先studio中没有ScreenMatch这个插件的，下去现在这个插件点击File->settings->Plugins->(搜索ScreenMatch插件)，点击下载，应用重启Studio即可，如下图在values下创建dimens.xml&#xff0c…...

编程日记 2023/8/9 6:42:54

【C++】C++11--- 线程库及详解lock_guard与unique_lock

目录一、thread类的介绍二、线程函数参数三、原子性操作库四、lock_guard与unique_lock4.1、mutex的种类4.2 lock_guard4.3 unique_lock 一、thread类的介绍在C11之前，涉及到多线程问题，都是和平台相关的，比如**windows和linux下各有自己…...

编程日记 2023/8/9 6:41:53

uniapp 对接腾讯云IM群组成员管理（增删改查）

UniApp 实战：腾讯云IM群组成员管理（增删改查） 一、前言在社交类App开发中，群组成员管理是核心功能之一。本文将基于UniApp框架，结合腾讯云IM SDK，详细讲解如何实现群组成员的增删改查全流程。权限校验…...

编程新知 2026/1/13 9:59:27

高等数学（下）题型笔记（八）空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

编程新知 2026/1/28 9:04:29

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2026/2/6 9:24:15

力扣-35.搜索插入位置

题目描述给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。 class Solution {public int searchInsert(int[] nums, …...

编程新知 2025/12/3 3:22:43

Vite中定义@软链接

在webpack中可以直接通过符号表示src路径，但是vite中默认不可以。如何实现： vite中提供了resolve.alias：通过别名在指向一个具体的路径在vite.config.js中 import { join } from pathexport default defineConfig({plugins: [vue()],//…...

编程新知 2026/1/24 13:26:57

Chromium 136 编译指南 Windows篇：depot_tools 配置与源码获取（二）

引言工欲善其事，必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后，我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集，就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...

编程新知 2026/2/8 22:05:17

React从基础入门到高级实战：React 实战项目 - 项目五：微前端与模块化架构

React 实战项目：微前端与模块化架构欢迎来到 React 开发教程专栏的第 30 篇！在前 29 篇文章中，我们从 React 的基础概念逐步深入到高级技巧，涵盖了组件设计、状态管理、路由配置、性能优化和企业级应用等核心内容。这一次&…...

编程新知 2025/10/18 20:50:06

DeepSeek越强，Kimi越慌？

被DeepSeek吊打的Kimi，还有多少人在用？ 去年，月之暗面创始人杨植麟别提有多风光了。90后清华学霸，国产大模型六小虎之一，手握十几亿美金的融资。旗下的AI助手Kimi烧钱如流水，单月光是投流就花费2个亿。疯…...

编程新知 2026/1/28 12:15:05

高端性能封装正在突破性能壁垒，其芯片集成技术助力人工智能革命。

2024 年，高端封装市场规模为 80 亿美元，预计到 2030 年将超过 280 亿美元，2024-2030 年复合年增长率为 23%。细分到各个终端市场，最大的高端性能封装市场是“电信和基础设施”，2024 年该市场创造了超过 67% 的收入。…...

编程新知 2026/2/1 21:56:22

Java多线程实现之Runnable接口深度解析

Java多线程实现之Runnable接口深度解析一、Runnable接口概述1.1 接口定义1.2 与Thread类的关系1.3 使用Runnable接口的优势二、Runnable接口的基本实现方式2.1 传统方式实现Runnable接口2.2 使用匿名内部类实现Runnable接口2.3 使用Lambda表达式实现Runnable接口三、Runnabl…...

编程新知 2025/9/15 15:07:19

简介

使用和自定义example selector

langchain中的ExampleSelector实现

LengthBasedExampleSelector

SemanticSimilarityExampleSelector和MaxMarginalRelevanceExampleSelector

NGramOverlapExampleSelector

总结

相关文章：