当前位置: 首页 > news >正文

何时何地,你需要提示工程、函数调用、RAG还是微调大模型?

介绍

在快速发展的生成式人工智能领域,某些流行术语已变得司空见惯:“提示工程”、“函数调用”、“RAG”和“微调”,你应该也经常遇到这些术语,但你是否能够理清这些概念之间的关系?这些其实都是一些大模型的应用策略和技术,本文将描述每个 LLM 策略的作用以及它们之间的关系,并简单介绍如何在它们之间选择最佳的用例。

回顾 LLM 的运作方式

在进一步讨论之前,让我们简单回顾一下 LLM 如何产生输出结果。

通俗地说,这就像完成完形填空一样:

  • 给定一个单词序列,LLM 会查阅词典中的所有单词,并评估每个单词作为下一个单词出现的可能性

  • 最有可能的单词将被选中并用于填空

  • 重复上述步骤,直到没有更多空间可以填写

图片

LLM 如何产生结果

更深入地,为了进行这些“完形填空”,LLM经历了一个训练过程,即阅读所有人类知识并记录将每个 token 视为下一个 token 的可能性。(注意:1 个 token 代表一个或多个单词)

LLM 生成“完形填空”测试结果的过程就是“推理”过程。

训练和推理是使LLM能够按预期发挥作用的两个核心过程。

这也解释了为什么有时 LLM 会自信地说错话——它所训练的人类知识可能没有包含我们希望它谈论的主题的足够信息。

因此,为了使 LLM 能够正常运作,我们需要向 LLM 提供更多有关主题的背景有用信息。

所有策略,包括函数调用、RAG 和微调都是围绕这一点展开的。它们是为 LLM 提供更多上下文有用信息的不同方法。

这些策略有哪些?它们之间有何关系?

  1. 纯粹的提示

    图片

第一个策略是纯粹的提示。从名称上就可以看出这个策略是如何运作的:

  • 你向 LLM 发出查询
  • LLM 给出了答案

这其实就是“聊天”。你和 LLM 聊天就像和另一个人聊天一样。

当我们与 LLM 驱动的聊天机器人(例如 ChatGPT、Gemini 和 Copilot)聊天时,我们每天都会使用此策略。

2.代理+函数调用

图片

第二种策略是 Agent 加函数调用。

此策略的工作原理如下:

  • 你向 LLM发出查询

  • LLM 不会直接回答你,而是会参考给定的工具包,从中选择一个工具来先执行一些任务

    为什么 LLM 会这样做?可能是因为它需要一些额外的信息,或者在回答你的问题之前需要满足一些先决条件。

    这里的工具包是预先编写的函数或 API 调用的列表

    LLM 将决定它想要使用的工具,并返回该工具的名称(即函数名称)

  • 收到工具名称(函数名称)后,使用该工具(即调用函数)执行LLM所需的任务,并获取一些有用的信息。

  • 您将有用的信息传回给 LLM,LLM 会使用它来生成对您原始查询的响应

如果这听起来仍然很抽象,让我们举一个例子:

  • 你以旅行社的身份向 LLM 发出查询,例如“为我规划一次即将到来的圣诞节假期巴厘岛之旅”
  • LLM 认为,为了给你安排一个好的旅行,它首先需要你的预算信息。它参考了包含 get_budget()、get_destination_info()、get_weather() 等多个工具的给定工具包,并决定使用名为 get_budget() 的工具。
  • 收到建议的工具名称后,您(作为应用程序)调用该函数get_budget()。假设它返回给您1000 元的预算。
  • 你把1000元的预算信息传递给LLM,LLM会根据你的预算为你生成一份旅行计划清单

注意:函数调用绝对不仅限于单个函数。在此示例中,LLM 可能决定它还需要天气信息和目的地信息,因此它可能会选择其他工具。将调用哪些函数get_destination_info()以及get_weather()调用多少个函数取决于不同的因素,其中包括:

  • 工具包中提供了哪些功能
  • 上下文包括系统提示、用户提示和历史用户信息
  • 等等

您可能已经注意到,这个过程涉及LLM(提供任何可能的答案)以及函数/API 调用(带有预设逻辑)。

与使用硬编码逻辑(例如 if else)来决定何时调用哪个函数/API 的传统方法不同,此过程利用 LLM 的强大功能根据上下文动态地决定何时调用哪个函数/API。

而且不同于单纯的提示,这个过程使得LLM能够通过函数/API调用与外部系统集成。

3. RAG(检索增强生成)

图片

第三个策略是RAG。

除了上面 Agent + Function Calling 中提到的函数/API工具包之外,我们还可以为LLM提供一个知识库,知识库一般通过向量数据库来实现。

构建知识库:

  • 我们收集与某些主题相关的文件,以便 LLM 能够准确地讨论这些主题
  • 我们把它们分成更小的块
  • 然后,我们为每个块创建嵌入(即数字表示),并将它们存储在向量数据库中

这个策略的工作原理如下:

  • 你向 LLM发出查询
  • 应用程序将从知识库中检索与用户查询最相关的信息。这就是“检索”的过程

检索到的信息将成为传递给 LLM 的最终提示的一部分。这是“增强”的过程(增强提示)

LLM 根据最终提示生成答案。这是“生成”的过程

4. 微调

图片

第四个策略是微调。

就像编写函数一样,有两种方法可以将变量传递给它:

  • 一是,从参数中传入变量,以便可以在运行时获取它;
  • 二是,将其作为函数内的局部变量。

类似地,我们在上面的 RAG 策略中作为运行时提示传入的上下文知识,也可以在模型训练期间将其嵌入其中。这就是微调的情况。

想象一下,一家专门从事制药业的公司可能拥有庞大的知识库,但公众对此并不知情。在这种情况下,该公司可以选择基础大模型 (LLM),并通过将知识库嵌入新模型本身来对其进行微调。

何时使用哪种策略?

下图不是黄金法则,但可以提供一些指导:

图片

虽然微调看起来像是最终的解决方案,但它通常成本更高且需要付出更多努力。

考虑到 RAG 的核心优势,您可能会发现RAG足以解决 70% 到 80% 的用例:

  • 易于保持最新,因为我们只需要保持文档和矢量数据库为最新
  • 降低成本

可能考虑微调的场景:

  1. 模型输出的稳定性至关重要
  2. 在用户数量庞大的情况下,优化推理成本意义重大
  3. LLM 的生成速度具有重要意义
  4. 私人托管是必须的

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

相关文章:

何时何地,你需要提示工程、函数调用、RAG还是微调大模型?

介绍 在快速发展的生成式人工智能领域,某些流行术语已变得司空见惯:“提示工程”、“函数调用”、“RAG”和“微调”,你应该也经常遇到这些术语,但你是否能够理清这些概念之间的关系?这些其实都是一些大模型的应用策略…...

three.js线框模式

背景 设计师希望弄一个模型的这个效果: 但是,我使用three.js提供的EdgesGeometry死活只能做到下面这种: 后来才知道three.js只支持画三角面,四边形面并不支持,这是由更底层的webGL决定的。 但是在查找资料的过程中&…...

VScode 的简单使用

目录 1. VScode 的使用 1.1 常用插件 1.2 常用快捷键 1. VScode 的使用 1.1 常用插件 1.2 常用快捷键 也可以“ CTRLD ”;使用“CTRL滚轮”即可; ctrl /-,是用来展开/收起代码的; 比如:js 的多行注释是 shiftalt…...

五星级可视化页面(07):城市交通方向,城市畅通的保障。

城市交通方面的可视化大屏,一方面用户可以通过五星级可视化页面快速了解城市交通方向,实时掌握交通状况,选择最佳出行方案,提高出行效率,另一方面也有助于城市交通管理部门进行交通流量调度和管理。 本期发布一些经典…...

贪心+构造,1924A - Did We Get Everything Covered?

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1924A - Did We Get Everything Covered? 二、解题报告 1、思路分析 我…...

麦汁煮沸工艺

麦汁煮沸是啤酒酿造中至关重要的工艺环节之一,直接影响啤酒的风味。今天,天泰邀您一起深入探讨这一关键的酿造技术。 煮沸麦汁 在煮沸麦汁时,时间和温度控制至关重要。通常,麦汁煮沸持续 40 到 50 分钟,具体时间取决于…...

企业级WEB应用服务器---TOMACT

一、WEB技术介绍 1.1 Http和B/S结构 操作系统一般都有子进程系统,使用多进程就可以充分利用硬件资源,提高效率。在前面的学习中我们了解到进程中可以有多个线程,且每一个线程都可以被CPU调度执行,这样就可以让程序并行执行。一台…...

前端:JavaScript中的this

前端:JavaScript中的this 1. this的指向2. 指定this的值3. 手写call方法4. 手写apply方法5. 手写bind方法 1. this的指向 在非严格模式下,总是指向一个对象;在严格模式下可以是任意值。 开启严格模式,如果是为整个脚本开启&#…...

Zynq7020 SDK 初学篇(5)- 中断

1.开发背景 基于上一个篇章 GPIO 使用,引入中断的使用。 2.开发需求 PS 和 PL 按键输入中断,并输出对应的日志打印 3.开发环境 Zynq7020 Vivado2017.4 4.实现步骤 4.1 设计配置 PL Key0 56 PS key0 12 PS key1 11 4.2 代码编写 GPIO 配置 #if…...

如何清缓存

谷歌浏览器: ctrlshiftR 360安全浏览器如下图 1、点击右上角三横杠-点击“设置” 2、进入设置后-点击“安全设置”-点击“清理上网痕迹设置” 3、时间范围选全部-只勾选浏览器缓存的临时文件,其他的别勾选 4、点击“立即清除”...

《计算机算法设计与分析》笔记

第一章 算法概述 1.1算法性质: 输入、输出、确定性、有限性 1.2时间复杂度 上界记号O:如果存在正的常数C和自然数N0,使得当N≧N0时有f(N)≦Cg(N),则f(N)有上界函数g(N),记为f(N) O(g(N))。 同阶记号θ:…...

智能指针怎么就智能了?

在C中,内存泄漏是一个不太容易发现但又有一定影响的问题,而且在引入了异常的机制之后,代码的走向就更加不可控,更容易发生内存泄露。【补充:内存泄露(Memory Leak)指的是在程序运行期间&#xf…...

mysql 限制用户登录次数超过3次就 锁定账户在一段时间内不运行操作

这里是引用 主要实现步骤: 1.目测安装的mysql版本得是5.7.40往上,因为我的版本是5.7.14发现里面没有控制等下限制这个插件,插件具体的查看是在你安装目录下的lib/pugin下面 比如我的:C:\zz\ProgramFiles\MySQL\MySQL Server 5.7\l…...

深度学习中的常用线性代数知识汇总——第二篇:行列式、逆矩阵、特征值与特征向量

文章目录 0. 前言1. 行列式1.1 行列式的定义1.2 行列式的计算方法1.3 行列式的性质1.4 行列式在深度学习中的应用 2. 逆矩阵2.1 逆矩阵的定义2.2 逆矩阵的计算方法2.3 逆矩阵的性质2.4 逆矩阵在深度学习中的应用 3. 特征值与特征向量3.1 特征值与特征向量的定义3.2 特征值和特征…...

《MaPLe: Multi-modal Prompt Learning》中文校对版

系列论文研读目录 文章目录 系列论文研读目录题目:《Maple:多模态提示学习》摘要1.简介2.相关工作视觉语言模型:提示学习:视觉语言模型中的提示学习: 3.方法3.1.回看CLIP编码图像:编码文本:Zero…...

MFC修改控件ID的详细说明

控件的ID可以在该对话框的.rc中修改 首先需要开启资源视图 然后在资源视图中打开该对话框 选中某个控件,就可以在属性面板中修改ID了 在此处修改ID后,对应Resource.h中也会发生变化 若在.rc中创建了一个控件时,Resource.h中会生成一个对应…...

MySQL高可用配置及故障切换

目录 引言 一、MHA简介 1.1 什么是MHA(MasterHigh Availability) 1.2 MHA的组成 1.3 MHA的特点 1.4 MHA工作原理 二、搭建MySQL MHA 2.1 实验思路 2.2 实验环境 1、关闭防火墙和安全增强系统 2、修改三台服务器节点的主机名 2.3 实验搭建 1、…...

AI模型一体机:智能办公的未来

引言 随着人工智能技术的飞速发展,我们正步入一个全新的智能办公时代。AI模型一体机,作为这个时代的先锋产品,正以其强大的功能和便捷的操作,改变着我们的工作方式。它不仅仅是一个硬件设备,更是一个集成了最新人工智…...

jina的Embedding Reranker

插入向量库是否需要使用 Jina 的 Embedding 和 Reranker 取决于你希望如何处理和优化语义搜索的质量。以下是使用 Jina Embedding 和 Reranker 的原因,以及它们如何作用于插入向量库的流程。 1. Jina 的 Embedding 作用 Jina 是一个流行的开源框架,用于…...

Prompt Engineer: 使用Thought来提升LLM的回复能力

这是一个小的实验, 用来测试思维导图这种表达形式对于LLM在答案组织上是否会有帮助 结构化Prompt 根据目前的测试来看, 结构化Ptompt在实践中有着很好的可读性以及可维护性. (通常来说我使用Markdown格式来作为输入的格式, 虽然在内容完整性上存在问题, 但是我是不喜欢写丑陋…...

tekton构建标准ci(clone repo, test, build push img)

场景介绍 我们在上一篇文章中构建了一个最简单的ci,接下来我们对我们的github的项目构建一个较标准的ci。 Tekton简介,安装和构建最简单ci/cd-CSDN博客文章浏览阅读239次,点赞2次,收藏2次。本文介绍了tekton是什么,如…...

【电力系统】复杂网络分析在电力系统规范中的应用

摘要 复杂网络分析在电力系统中的应用为理解和优化电力系统的运行提供了新的视角。本文探讨了复杂网络理论在电力系统规范中的应用,通过分析电力系统的拓扑结构、节点重要性和脆弱性,提出了优化电力系统设计和运行的新策略。仿真结果表明,复…...

CDGA|推动数据治理与传统产业深度融合:策略与实践路径

在数字化浪潮席卷全球的今天,数据已成为推动经济社会发展的关键生产要素。传统产业,作为国民经济的基石,正面临着前所未有的转型挑战与机遇。如何让数据治理这一现代管理理念与实践方法深度融入传统产业,促进其转型升级与高质量发…...

【FastAPI】离线使用Swagger UI 或 国内网络如何快速加载Swagger UI

在FastAPI中,默认情况下,当应用启动时,Swagger UI 会通过在线加载 Swagger UI 的静态资源。这意味着如果应用运行在没有互联网连接的环境中,默认的 Swagger 文档页面将无法加载。 为了在离线环境中使用 Swagger UI,你…...

Linux:从入门到放弃

目录 一、基础巩固Linux:常用命令 二、实战应用Linux:CentOS7基础配置Linux:CentOS7安装MySQL 三、常见问题Linux:yum源失效问题 一、基础巩固 Linux:常用命令 二、实战应用 Linux:CentOS7基础配置 Lin…...

SVM 监督学习

一、分类问题 利用一条直线分类存在很多问题 二、SVM 支持向量机 其核心思想是通过在特征空间中找到一个最优的超平面来进行分类,并且间隔最大。分类面尽可能远离样本点,宽度越大越好。 适用于中小型复杂数据集的分类。 三、硬间隔和软间隔 硬&#x…...

奖励模型的训练

文章目录 训练方法训练策略代码实践由于 RLHF 的训练过程中需要依赖大量的人类偏好数据进行学习,因此很难在训练过程中要求人类标注者实时提供偏好反馈。为此,我们需要训练一个模型来替代人类在 RLHF 训练过程中实时提供反馈,这个模型被称为奖励模型。在训练开始前,我们需要…...

Ubuntu22.04之禁止内核自动更新(二百六十八)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…...

kaggle题-房价预测(Pytorch),手把手教,全文代码解释

房价预测 本题是经典的通过表格数据去预测最终值,主要分为几大步骤: 一.将数据集修改为可以代入到网络模型的数字,因为给的数据大部分都是str类型,是无法直接放到网络模型里跑的,例如下图,很多标签值为str类…...

PulseSensor心率传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.接线图 2.引脚描述 3.工作原理:光电容积法原理 4.工作原理:心率采样数据处理算法 三、程序设计 main.c文件 adcx.h文件 adc.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 PulseSensor传感器是一种基…...