当前位置: 首页 > article >正文

【NLP 63、大模型应用 —— Agent】

人与人最大的差距就是勇气和执行力,也是唯一的差距

                                                                                —— 25.4.16

一、Agent 相关工作


二、Agent 特点

核心特征:

        1.专有场景(针对某个垂直领域)

        2.保留记忆(以一个特定顺序做一些特定任务,记忆当前任务的前后信息)

        3.任务规划(根据任务,制定计划,把大任务拆分为小任务,分为多步进行)

        4.使用工具(查找本地知识库、调用API、执行代码、操作页面)

联网搜索的RAG也可以看作是一种Agent(由模型自己判断是否使用RAG可以看作是一种简单的规划) 


三、Agent之间协作

        多个Agent之间互相合作/讨论,进行解决一个问题;可以有多个Agent,不同的Agent负责不同板块的功能,Agent之间合作的方式可以是串行的,也可以是并行的执行任务;不同的Agent可以是同一个大语言模型,只是传入他们的提示词不同

        Agent还可以与人、环境进行交互 


四、Agent应用示例

1.Agents模仿人类社群

核心设计理念

        用Agents模仿人类社群,设置一个虚拟场景,在场景中放置一些人物,以提示词的方式给人物一些背景设定;将这些所谓的虚拟人物扔在我们设置的这个虚拟场景中,让人物在这个虚拟场景内做一定的任务,不同的人物可以看作是不同的Agent,不同人物通过环境的改变,修改提示词,然后由大语言模型执行对应的动作

        项目旨在借助生成式智能体技术,创造能模拟可信人类行为的计算智能体,构建虚拟人类社群。通过赋予智能体记忆、反思和计划能力,使其在虚拟环境中的互动和行为更接近真实人类,提升人工智能交互的真实感和沉浸感。

核心技术与方法

        智能体模型整合了记忆流、反思机制和计划生成功能。记忆流记录智能体经历,反思机制将短期记忆整理为长期记忆并形成见解,计划生成功能依据记忆和目标制定行动。大语言模型(LLMs)是智能体的决策和对话基础,通过特定提示工程,让智能体基于自身知识和记忆回答问题、规划行动。对智能体角色进行明确分工,不同角色专注特定领域任务,提升大模型输出质量;

项目地址:https://github.com/joonspk-research/generative_agents


2.AutoGPT:帮你在线完成任务

工作原理

        用户输入目标后,AutoGPT 将其分解为子任务,为每个子任务生成提示并执行。在执行过程中,不断根据结果反馈调整策略,直至完成目标。期间会利用自身的短期和长期记忆(借助向量数据库实现)来存储和调用信息,还可通过插件访问网络和其他应用获取实时数据 。

功能特性:

        高度自主性:能根据设定目标自动规划执行步骤,在任务执行中动态调整行为,无需外部干预。例如设定 “制定一个一周的健身计划”,它可自主收集信息、规划每天的锻炼内容和时间安排。

        任务分解与执行:将复杂任务拆解为多个子任务,逐个执行并根据反馈优化操作,以此处理多步骤复杂任务。如生成一份市场调研报告时,会依次完成确定调研主题、收集数据、分析数据、撰写报告等子任务 。

        自我反馈优化:执行任务时评估当前结果,据此调整后续行动,逐步提升任务处理表现,使任务执行更高效准确。

        多任务处理能力:支持同时处理多个独立任务,具备良好的上下文切换能力。比如同时进行文案创作和数据分析任务。

        自然语言交互:支持自然语言输入,用户可用日常语言描述需求,它能理解并转化为操作指令。

        外部交互拓展:可通过 API 与外部系统交互,获取数据、执行网络查询、调用其他应用等,拓展应用场景。例如访问互联网获取实时信息,调用绘图工具生成图表 。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


3.HuggingGPT:由agent根据任务决定去HuggingFace上使用哪个模型

工作原理:

        利用大型语言模型(LLM)连接机器学习社区(如 HuggingFace)中各种 AI 模型,以解决复杂 AI 任务的系统。它以语言为通用接口,LLM 作为控制器,管理众多专家模型协同工作。 

工作流程:

        任务规划:接收到用户请求后,ChatGPT 等 LLM 解析请求,将其分解为多个子任务,并规划任务顺序和依赖关系。例如,若用户请求 “分析一张图片中不同物体,并生成一段描述”,ChatGPT 会将其分解为目标检测、图像描述等子任务,并确定目标检测需先执行,因为图像描述依赖检测出的物体信息。

        模型选择:针对每个子任务,ChatGPT 根据 HuggingFace 中模型的功能描述,选择合适的专家模型。例如,在目标检测任务中,可能选择在该领域表现出色的 YOLO 系列模型。

        任务执行:被选定的专家模型在推理端点上执行分配到的任务,完成后将执行信息和推理结果记录回 LLM。比如图像描述模型完成对图片的描述后,将结果反馈给 ChatGPT。

        响应生成:ChatGPT 汇总执行过程日志和推理结果,整合成完整答案返回给用户。例如,将目标检测出的物体信息和图像描述结合,形成符合用户需求的回复。

项目地址:https://github.com/microsoft/JARVIS


4.MetaGPT:多agent协作代码开发

核心技术与工作原理:

        基于大语言模型(LLM)构建,模拟虚拟软件团队协作。框架包含产品经理、架构师、项目经理、工程师、质量工程师等多种角色智能体,每个智能体有各自的 LLM、观察、思考、行动和记忆能力。借助标准作业程序(SOP),智能体明确分工与协作流程,保障系统有序高效运作。例如,接到软件开发需求,产品经理智能体分析需求、撰写产品需求文档,架构师据此设计系统架构,工程师依架构编写代码 。

功能特点:

        自然语言编程:允许用户用自然语言描述任务,降低编程门槛,非专业人员也能实现软件开发或数据处理。比如输入 “开发一个简单的待办事项管理小程序”,MetaGPT 能理解并生成相应代码。

        多智能体协作:各智能体协同工作,依据 SOP 高效沟通,共同完成复杂任务,提高工作效率和准确性。在大型项目开发中,不同角色智能体各司其职,紧密配合。

        数据解释器:可自动解析自然语言指令,生成代码或执行数据分析任务。用户输入 “分析销售数据并生成趋势图”,它能快速处理 。

项目地址:https://github.com/geekan/MetaGPT/tree/main


5.Voyager:用agent学习玩Minecraft游戏

核心技术与运行机制自动课程生成

        设定 “尽可能发现更多不同事物” 为总体目标,由 GPT-4 于游戏进程和智能体状态生成自动课程。课程难度循序渐进,引导 Voyager 探索游戏世界。比如在游戏前期,会生成像 “收集木材”“建造简单房屋” 这类基础任务;随着游戏进展,任务会逐渐变为 “开采钻石”“建造红石机关” 等更具挑战性的内容。

技能库构建与检索

        Voyager 使用流行的 Javascript Minecraft 操作库(Mineflayer),让 GPT-4 根据任务需求生成游戏操作代码,如 “combatZombie”(对抗僵尸)。每次 GPT-4 生成并验证新技能代码后,先用 GPT-3.5 为代码生成详细注释,再将注释做 Embedding 保存到向量数据库 Chroma 中,形成不断增长的技能库。当接到新任务时,先由 GPT-3.5 根据游戏环境给出任务操作说明,再将其做 Embedding 去技能库检索前 5 个最匹配的操作代码,最后由 GPT-4 决定是调用已有代码还是编写新代码,以尽可能重用已有技能。

迭代提示机制

        执行生成的程序后,从游戏模拟中获取观察结果(如玩家的生命值、饥饿值、物品库存、周围环境信息等)和代码执行错误信息;将这些反馈合并到 GPT-4 的提示中,进行新一轮代码优化;不断重复该过程,直到自我验证模块确认任务完成,此时将程序提交到技能库。比如在尝试制作钻石镐时,若代码执行提示 “缺少钻石材料”,则反馈给 GPT-4,让其调整代码,先去获取钻石。

项目地址:https://github.com/MineDojo/Voyager/tree/main


6.Character-LLM agent做角色扮演

可训练角色扮演 Agent:区别于普通提示驱动的代理,Character-LLM 通过训练学习特定角色的经历、特征和情感,能以特定人物(如贝多芬、凯撒等)的身份进行对话,无需额外提示或参考文档。

经验重建数据生成:提出经验重建(Experience Reconstruction)方法,生成详细多样的角色经验数据用于训练,涵盖角色生活场景、对话等内容,让模型学习角色的行为模式和知识体系。

项目地址:https://github.com/choosewhatulike/trainable-agents/


7.ChatDB Agent与数据库交互

项目地址:https://github.com/huchenxucs/ChatDB

Character-LLM 是一个利用大语言模型(LLM)实现人类行为模拟的角色扮演项目,其核心在于让 AI 模型基于人的记忆、反思和行动来扮演角色,在研究和应用领域有独特价值。

项目核心思想与目标

        受到斯坦福小镇的启发,该项目旨在解决简单的 LLM API 提示词无法满足涉及人类深层次思考和体验的问题。它通过构建一套架构,让 AI 模型模拟人类体验时间、感受情感并记住与他人的互动,以此训练角色代理(agent),进而实现更真实、深入的角色扮演。

项目实现流程

        profile 收集:主要从维基百科等渠道收集人物资料,梳理出人物在特定时间段内发生的事件,为后续的角色塑造提供基础信息。例如收集贝多芬的生平事迹,包括他师从哪些老师、何时发表第一部作品等。

        场景提取:从给定的经验描述中抽取多样化、高质量的场景,涵盖聊天、辩论、讨论、演讲等类型。场景描述简洁且注重背景,像描述贝多芬与老师学习音乐的场景,会突出时间、地点和人物关系,略去细节 。

        对话抽取:结合人物背景信息和提取的场景,借助大模型模拟编剧的角色,生成丰富的对话内容。在生成对话时,要求模型忠实于人物的愿望和要求,充分考虑角色的情感和思维能力,想象角色在特定场景下的言行。比如模拟贝多芬在获得资助时与资助者的对话。

        保护性经验生成:为减少角色的幻觉现象,当遇到超出角色能力范围的问题时,模型学会表示缺乏相关知识。通过这种方式,让角色在面对特定问题时的表现更符合设定,避免出现不符合角色设定的回答。

相关文章:

【NLP 63、大模型应用 —— Agent】

人与人最大的差距就是勇气和执行力,也是唯一的差距 —— 25.4.16 一、Agent 相关工作 二、Agent 特点 核心特征: 1.专有场景(针对某个垂直领域) 2.保留记忆(以一个特定顺序做一些特定任务,记忆当前任务的前…...

React 打包

路由懒加载 原本的加载方式 #使用lazy()函数声明的路由页面 使用Suspense组件进行加载 使用CDN优化...

2025.4.14-2025.4.20学习周报

目录 摘要Abstract1. 文献阅读1.1 模型架构1.2 实验分析1.3 代码实践 总结 摘要 在本周阅读的论文中,作者提出了一种名为MGSFformer的空气质量预测模型。模型通过残差去冗余模块可以有效解耦多粒度数据间的信息重叠;时空注意力模块采用并行建模策略&…...

Spring 微服务解决了单体架构的哪些痛点?

1. 部署困难 (Deployment Difficulty & Risk) 单体痛点: 整体部署: 对单体应用的任何微小修改(哪怕只是一行代码),都需要重新构建、测试和部署整个庞大的应用程序。部署频率低: 由于部署过程复杂且风险高,发布周期通常很长&a…...

【1】云原生,kubernetes 与 Docker 的关系

Kubernetes?K8s? Kubernetes经常被写作K8s。其中的数字8替代了K和s中的8个字母——这一点倒是方便了发推,也方便了像我这样懒惰的人。 什么是云原生? 云原生: 它是一种构建和运行应用程序的方法,它包含&am…...

Kubernetes控制平面组件:APIServer 限流机制详解

云原生学习路线导航页(持续更新中) kubernetes学习系列快捷链接 Kubernetes架构原则和对象设计(一)Kubernetes架构原则和对象设计(二)Kubernetes架构原则和对象设计(三)Kubernetes控…...

springboot全局异常捕获处理

一、需求 实际项目中,经常抛出各种异常,不能直接抛出异常给前端,这样用户体验相当不好,用户看不懂你的Exception,对于一些sql异常,直接抛到页面上也不安全。所以有没有好的办法解决这些问题呢,当然有了&am…...

Flask(1): 在windows系统上部署项目1

1 前言 学习python也有段时间了,最近一个小项目要部署,正好把过程写下来。 在程序的结构上我选择了w/s模式,相比于c/s模式,无需考虑客户端的升级;框架我选择了flask,就是冲着轻量级去的,就是插件…...

【文献阅读】EndoNet A Deep Architecture for Recognition Tasks on Laparoscopic Videos

关于数据集的整理 Cholec80 胆囊切除手术视频数据集介绍 https://zhuanlan.zhihu.com/p/700024359 数据集信息 Cholec80 数据集 是一个针对内窥镜引导 下的胆囊切除手术视频流程识别数据集。数据集提供了每段视频中总共7种手术动作及总共7种手术工具的标注,标…...

基于springboot的个人财务管理系统的设计与实现

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…...

Linux系统编程---孤儿进程与僵尸进程

1、前言 在上一篇博客文章已经对Linux系统编程内容进行了较为详细的梳理,本文将在上一篇的基础上,继续梳理Linux系统编程中关于孤儿进程和僵尸进程的知识脉络。如有疑问的博客朋友可以通过下面的博文链接进行参考学习。 Linux系统编程---多进程-CSDN博客…...

简单使用MCP

简单使用MCP 1 简介 模型上下文协议(Model Context Protocol,MCP)是由Anthropic(产品是Claude)推出的开放协议,它规范了应用程序如何向LLM提供上下文。MCP可帮助你在LLM之上构建代理和复杂的工作流。 从…...

Semaphore的核心机制

在 Java 中,Semaphore 通过 许可计数器 和 同步队列 的机制实现并发线程数的限制。以下是其核心实现原理和步骤的详细分析: 一、核心机制 许可计数器(Permits) • 初始化时指定的许可数(如 new Semaphore(3)&#xff0…...

计算机视觉与深度学习 | RNN原理,公式,代码,应用

RNN(循环神经网络)详解 一、原理 RNN(Recurrent Neural Network)是一种处理序列数据的神经网络,其核心思想是通过循环连接(隐藏状态)捕捉序列中的时序信息。每个时间步的隐藏状态 ( h_t ) 不仅依赖当前输入 ( x_t ),还依赖前一时间步的隐藏状态 ( h_{t-1} ),从而实现…...

Keil MDK 编译问题:last line of file ends without a newline

问题与处理策略 问题描述 ..\..\User\main.c(38): warning: #1-D: last line of file ends without a newline} ..\..\User\main.c: 1 warning, 0 errors问题原因 这是文件末尾缺少换行符警告 处理策略 在文件(main.c)的最后一行按回车键添加一个空…...

MySQL:9.表的内连和外连

9.表的内连和外连 表的连接分为内连和外连 9.1 内连接 内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,之前查询都是内连 接,也是在开发过程中使用的最多的连接查询。 语法: select 字段 from 表1 inner join 表2 on 连接…...

C++栈操作集合

数组 #include <bits/stdc.h> using namespace std;class sss{ private:int a[1000];int curr -1; public:void push(int);void pop();int top();bool empyt();int size(); };int main() {sss n;while(true){int a;cout<<"1.添加\n2.删除-\n3.显示栈顶\n4.储…...

在阿里云和树莓派上编写一个守护进程程序

目录 一、阿里云邮件守护进程 1. 安装必要库 2. 创建邮件发送脚本 mail_daemon.py 3. 设置后台运行 二、树莓派串口守护进程 1. 启用树莓派串口 2. 安装依赖库 3. 创建串口输出脚本 serial_daemon.py 4. 设置开机自启 5. 使用串口助手接收 一、阿里云邮件守护进程 1.…...

每日一题——最小测试用例集覆盖问题

最小测试用例集覆盖问题&#xff08;C语言实现&#xff09; 问题描述 假设我们有一系列测试用例&#xff0c;每个测试用例会覆盖若干个代码模块。 我们使用一个二维数组来表示这些测试用例的覆盖情况&#xff1a; 如果某个测试用例 i 能覆盖代码模块 j&#xff0c;则数组中…...

LangChain 单智能体模式示例【纯代码】

# LangChain 单智能体模式示例import os from typing import Anyfrom langchain.agents import AgentType, initialize_agent, Tool from langchain_openai import ChatOpenAI from langchain.tools import BaseTool from langchain_experimental.tools.python.tool import Pyt…...

基于前端技术的QR码API开发实战:从原理到部署

前言 QR码&#xff08;Quick Response Code&#xff09;是一种二维码&#xff0c;于1994年开发。它能快速存储和识别数据&#xff0c;包含黑白方块图案&#xff0c;常用于扫描获取信息。QR码具有高容错性和快速读取的优点&#xff0c;广泛应用于广告、支付、物流等领域。通过扫…...

RenderStage::drawInner

文章目录 RenderStage::drawInnerOSG渲染后台关系图OSG的渲染流程RenderBin::draw(renderInfo,previous)RenderBin::drawImplementationRenderLeaf::renderosg::State::apply(const StateSet*)Drawable::draw(RenderInfo& renderInfo)Drawable::drawInner(RenderInfo& …...

C++初阶-类和对象(中)

目录 1.类的默认成员函数 2.构造函数&#xff08;难度较高&#xff09; ​编辑 ​编辑 ​编辑 3.析构函数 4.拷贝构造函数 5.赋值运算符重载 5.1运算符重载 5.2赋值运算符重载 6.取地址运算符重载 6.1const成员函数 6.2取地址运算符重载 7.总结 1.类的默认成员函数…...

智谱开源新一代GLM模型,全面布局AI智能体生态

2024年4月15日&#xff0c;智谱在中关村论坛上正式发布了全球首个集深度研究与实际操作能力于一体的AI智能体——AutoGLM沉思。这一革命性技术的发布标志着智谱在AGI&#xff08;通用人工智能&#xff09;领域的又一次重要突破。智谱的最新模型不仅推动了AI智能体技术的升级&am…...

Vue3中provide和inject的用法示例

在 Vue3 中&#xff0c;provide 和 inject 用于实现跨层级组件通信。以下是一个简单的示例&#xff1a; 1. 父组件 (祖先组件) - 提供数据 javascript 复制 // ParentComponent.vue import { provide, ref, reactive } from vue;export default {setup() {// 提供静态数据p…...

分治-快排-75.颜色分类-力扣(LeetCode)

一、题目解析 给定一个数组将其元素按照0&#xff0c;1,&#xff0c;2三段式排序&#xff0c;并且在原地进行排序。 二、算法原理 解法&#xff1a;三指针 用cur遍历数组&#xff0c;left记录0的最左侧&#xff0c;right记录2的最右侧。 left初始值为-1&#xff0c;right的初…...

铅酸电池充电器方案EG1253+EG4321

参考&#xff1a; 基于EG1253EG4321铅酸电池(48V20AH)三段式充电器 屹晶微高性价比的电瓶车充电器方案——EG1253 电瓶电压 48V电瓶锂电池&#xff0c;其充满约为55V~56V&#xff0c;因此充电器输出电压为55V~56V&#xff1b; 若是48V铅酸电池&#xff0c;标称电压为48V&…...

Spring Boot 实现 Excel 导出功能(支持前端下载 + 文件流)

&#x1f9e0; 一、为什么用 EasyExcel&#xff1f; 在 Java 开发中&#xff0c;操作 Excel 的框架主要有&#xff1a; Apache POI&#xff08;经典但慢、内存占用大&#xff09; JXL&#xff08;老旧不维护&#xff09; Alibaba EasyExcel&#xff08;阿里出品&#xff0c;…...

vue 中formatter

:formatter 是前端表格组件&#xff08;如 Element UI、Vxe-Table 等&#xff09;中用于 ​​自定义单元格内容显示格式​​ 的属性。它的核心作用是&#xff1a;将后端返回的原始数据&#xff08;如编码、状态值等&#xff09;转换为更友好、更易读的文本。 这段代码 :forma…...

协程?协程与线程的区别?Java是否支持协程?

一、前言 协程&#xff08;Coroutine&#xff09; 是一种轻量级的并发编程模型&#xff0c;允许在单线程内通过协作式多任务调度实现并发。由用户代码显式控制&#xff08;用户态调度而非操作系统内核调度&#xff09;&#xff0c;避免了线程上下文切换的开销&#xff0c;适合…...