python机器人Agent编程——多Agent框架的底层逻辑(上)
目录
- 一、前言
- 二、两个核心概念
- 2.1 Routines
- (1)清晰的Prompt
- (2)工具调用json schema自动生成
- (3)解析模型的toolcall指令
- (4)单Agent的循环决策与输出
- PS.扩展阅读
- ps1.六自由度机器人相关文章资源
- ps2.四轴机器相关文章资源
- ps3.移动小车相关文章资源
- ps3.wifi小车控制相关文章资源
一、前言
现在大语言模型中的第一性原理:Scaling laws正在失效的论调四起,大模型大有迎来瓶颈期的感觉。然而,世界在AI领域都在较劲,虚虚实实,不可信其有也不可信其无。但是有个方向是一致的,那就是多Agent的路线。无论是AI头部企业OpenAI、Google、Facbook、Microsoft还是业界大佬Andrew FeiFeiLi、Michael Winikoff等都对多Agent技术路线作了充分的肯定。本文是对阅读Ilan Bigio的《Orchestrating Agents: Routines and Handoffs》的回炉理解和分享,其文章平实未有半点修饰,基础阐述了多Agent协作的底层算法逻辑。而OpenAI推出的教育框架Swarm就是源于此Idea.
二、两个核心概念
多Agent协作Idea引入了概念: routines和handoffs,通过基于这两个概念的python代码实现,完成了多个智能体间的转移、协作和完整的用户交互。
2.1 Routines
这个词通过体会,可以理解为简单的机械的任务列表。通过向LLM描述一些比较清晰的,简单的先后任务Prompt,和提供完成这些任务表所需的function或者tools,实现单个Agent完成某项“技能”的能力。这里的核心要点主要有两个:
(1)清晰的Prompt
需要向LLM提供一个较为明确,没有歧义容易操作的system的Promt描述,这个相当于对一个社会上的普通人,雇用后,对其进行业务的培训,让他/她明白这个岗位的职责和操作步骤,使其成为一个公司的特定岗位的业务员。
system_message = ("You are a customer support agent for ACME Inc.""Always answer in a sentence or less.""Follow the following routine with the user:""1. First, ask probing questions and understand the user's problem deeper.\n"" - unless the user has already provided a reason.\n""2. Propose a fix (make one up).\n""3. ONLY if not satesfied, offer a refund.\n""4. If accepted, search for the ID and then execute refund."""
)
(2)工具调用json schema自动生成
LLM现在都支持外部的tool/函数调用了,而且很多都是遵循OpenAi的规范格式,就是json schema格式,可以认为是大模型的结构化输出通讯协议的一种。
大模型JSON Schema格式是一种用于描述和验证JSON数据结构的规范。它定义了JSON数据中各个元素的类型、格式、约束和关系,确保了数据的一致性和可靠性。在软件开发、API设计以及数据交换过程中,JSON Schema发挥着重要作用(来自网络的定义,不知道说些什么)
“协议”的格式如下:
{"type": "function","function": {"name": "sample_function",#工具名称"description": "This is my docstring. Call this function when you want.",#工具描述"parameters": {#工具行参数描述"type": "object","properties": {"param_1": {#第1个参数"type": "string"},"param_2": {#第2个参数"type": "string"},"the_third_one": {#第3个参数"type": "integer"},"some_optional": {#可选参数"type": "string"}},"required": ["param_1","param_2","the_third_one"] {#必须传入的参数}}
}
其实就是对应的一个python的普通的funciton:
def sample_function(param_1, param_2, the_third_one: int, some_optional="John Doe"):"""This is my docstring. Call this function when you want."""print("Hello, world")
区别与需要手动定义这个JSON Schema,可以用一个python函数自动生成实现JSON Schema,这个也是用到了swarm框架里了:
import inspect
#实现一个自动JSON Schema生成
def function_to_schema(func) -> dict:type_map = {str: "string",int: "integer",float: "number",bool: "boolean",list: "array",dict: "object",type(None): "null",}try:signature = inspect.signature(func)except ValueError as e:raise ValueError(f"Failed to get signature for function {func.__name__}: {str(e)}")parameters = {}for param in signature.parameters.values():try:param_type = type_map.get(param.annotation, "string")except KeyError as e:raise KeyError(f"Unknown type annotation {param.annotation} for parameter {param.name}: {str(e)}")parameters[param.name] = {"type": param_type}required = [param.namefor param in signature.parameters.values()if param.default == inspect._empty]return {"type": "function","function": {"name": func.__name__,"description": (func.__doc__ or "").strip(),"parameters": {"type": "object","properties": parameters,"required": required,},},}
以上的自动生成函数适合任何一个普通函数:
def add(a:int,b:int,isadd=True):"""this funciton is used to do add method when isadd is true or minuse method when isadd is false return the result"""if isadd:return a+belse:return a-bschema = function_to_schema(add)
print(json.dumps(schema, indent=2))
打印结果如下:
有了以上两个法宝后就可以轻松实现agent的外部函数调用了:
# -*- coding: utf-8 -*-
"""
Created on Fri Nov 15 16:47:17 2024@author: 18268
"""import inspect
import jsondef function_to_schema(func) -> dict:type_map = {str: "string",int: "integer",float: "number",bool: "boolean",list: "array",dict: "object",type(None): "null",}try:signature = inspect.signature(func)except ValueError as e:raise ValueError(f"Failed to get signature for function {func.__name__}: {str(e)}")parameters = {}for param in signature.parameters.values():try:param_type = type_map.get(param.annotation, "string")except KeyError as e:raise KeyError(f"Unknown type annotation {param.annotation} for parameter {param.name}: {str(e)}")parameters[param.name] = {"type": param_type}required = [param.namefor param in signature.parameters.values()if param.default == inspect._empty]return {"type": "function","function": {"name": func.__name__,"description": (func.__doc__ or "").strip(),"parameters": {"type": "object","properties": parameters,"required": required,},},}def add(a:int,b:int,isadd=True):"""this funciton is used to do add method when isadd is true or minuse method when isadd is false return the result"""if isadd:return a+belse:return a-bschema = function_to_schema(add)
print(json.dumps(schema, indent=2))from openai import OpenAI
# 定义模型
MODEL = "llama3.2:latest"
ollama_client = OpenAI(base_url = 'http://localhost:11434/v1',api_key='None', # required, but unused
)
messages = []tools = [add]
tool_schemas = [function_to_schema(tool) for tool in tools]response = ollama_client.chat.completions.create(model=MODEL,messages=[{"role": "user", "content": "1加1等于几"}],tools=tool_schemas,)
message = response.choices[0].messageprint(message.tool_calls[0].function)
最后模型根据用户输入"1加1等于几",会去查找工具的tool_schemas,并自主决定了调用add这个工具,输出如下:
这个是openai自定义的一个type:openai.types.chat.chat_completion_message_tool_call.Function
(3)解析模型的toolcall指令
这个就是当模型认为要调用工具时,会吐出要调用的某个函数的信息:
,包含一个function属性及对应名字和参数。接下来就是根据它,去调用实体的函数:
tools=[add]
tools_map = {tool.__name__: tool for tool in tools}#这里搞了一个tools_map,用于存多个funciton的名字def execute_tool_call(tool_call, tools_map):#根据openai的LLM返回格式,调用相应函数name = tool_call.function.nameargs = json.loads(tool_call.function.arguments)print(f"Assistant: {name}({args})")# call corresponding function with provided argumentsreturn tools_map[name](**args)
execute_tool_call(message.tool_calls[0], tools_map)
如下调用了add函数,执行并输出了结果。
(4)单Agent的循环决策与输出
以上实现了LLM自动调用工具库的function,如果需要多个工具库的调用,还需要做一个while循环,首先需要将前一个工具执行输出结果输入给LLM,然后再让LLM对照routines的任务表判断,是否还要继续调用其它工具,直到它认为可以输出结果返给user为止:
def run_full_turn(system_message, tools, messages):num_init_messages = len(messages)messages = messages.copy()while True:# turn python functions into tools and save a reverse maptool_schemas = [function_to_schema(tool) for tool in tools]tools_map = {tool.__name__: tool for tool in tools}# === 1. get openai completion ===response = ollama_client.chat.completions.create(model=MODEL,#或者qwen2.5等本地模型messages=[{"role": "system", "content": system_message}] + messages,tools=tool_schemas or None,)message = response.choices[0].messagemessages.append(message)if message.content: # print assistant responseprint("Assistant:", message.content)if not message.tool_calls: # if finished handling tool calls, breakbreak# === 2. handle tool calls ===for tool_call in message.tool_calls:result = execute_tool_call(tool_call, tools_map)result_message = {"role": "tool","tool_call_id": tool_call.id,"content": result,}print("result_message:",result_message)messages.append(result_message)# ==== 3. return new messages =====return messages[num_init_messages:]
PS.扩展阅读
————————————————————————————————————————
对于python机器人编程感兴趣的小伙伴,可以进入如下链接阅读相关咨询
ps1.六自由度机器人相关文章资源
(1) 对六自由度机械臂的运动控制及python实现(附源码)
(2) N轴机械臂的MDH正向建模,及python算法
ps2.四轴机器相关文章资源
(1) 文章:python机器人编程——用python实现一个写字机器人
(2)python机器人实战——0到1创建一个自动是色块机器人项目-CSDN直播
(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(4)实现了语音输入+大模型指令解析+机器视觉+机械臂流程打通
ps3.移动小车相关文章资源
(1)python做了一个极简的栅格地图行走机器人,到底能干啥?[第五弹]——解锁蒙特卡洛定位功能-CSDN博客
(2) 对应python资源:源码地址
(3)python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(上篇)_agv编程-CSDN博客
(4)python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶(下篇)_agv路线规划原则python-CSDN博客
对应python及仿真环境资源:源码链接
ps3.wifi小车控制相关文章资源
web端配套资源源代码已经上传(竖屏版),下载地址
仿真配套资源已经上传:下载地址
web端配套资源源代码已经上传(横屏版),下载地址
相关文章:

python机器人Agent编程——多Agent框架的底层逻辑(上)
目录 一、前言二、两个核心概念2.1 Routines(1)清晰的Prompt(2)工具调用json schema自动生成(3)解析模型的toolcall指令(4)单Agent的循环决策与输出 PS.扩展阅读ps1.六自由度机器人相…...

渑池县中药材产业党委莅临河南广宇企业管理集团有限公司参观交流
11月14日,渑池县人大副主任、工商联主席杨航率县中药材产业党委代表团一行13人,莅临河南广宇集团参观交流。河南广宇集团总经理王峰、副总经理王培等领导热情接待并陪同参观、座谈。 代表团一行首先参观了集团旗下郑州美信中医院(庚贤堂中医药…...

学习日志011--模块,迭代器与生成器,正则表达式
一、python模块 在之前学习c语言时,我们学了分文件编辑,那么在python中是否存在类似的编写方式?答案是肯定的。python中同样可以实现分文件编辑。甚至还有更多的好处: 提高代码的可维护性:当代码被分成多个文件时…...

ChatGPT 搜索 vs Google 搜索
原文:Amanda Caswell - 2024.11.01 随着 OpenAI 推出的实时搜索功能,ChatGPT 正在逐步成为像 Google 这样的传统搜索引擎的竞争对手。ChatGPT 以其对话式的回答方式而闻名,它能够在没有广告干扰的情况下提供实时的上下文信息。 我迫不及待地…...

一文简单了解Android中的input流程
在 Android 中,输入事件(例如触摸、按键)从硬件传递到应用程序并最终由应用层消费。整个过程涉及多个系统层次,包括硬件层、Linux 内核、Native 层、Framework 层和应用层。我们将深入解析这一流程,并结合代码逐步了解…...

【MySQL】SQL语言
【MySQL】SQL语言 文章目录 【MySQL】SQL语言前言一、SQL的通用语法二、SQL的分类三、SQLDDLDMLDQLDCL 总结 前言 本篇文章将讲到SQL语言,包括SQL的通用语法,SQL的分类,以及SQL语言的DDL,DML,DQL,DCL。 一、SQL的通用语法 在学习具体的SQL语句之前,先来…...

5.4.2-1 编写Java程序在HDFS上创建文件
本次实战涉及使用Java操作Hadoop HDFS,包括创建文件、判断文件存在性及异常处理。通过手动添加依赖、启动HDFS服务,成功在HDFS上创建和检查文件。进一步探索了文件操作的最佳实践,如检查文件存在性以避免重复创建,以及处理HDFS安全…...
The 3rd Universal CupStage 15: Chengdu, November 2-3, 2024(2024ICPC 成都)
Problem L. Recover Statistics 题目意思: 给定a, b, c三个值,确保构造的数列中包含满足题目的数量 解题思路: 100 中 选择a 50个, b45个, c4个。 #include <iostream>using namespace std;using ll long …...

显示微服务间feign调用的日志
第一步 package com.niuniu.common.config;import com.niuniu.common.CommonConstant; import com.niuniu.common.utils.UserContext; import feign.Logger; import feign.RequestInterceptor; import feign.RequestTemplate; import org.springframework.context.annotation.…...

SOHO场景开局(小型,多子网):AP+管理型交换机+路由器+光猫
业务需求 1. 实现除光猫外,整网设备通过APP进行开局,开局部署完成后,能够通过APP远程运维。 2. 需要单独划分访客、办公、视频监控3个子网,其中访客子网供顾客无线上网使用,办公子网用于接入无线和有线办公终端&#x…...

Android - Pixel 6a 手机OS 由 Android 15 降级到 Android 14 操作记录
Pixel 6a 手机由 Android 14 升级到 Android 15了,但是由于一些原因又想降级回 Android 14, 能降吗?该怎么降级呢?本篇文章来记述实际操作过程,希望能给想做相同操作的人一些帮助。 答案当然是能降,而且我…...
linux系统kkFileView 配置https预览文件
思路: 1.kkfile的 context全局路径可以修改 context-path,比如:server.servlet.context-path 2.使用nginx反向代理 /kkfile 转发到 kkfile路径上 官网教程 kkFileView - 在线文件预览 1、配置config/application.properties. server.se…...

stm32——通用定时器时钟知识点
(该图来自小破站 铁头山羊老师的stm32标准库教学)...

前端无感刷新token
摘要: Axios 无感知刷新令牌是一种在前端应用中实现自动刷新访问令牌(access token)的技术,确保用户在进行 API 请求时不会因为令牌过期而中断操作 目录概览 XMLHttpRequestAxiosFetch APIJQuni.request注意事项: 访问…...

针对股票评论的情感分类器
🏡作者主页:点击! 🤖编程探索专栏:点击! ⏰️创作时间:2024年11月16日13点39分 神秘男子影, 秘而不宣藏。 泣意深不见, 男子自持重, 子夜独自沉。 论文链接 点击开启你的论文编程之旅…...

Day18 Nim游戏
你和你的朋友,两个人一起玩 Nim 游戏: 桌子上有一堆石头。 你们轮流进行自己的回合, 你作为先手 。 每一回合,轮到的人拿掉 1 - 3 块石头。 拿掉最后一块石头的人就是获胜者。 假设你们每一步都是最优解。请编写一个函数ÿ…...

理解反射,学会反射:撬开私有性质(private)的属性与方法
看到这句话的时候证明:此刻你我都在努力 加油陌生人 个人主页:Gu Gu Study专栏:用Java学习数据结构系列喜欢的一句话: 常常会回顾努力的自己,所以要为自己的努力留下足迹喜欢的话可以点个赞谢谢了。作者:小…...

Redis在高性能缓存中的应用
💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 Redis在高性能缓存中的应用 Redis在高性能缓存中的应用 Redis在高性能缓存中的应用 引言 Redis 概述 定义与原理 发展历程 Redi…...

菲涅耳全息图
菲涅耳全息图:记录介质在物光波场的菲涅耳衍射区(物体到记录介质表面的距离在菲涅耳衍射区内)。 一、点源全息图的记录和再现 1.1 记录 设物光波和参考光波是从点源O(xo, yo, zo)和点源 R(xr, yr, zr)发出的球面波, 波长为λ1, 全息底片位于z0 的平面上, 与两个点源…...

STM32 BootLoader 刷新项目 (十) Flash擦除-命令0x56
STM32 BootLoader 刷新项目 (十) Flash擦除-命令0x56 1. STM32F407 BootLoader 中的 Flash 擦除功能详解 在嵌入式系统中,BootLoader 的设计是非常关键的部分,它负责引导主程序的启动、升级以及安全管理。而在 STM32F407 等 MCU 上实现 BootLoader&…...

(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...
Qt Http Server模块功能及架构
Qt Http Server 是 Qt 6.0 中引入的一个新模块,它提供了一个轻量级的 HTTP 服务器实现,主要用于构建基于 HTTP 的应用程序和服务。 功能介绍: 主要功能 HTTP服务器功能: 支持 HTTP/1.1 协议 简单的请求/响应处理模型 支持 GET…...

从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

相机从app启动流程
一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)
目录 一、SQL注入 二、insert注入 三、报错型注入 四、updatexml函数 五、源码审计 六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段 本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关࿰…...

Springboot社区养老保险系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,社区养老保险系统小程序被用户普遍使用,为方…...
Java 二维码
Java 二维码 **技术:**谷歌 ZXing 实现 首先添加依赖 <!-- 二维码依赖 --><dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.5.1</version></dependency><de…...
CSS设置元素的宽度根据其内容自动调整
width: fit-content 是 CSS 中的一个属性值,用于设置元素的宽度根据其内容自动调整,确保宽度刚好容纳内容而不会超出。 效果对比 默认情况(width: auto): 块级元素(如 <div>)会占满父容器…...
4. TypeScript 类型推断与类型组合
一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...
怎么让Comfyui导出的图像不包含工作流信息,
为了数据安全,让Comfyui导出的图像不包含工作流信息,导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo(推荐) 在 save_images 方法中,删除或注释掉所有与 metadata …...