当前位置: 首页 > news >正文

OpenAI今天Open了一下:开源多智能体框架Swarm

来源 | 机器之心

毫无疑问,多智能体肯定是 OpenAI 未来重要的研究方向之一,前些天 OpenAI 著名研究科学家 Noam Brown还在 X 上为 OpenAI 正在组建的一个新的多智能体研究团队招募机器学习工程师。

就在几个小时前,这个或许还没有组建完成的新研究团队就已经开源发布了一项重量级研究成果:Swarm。这是一个实验性质的多智能体编排框架,主打特征是工效(ergonomic)与轻量(lightweight)。

项目地址:
https://github.com/openai/swarm

 Swarm 开源后引起了热烈讨论,有网友表示这能帮助简化许多潜在的多智能体用例的工作流程。

我们先来看一个例子。首先安装 Swarm,很简单:

pip install git+ssh://git@github.com/openai/swarm.git

装好这个框架之后,用起来也很方便。以下代码定义了 2 个智能体,而用户的指令是与智能体 B 交谈:

from swarm import Swarm, Agentclient = Swarm()def transfer_to_agent_b():
return agent_bagent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)print(response.messages[-1]["content"])

输出消息:

Hope glimmers brightly,
New paths converge gracefully,
What can I assist?

下面我们就来简单介绍一下这个开源项目。

首先,需要再次强调,Swarm 是一个实验性质的多智能体框架,并不是为生产目的开发的,因此团队表示不会提供任何官方支持。

Swarm 概况

Swarm 关注的重点是让智能体协作和执行变得轻量、高度可控且易于测试。

为此,它使用了两种原语抽象:智能体(agent)交接(handoff)。其中,智能体包含指令和工具,并且在任何时间都可以选择将对话交接给另一个智能体。

该团队表示,这些原语很强大,「足以表达工具和智能体网络之间的丰富动态,让你可以针对真实世界问题构建可扩展的解决方案,同时避免陡峭的学习曲线。」

另外,该团队指出,请注意 Swarm 智能体与 Assistants API 中的 Assistants 无关。之所以名字相似,只是为了方便。Swarm 完全由 Chat Completions API 提供支持,因此在调用之间是无状态的。

为什么要使用 Swarm?

在设计上,Swarm 是轻量级、可扩展且高度可定制的。它最适合处理存在大量独立功能和指令的情况——这些功能和指令很难编码成单个提示词。

如果开发者想要寻求完全托管的线程以及内置的内存管理和检索,那么 Assistants API 就已经是很好的选择了。但如果开发者想要完全的透明度,并且能够细粒度地控制上下文、步骤和工具调用,那么 Swarm 才是最佳选择。Swarm (几乎)完全运行在客户端,与 Chat Completions API 非常相似,不会在调用之间存储状态。

该团队还展示了一个应用示例,包括天气查询智能体、用于在航空公司环境中处理不同客户服务请求的多智能体设置、客服机器人、可以帮助销售和退款的个人智能体等。具体示例请访问 Swarm 代码库。

简单的天气查询智能体示例,问题先经过筛选智能体处理,再转交给天气智能体解答

Swarm 的核心组件

Swarm 的核心组件包括 client(客户端)、Agent(智能体)、Function(函数)。

运行 Swarm 就是从实例化一个 client 开始的(其就是在内部实例化一个 OpenAI 客户端)。

from swarm import Swarm
client = Swarm()

client.run()

Swarm 的 run() 函数类似于 Chat Completions API 中的 chat.completions.create() 函数——接收消息并返回消息,并且在调用之间不保存任何状态。但重点在于,它还处理 Agent 函数执行、交接、上下文变量引用,并且可以在返回给用户之前进行多轮执行。

究其核心,Swarm 的 client.run() 是实现以下循环:

  1. 先让当前智能体完成一个结果

  2. 执行工具调用并附加结果

  3. 如有必要,切换智能体

  4. 如有必要,更新上下文变量

  5. 如果没有新的函数调用,则返回

参数

client.run() 的参数包括:

client.run() 完成后(可能进行过多次智能体和工具调用),会返回一个响应,其中包含所有相关的已更新状态。具体来说,即包含新消息、最后调用的智能体、最新的上下文变量。你可以将这些值(加上新的用户消息)传递给 client.run() 的下一次执行,以继续上次的交互——就像是 chat.completions.create()

响应字段

Agent

Agent(智能体)就是将一组指令与一组函数封装在一起(再加上一些额外的设置),并且其有能力将执行过程交接给另一个 Agent。

Agent 字段

指令(instructions)

Agent instructions 会直接转换成对话的系统提示词(作为第一条消息)。只有当前活动的 Agent 的指令会被使用(当发生智能体交接时,系统提示词会变化,但聊天历史不会)。

agent = Agent(
instructions="You are a helpful agent."
)

instructions 可以是常规字符串,也可以是返回字符串的函数。该函数可以选择性地接收 context_variables 参数,该参数将由传入 client.run() 的 context_variables 填充。

def instructions(context_variables):
user_name = context_variables["user_name"]
return f"Help the user, {user_name}, do whatever they want."agent = Agent(
instructions=instructions
)
response = client.run(
agent=agent,
messages=[{"role":"user", "content": "Hi!"}],
context_variables={"user_name":"John"}
)
print(response.messages[-1]["content"])

输出消息:

Hi John, how can I assist you today?

Function

  • Swarm Agent 可以直接调用 Python 函数。

  • 函数通常应返回一个字符串(数值会被转换为字符串)。

  • 如果一个函数返回了一个 Agent,则执行过程将转交给该 Agent。

  • 如果函数定义了 context_variables 参数,则它将由传递到 client.run() 的 context_variables 填充。

def greet(context_variables, language):
user_name = context_variables["user_name"]
greeting = "Hola" if language.lower() == "spanish" else "Hello"
print(f"{greeting}, {user_name}!")
return "Done"agent = Agent(
functions=[print_hello]
)client.run(
agent=agent,
messages=[{"role": "user", "content": "Usa greet() por favor."}],
context_variables={"user_name": "John"}
)

输出消息:

Hola, John!

如果某个 Agent 函数调用出错(缺少函数、参数错误等),则会在聊天之中附加一条报错响应,以便 Agent 恢复正常。

如果 Ageny 调用多个函数,则按顺序执行它们。

交接和更新上下文变量

通过在返回的函数中包含一个 Agent,可将执行过程交接给这个 Agent。

sales_agent = Agent(name="Sales Agent")def transfer_to_sales():
return sales_agentagent = Agent(functions=[transfer_to_sales])response = client.run(agent, [{"role":"user", "content":"Transfer me to sales."}])
print(response.agent.name)

输出消息:

Sales Agent

它还可以通过返回更完整的 Result 对象来更新 context_variables。如果你希望用单个函数返回一个值、更新智能体并更新上下文变量(或三者中的任何组合),它还可以包含一个 value 和一个 agent。

sales_agent = Agent(name="Sales Agent")def talk_to_sales():
print("Hello, World!")
return Result(
value="Done",
agent=sales_agent,
context_variables={"department": "sales"}
)agent = Agent(functions=[talk_to_sales])response = client.run(
agent=agent,
messages=[{"role": "user", "content": "Transfer me to sales"}],
context_variables={"user_name": "John"}
)
print(response.agent.name)
print(response.context_variables)

输出消息:

Sales Agent
{'department': 'sales', 'user_name': 'John'}

注意:如果一个 Agent 调用了多个交接 Agent 的函数,则仅使用最后一个交接函数。

函数模式

Swarm 会自动将函数转换为 JSON 模式,然后将其传递给聊天补全工具。

  • 文档字符串会转换为函数 description。

  • 没有默认值的参数会设置为 required。

  • 类型提示会映射到参数的 type(默认为 string)。

  • 不明确支持对每个参数进行描述,但如果只是在文档字符串中添加,应该能以相似的方式工作。

def greet(name, age: int, location: str = "New York"):
"""Greets the user. Make sure to get their name and age before calling.Args:
name: Name of the user.
age: Age of the user.
location: Best place on earth.
"""
print(f"Hello {name}, glad you are {age} in {location}!")
{
"type": "function",
"function": {
"name": "greet",
"description": "Greets the user. Make sure to get their name and age before calling.\n\nArgs:\n name: Name of the user.\n age: Age of the user.\n location: Best place on earth.",
"parameters": {
"type": "object",
"properties": {
"name": {"type": "string"},
"age": {"type": "integer"},
"location": {"type": "string"}
},
"required": ["name", "age"]
}
}
}

流式处理

Swarm 也支持流式处理。

stream = client.run(agent, messages, stream=True)
for chunk in stream:
print(chunk)

使用了与 Chat Completions API streaming 一样的事件,但添加了两个事件类型:

  • {"delim":"start"} 和 {"delim":"start"},用于在 Agent 每次处理单个消息(响应或函数调用)时发出信号。这有助于识别 Agent 之间的切换。

  • 为方便起见,{"response": Response} 将在流的末尾返回带有已聚合的(完整)响应的 Response 对象。

核心贡献者

Swarm 的核心贡献者均就职于 OpenAI,他们分别是(右侧为对应的 GitHub 用户名):

  • Ilan Bigio - ibigio

  • James Hills - jhills20

  • Shyamal Anadkat - shyamal-anadkat

  • Charu Jaiswal - charuj

  • Colin Jarvis - colin-openai

相关文章:

OpenAI今天Open了一下:开源多智能体框架Swarm

来源 | 机器之心 毫无疑问,多智能体肯定是 OpenAI 未来重要的研究方向之一,前些天 OpenAI 著名研究科学家 Noam Brown还在 X 上为 OpenAI 正在组建的一个新的多智能体研究团队招募机器学习工程师。 就在几个小时前,这个或许还没有组建完成的新…...

车辆重识别(2021NIPS无分类器扩散指南)论文阅读2024/10/08

[1] CLASSIFIER-FREE DIFFUSION GUIDANCE(无分类器扩散指导) (NIPS 2021) 作者:Jonathan Ho & Tim Salimans 单位:Google Research, Brain team(谷歌团队) 摘要: 分类器指导是最近引入的一…...

JavaSE——认识异常

1.概念 在生活中,人有时会生病,在程序中也是一样,程序猿是一帮办事严谨、追求完美的高科技人才。在日常开发中,绞尽脑汁将代码写的尽善尽美,在程序运行过程中,难免会出现一些奇奇怪怪的问题。有时通过代码很…...

嵌入式数据结构中顺序栈用法

第一:嵌入式C语言中栈特点 栈是限制在一端进行插入操作和删除操作的线性表(俗称堆栈),允许进行操作的一端称为“栈顶”,另一固定端称为“栈底”,当栈中没有元素时称为“空栈”。特点 :后进先出(LIFO)。...

PE结构之绑定导入表

打印绑定导入表 //打印 绑定导入表 BOOL PrintBoundImport(__in char* m_fileName) {char* Filebuffer NULL;if (!GetFileBuffer(m_fileName, &Filebuffer)) return FALSE;PIMAGE_DOS_HEADER LPdosHeader NULL;PIMAGE_NT_HEADERS LPntHeader NULL;LPdosHeader (PIMAGE…...

【python学习】1-2 配置python系统环境变量

1.点击“我的电脑”右键,点击属性,点击“高级系统设置”,再点击环境变量。 2.选择“系统变量”中的Path后,点击编辑。 3.点击新建,添加如图两个路径,即是python安装的路径位置后,点击确定。...

日均千万订单的交易平台设计稿

业务背景 平台主要售卖电子商品和少量特定的实物商品。 经营模式,主要分为平台商家和自营店,自营店的流量占整个平台业务的50%以上,我负责自营店交易履约相关业务。 以前的架构,平台交易和履约中心是所有流量共享,在…...

如何在 iPad 上恢复已删除的历史记录?

iPad 配备了一个名为 Safari 的内置网络浏览器。这是一种在旅途中保持联系和浏览网页的强大且便捷的方式。但如果您不小心删除了浏览历史记录,则尝试恢复它可能会很令人沮丧。 幸运的是,您可以通过多种方法在 iPad 上恢复已删除的 Safari 历史记录。您应…...

Haar cascade训练人脸小模型做人脸辨别

代码讲解 1. 导入必要的库 import cv2 import os from pathlib import Path import shutil import numpy as np import loggingcv2: OpenCV 库,用于图像处理和计算机视觉。os: 提供了一种便携的方式使用操作系统依赖的功能。pathlib.Path: 提供了对象导向的路径处…...

DBA | 如何将 .mdf 与 .ldf 的数据库文件导入到SQL Server 数据库中?

[ 知识是人生的灯塔,只有不断学习,才能照亮前行的道路 ] 原文链接:DBA | 如何将 .mdf 与 .ldf 的数据库文件导入到SQL Server 数据库中? 如何将 (.mdf) 和 (.ldf) 的SQL Server 数据库文件导入到当前数据库中? Step 1.登录到 Sql Server 服…...

【差分数组】个人练习-Leetcode-3229. Minimum Operations to Make Array Equal to Target

题目链接:https://leetcode.cn/problems/minimum-operations-to-make-array-equal-to-target/description/ 题目大意:给出两个数组nums[]和target[],可以对nums[]数组进行这样两种操作 给某个区间内的子列全加1给某个区间内的子列全减1 求…...

HTML5--裸体回顾

免责声明:本文仅做分享~ 详情请参考以下: HTML 系列教程 (w3school.com.cn) 菜鸟教程 - 学的不仅是技术,更是梦想! --本文是光秃秃的空壳. 标题标签 段落标签 换行和水平线 文本格式化标签 (一般用左边的&#xff…...

【网络安全】CVE-2024-46990: Directus环回IP过滤器绕过实现SSRF

未经许可,不得转载。 文章目录 背景漏洞详情受影响版本解决方案背景 Directus 是一款开源 CMS,提供强大的内容管理 API,使开发人员能够轻松创建自定义应用程序,凭借其灵活的数据模型和用户友好的界面备受欢迎。然而,Directus 存在一个漏洞,允许攻击者绕过默认的环回 IP …...

问:JVM的垃圾收集算法你知道哪些,有什么区别?

GC(垃圾回收器)的概念 GC,即垃圾回收(Garbage Collection),是计算机程序中一种自动管理内存的机制。其目的是自动回收不再被使用的对象所占用的内存空间,从而避免内存泄漏和内存溢出&#xff0…...

Python selenium库学习使用实操四

系列文章目录 Python selenium库学习使用实操 Python selenium库学习使用实操二 Python selenium库学习使用实操三 文章目录 系列文章目录[TOC](文章目录) 前言一、元素获取二、选项解析总结 前言 在Python selenium库学习使用实操二中提到了下拉框的操作,一种是标…...

用Go开发跨平台GUI

本篇内容是根据2023年3月份#271 Cross-platform graphical user interfaces音频录制内容的整理与翻译 这一期与 Wails 和 Fyne 的创建者一起深入研究为不同架构和操作系统编写 Go 代码。 译者注: Wails的作者是在澳大利亚悉尼的威尔士人,github头像是威尔士的旗帜,Wails也是Wa…...

云原生开发 - 工具镜像(简约版)

在微服务和云原生环境中,容器化的目标之一是尽可能保持镜像小型化以提高启动速度和减少安全风险。然而,在实际操作中,有时候需要临时引入一些工具来进行调试、监控或问题排查。Kubernetes提供了临时容器(ephemeral containers&…...

Mac 电脑pink 后端ip地址进行本地联调

文章目录 0: 使用ping 192.39.192.180查看是否能ping通1:点击访达2:在访达里面 shift commit g 打开前往路径的窗口3:在窗口中输入地址/private/etc/hosts4:打开hosts文件 添加后端地址(如:192.39.192.180 localhost:80805:保存 后端ip为192.39.192.180…...

iPhone使用指南:如何在没有备份的情况下从 iPhone 恢复已删除的照片

本指南将向您展示如何在没有备份的情况下从 iPhone 恢复已删除的照片。我们所有人在生活中的某个时刻都一定做过一些愚蠢的事情,例如从手机或电脑中删除一些重要的东西。这是很自然的,没有什么可羞耻的。您可能在辛苦工作一天后回来。当突然想看一些照片…...

黑马程序员 javaWeb基础学习,精细点复习【持续更新】

文章目录 WEB开发一、HTML1.html介绍 二、CSS1.CSS介绍2.CSS导入方式3.CSS选择器4.CSS属性 三、JavaScript1.介绍2.浏览器3.js的三种输出方式4.js定义变量5.js数据类型6.js运算符7.全局函数8.函数定义9.js数组对象10.js正则对象11.字符串对象12.自定义对象13.BOM浏览器对象模型…...

【Java学习笔记】Arrays类

Arrays 类 1. 导入包:import java.util.Arrays 2. 常用方法一览表 方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序(自然排序和定制排序)Arrays.binarySearch()通过二分搜索法进行查找(前提:数组是…...

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...

.Net Framework 4/C# 关键字(非常用,持续更新...)

一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...

Redis的发布订阅模式与专业的 MQ(如 Kafka, RabbitMQ)相比,优缺点是什么?适用于哪些场景?

Redis 的发布订阅(Pub/Sub)模式与专业的 MQ(Message Queue)如 Kafka、RabbitMQ 进行比较,核心的权衡点在于:简单与速度 vs. 可靠与功能。 下面我们详细展开对比。 Redis Pub/Sub 的核心特点 它是一个发后…...

蓝桥杯 冶炼金属

原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述 小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V,是一个正整数,表示每 V V V 个普通金属 O O O 可以冶炼出 …...

AI病理诊断七剑下天山,医疗未来触手可及

一、病理诊断困局:刀尖上的医学艺术 1.1 金标准背后的隐痛 病理诊断被誉为"诊断的诊断",医生需通过显微镜观察组织切片,在细胞迷宫中捕捉癌变信号。某省病理质控报告显示,基层医院误诊率达12%-15%,专家会诊…...

上位机开发过程中的设计模式体会(1):工厂方法模式、单例模式和生成器模式

简介 在我的 QT/C 开发工作中,合理运用设计模式极大地提高了代码的可维护性和可扩展性。本文将分享我在实际项目中应用的三种创造型模式:工厂方法模式、单例模式和生成器模式。 1. 工厂模式 (Factory Pattern) 应用场景 在我的 QT 项目中曾经有一个需…...

macOS 终端智能代理检测

🧠 终端智能代理检测:自动判断是否需要设置代理访问 GitHub 在开发中,使用 GitHub 是非常常见的需求。但有时候我们会发现某些命令失败、插件无法更新,例如: fatal: unable to access https://github.com/ohmyzsh/oh…...

从实验室到产业:IndexTTS 在六大核心场景的落地实践

一、内容创作:重构数字内容生产范式 在短视频创作领域,IndexTTS 的语音克隆技术彻底改变了配音流程。B 站 UP 主通过 5 秒参考音频即可克隆出郭老师音色,生成的 “各位吴彦祖们大家好” 语音相似度达 97%,单条视频播放量突破百万…...

Linux操作系统共享Windows操作系统的文件

目录 一、共享文件 二、挂载 一、共享文件 点击虚拟机选项-设置 点击选项,设置文件夹共享为总是启用,点击添加,可添加需要共享的文件夹 查询是否共享成功 ls /mnt/hgfs 如果显示Download(这是我共享的文件夹)&…...