当前位置：首页 > article >正文

Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台

article 2026/3/23 23:50:48

2025-02-27，由北京邮电大学和理想汽车公司联合创建。该平台基于《Overcooked-AI》游戏环境，设计了更具挑战性和实用性的交互任务，目的通过自然语言沟通促进多智能体协作。

一、研究背景

近年来，基于大型语言模型的智能体系统在复杂任务分解和规划方面展现出巨大潜力，成为自然语言处理领域的研究热点。然而，随着研究的深入，人们发现单个智能体在处理复杂任务时存在局限性，而多智能体系统通过协作能够显著提升任务效率，解决单个智能体难以完成的挑战。

目前遇到的困难和挑战：

协作能力评估不足：现有基准测试大多关注任务完成效率，忽视了协作过程中的关键指标，导致无法准确衡量智能体的协作能力。

缺乏严格协作机制：许多平台允许智能体独立完成任务，即使任务被标记为“协作”，也难以区分协作对任务成功的真实贡献。

评估指标单一：现有研究多依赖于任务完成率等结果导向的指标，缺乏对协作过程的动态评估，难以提供优化协作策略的依据。

链接地址：Collab-Overcooked|多智能体系统数据集|协作数据集

二、让我们一起来看一下Collab-Overcooked

Collab-Overcooked 是一个基于《Overcooked-AI》游戏环境的多智能体协作基准测试平台，专注于通过自然语言沟通促进智能体间的协作。

Collab-Overcooked 的构建基于以下关键设计：

资源隔离：智能体在独立的环境中操作，必须通过共享的“柜台”进行资源交换。

任务知识不对称：只有部分智能体知道完成任务的具体方法，智能体之间需要通过沟通同步任务信息。

自然语言沟通：智能体通过自然语言发起和响应协作请求，模拟真实世界中的协作场景。

Collab-Overcooked的特点：

严格的协作依赖：任务设计确保智能体必须通过协作才能完成任务。

多样化任务和目标：提供 30 个不同复杂度的任务，涵盖多种协作场景。

过程导向的评估指标：引入 TES 和 ITES 等指标，能够从粗粒度和细粒度两个层面评估智能体的协作能力。

基准测试：

Collab-Overcooked 提供了 10 种不同规模的语言模型（包括开源和闭源模型）的基准测试结果。测试结果显示，尽管语言模型在目标理解方面表现出色，但在主动协作和持续适应复杂任务方面存在显著差距。这一发现为改进语言模型在多智能体系统中的协作能力提供了重要参考。

第一部分介绍了协作过程，分为发起协作和响应协作，并提供了一个一般示例。第二部分概述了 Collab-Overcooked Benchmark 的设计，强调了其资源隔离和非对称任务知识的特点，并提供了一个智能体协作完成任务的例子。

三、让我们一起来看一下Collab-Overcooked应用场景：

自然语言沟通优化案例：基于Collab-Overcooked的多智能体协作优化

比如在一个烹饪任务中，两个智能体（Agent Alice和Agent Bob）需要协作完成一道“烤南瓜汤”。任务要求Agent Alice从食材区获取南瓜，将其切成片，并将南瓜片放在共享的“柜台”上；Agent Bob则需要从柜台取南瓜片，放入烤箱烤制，最后将烤好的南瓜汤装盘并交付。

优化前的沟通与协作

Agent Alice：在任务开始时，Alice直接执行了“获取南瓜”和“切南瓜”的动作，但没有与Bob沟通下一步的计划。Bob在等待Alice完成动作时，没有明确的指示，导致任务进度缓慢。

Agent Bob：Bob在Alice完成切南瓜后，没有及时确认南瓜片是否已经准备好，导致烤箱空闲，任务进度受阻。

优化后的沟通与协作

研究人员通过分析沟通内容和协作效果，提出以下优化策略：

1、明确沟通内容：Alice在完成切南瓜后，主动通过自然语言向Bob发送消息：“我已经切好了南瓜片，你可以开始烤制了。”

2、实时反馈与确认：Bob在收到消息后，立即回复：“收到，我马上开始烤制。”同时，Bob在烤制过程中，如果发现任何问题（如南瓜片数量不足），会及时与Alice沟通。

3、任务分解与分工：在任务开始前，两个智能体通过自然语言协商任务分工。Alice负责食材的准备和切割，Bob负责烤制和装盘。每个步骤都有明确的沟通节点，确保双方对任务进度有清晰的了解。

通过Collab-Overcooked平台的实验，研究人员发现优化自然语言沟通策略可以显著提升多智能体协作的效率和成功率。明确的沟通内容、实时反馈和任务分工是优化的关键点

想要了解经典数据集，请打开：

经典数据集从千万数据集中千里挑一，经过了时间和应用的考研，已成为算法和模型性能评估的基准，是各个领域的数据集代表https://www.selectdataset.com/classics

Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台

2025-02-27，由北京邮电大学和理想汽车公司联合创建。该平台基于《Overcooked-AI》游戏环境，设计了更具挑战性和实用性的交互任务，目的通过自然语言沟通促进多智能体协作。一、研究背景近年来，基于大型语言模型的智能体系统在复…...

编程日记 2026/3/17 20:31:48

SpringBoot接入DeepSeek（硅基流动版）+ 前端页面调试（WebSocket连接模式）

文章目录前言正文一、项目环境二、项目代码2.1 pom.xml2.2 DeepSeekController.java2.3 启动类2.4 logback-spring.xml2.5 application.yaml2.6 WebsocketConfig.java2.7 AiChatWebSocketHandler.java2.8 SaveChatSessionParamRequest.java2.9 index.html 三、页面调试3.1 主页…...

编程日记 2026/3/4 11:27:38

LINUX网络基础 [一] - 初识网络，理解网络协议

目录前言一. 计算机网络背景 1.1 发展历程 1.1.1 独立模式 1.1.2 网络互联 1.1.3 局域网LAN 1.1.4 广域网WAN 1.2 总结二. "协议" 2.1 什么是协议 2.2 网络协议的理解 2.3 网络协议的分层结构三. OSI七层模型（理论标准） …...

编程日记 2026/3/9 1:51:02

由麻省理工学院计算机科学与人工智能实验室等机构创建低成本、高效率的物理驱动数据生成框架，助力接触丰富的机器人操作任务

2025-02-28，由麻省理工学院计算机科学与人工智能实验室（CSAIL）和机器人与人工智能研究所的研究团队创建了一种低成本的数据生成框架，通过结合物理模拟、人类演示和基于模型的规划，高效生成大规模、高质量的接触丰富型机…...

编程日记 2026/3/5 4:26:12

【RAG从入门到精通系列】【RAG From Scratch 系列教程2：Query Transformations】

目录前言一、概述1-1、RAG概念1-2、前置知识1-2-1、ModelScopeEmbeddings 词嵌入模型1-2-2、FAISS介绍&安装 (向量相似性搜索)1-2-3、Tiktoken 分词工具二、Rag From Scratch：Query Transformations2-1、前置环境安装2-2、多查询检索器2-2-1、加载网页内容2-2…...

编程日记 2026/3/22 22:41:46

通过RK3588的cc-linaro-7.5.0交叉编译器搭建QT交叉编译环境QtCreator（无需编译QT源码）

当我们需要给新的电脑上部署RK3588的QT交叉编译环境时，我们可以将旧电脑上的编译好的qmake直接拷贝到新电脑上并配置好环境。一、开发环境 1、ubuntu20.04 2、qt5.14.2 3、交叉编译器gcc-linaro-7.5.0 4、已编译好的qt交叉编译器二、资料下载链接: https:…...

编程日记 2026/3/17 4:41:36

前端基础之消息订阅与发布

需要下载npm I pubsub-js 在Student.vue中发送数据 <template> <div class"demo"> <h2 class"title">学生姓名:{{name}}</h2> <h2>学生性别:{{sex}}</h2> <button click"sendStudentName">将学生名给…...

编程日记 2026/2/15 9:17:29

51c自动驾驶~合集53

我自己的原文哦~ https://blog.51cto.com/whaosoft/13431196 #DriveTransformer 上交提出：以Decoder为核心的大一统架构写在前面 & 笔者的个人理解当前端到端自动驾驶架构的串行设计导致训练稳定性问题，而且高度依赖于BEV，严重限…...

编程日记 2026/3/18 17:51:54

CS144 Lab Checkpoint 0: networking warm up

Set up GNU/Linux on your computer 我用的是Ubuntu，按照指导书上写的输入如下命令安装所需的软件包： sudo apt update && sudo apt install git cmake gdb build-essential clang \ clang-tidy clang-format gcc-doc pkg-config glibc-doc tc…...

编程日记 2026/3/23 0:38:53

Spring WebFlux 中 WebSocket 使用 DataBuffer 的注意事项

以下是修改后的完整文档，包含在多个多线程环境中使用 retain() 和 release() 方法的示例，且确保在 finally 块中调用 release()： 在 Spring WebFlux 中，WebSocketMessage 主要用于表示 WebSocket 的消息载体，其中 getP…...

编程日记 2026/2/15 7:16:47

Android ChatOn-v1.66.536-598-[构建于ChatGPT和GPT-4o之上]

ChatOn 链接：https://pan.xunlei.com/s/VOKYnq-i3C83CK-HJ1gfLf4gA1?pwdwzwc# 添加了最大无限积分删除了所有调试信息语言：全语言支持...

编程日记 2026/3/13 2:24:23

游戏树搜索与优化策略：Alpha-Beta剪枝及其实例分析

1.Alpha-Beta搜索 Alpha-Beta 搜索是一种用于对抗性游戏（比如象棋、围棋）的智能算法，目的是帮助计算机快速找到“最优走法”，同时避免不必要的计算。它的核心思想是：通过剪掉明显糟糕的分支，大幅减少需要计…...

编程日记 2026/2/24 15:25:37

基于Qwen-VL的手机智能体开发

先上Demo： vl_agent_demo 代码如下： 0 设置工作目录： 你的工作目录需要如下： 其中utils文件夹和qwenvl_agent.py均参考自 GitHub - QwenLM/Qwen2.5-VL: Qwen2.5-VL is the multimodal large language model series developed by …...

编程日记 2026/3/9 0:09:24

记录一次Spring事务失效导致的生产问题

一、背景介绍公司做的是“聚合支付”业务，对接了微信、和包、数字人民币等等多家支付机构，我们提供统一的支付、退款、自动扣款签约、解约等能力给全国的省公司、机构、商户等。同时，需要做对账功能，即支付机构将对账文件给到…...

编程日记 2026/3/23 6:44:42

深度学习实战：用TensorFlow构建高效CNN的完整指南

一、为什么每个开发者都要掌握CNN？ 在自动驾驶汽车识别路标的0.1秒里，在医疗AI诊断肺部CT片的精准分析中，甚至在手机相册自动分类宠物的日常场景里，卷积神经网络（CNN）正悄然改变着我们的世界。本文将以工业…...

编程日记 2026/2/24 3:36:43

算法之贪心思维训练！

文章目录从最大/最小开始贪心2279.装满石头的背包的最大数量2971.找到最大周长的多边形从最左、最右开始贪心2712.使所有字符相等的最小成本划分型贪心1221.分割平衡字符串贪心策略在处理一些题目的时候能够带来意想不到的效果从最小/最大开始贪心，优先考虑最小…...

编程日记 2026/3/20 10:05:28

从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（1）视频信息的获取与转发

文章大纲基于YOLO的动作序列检查系统架构设计系统架构图实时视频传输协议技术对比视频流常见协议对比表三、WebSocket内网传输设计方案四、样例程序（Python + JavaScript）五、性能优化建议新兴技术预警参考文献提示词参考基于YOLO的动作序列检查系统架构设计系统架构图 #…...

编程日记 2026/2/14 23:45:43

大语言模型学习--LangChain

LangChain基本概念 ReAct学习资料 https://zhuanlan.zhihu.com/p/660951271 LangChain官网地址 Introduction | 🦜️🔗 LangChain LangChain是一个基于语言模型开发应用程序的框架。它可以实现以下应用程序： 数据感知：将语言模型…...

编程日记 2026/2/20 8:32:23

【PCIe 总线及设备入门学习专栏 4.5 -- PCIe 中断 MSI 与 MSI-X 机制介绍】

文章目录 PCI 设备中断机制PCIe 设备中断机制PCIe MSI 中断机制MSI CapabilityMSI-X 中断机制MSI-X capabilityMSI-X TablePBAMSI-X capability 解析MSI/MSI-X 操作流程扫描设备配置设备MSI 配置MSI-X 配置中断触发与处理PCI 设备中断机制以前的PCI 设备是支持物理上的 INTA…...

编程日记 2026/3/5 3:34:05

wxWidgets GUI 跨平台入门学习笔记

准备参考 https://wiki.wxwidgets.org/Microsoft_Visual_C_NuGethttps://wiki.wxwidgets.org/Tools#Rapid_Application_Development_.2F_GUI_Buildershttps://docs.wxwidgets.org/3.2/https://docs.wxwidgets.org/latest/overview_helloworld.htmlhttps://wizardforcel.gitb…...

编程日记 2026/2/26 18:26:22