WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。
2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流,为研究人员提供了一个统一的框架来评估和比较不同LLMs的性能。
一、研究背景:
随着大型语言模型在处理复杂任务方面能力的显著提升,将复杂问题分解为可执行的工作流成为了实现实际部署的关键步骤。然而,现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。
目前遇到困难和挑战:
1、现有的评估基准大多只关注功能调用任务,忽视了更复杂的工作流结构,如并行性。
2、LLMs在生成工作流时容易受到幻觉和歧义的影响,导致评估缺乏系统性。
3、当前的工作流评估过于依赖GPT-3.5/4,而这些模型本身在复杂任务规划中的表现并不理想。
数据集地址:WORFBENCH|大型语言模型数据集|工作流生成数据集
二、让我们来一起看一下WORFBENCH
WORFBENCH是一个统一的工作流生成基准,包含多方面的应用场景和复杂的图结构工作流,目的全面提升LLMs的工作流生成能力。涵盖了问题解决、功能调用、具身规划和开放性规划等四种复杂的应用场景,包含了18k训练样本、2146个测试样本和723个用于评估泛化能力的保留任务。
整个构建过程包括任务的收集、节点链的构建、工作流图的生成以及严格的质量控制和数据过滤。通过GPT-4生成节点链和工作流图,并通过拓扑排序算法和人工评估来确保数据集的质量。
WORFBENCH提供了一套系统化的评估协议WORFEVAL,使用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。此外,还支持对不同规模的LLMs进行评估,并可以分析工作流如何增强端到端模型的性能。
基准测试 :
通过在WORFBENCH上的综合评估,研究人员发现即使是GPT-4这样的模型,在图结构化工作流的预测能力上也远远达不到实际要求,性能差距约为15%。此外,通过训练开源模型并评估其在保留任务上的泛化能力,进一步证明了WORFBENCH的有效性和实用性。

概述框架WORFBENCH:第1 扇区是基准构建,我们首先合成节点链,然后是工 作流图。第二部分是我们的数据过滤过程(§。第3部分描述了WORFEVAL中的算法,以评 估LLM代理的预测工作流。第四部分是我们WORFBENCH的详细数据点。请注意,图中的每个 节点都由其颜色唯一标识。

我们使用相同的精心设计指令和两个示例来评估所有模型。我们根据模型是否开源以及它们的规模对模型进行分类。每个类别中的最佳结果用粗体标出,第二好的结果用下划线标出。
三、让我们一起展望 WORFBENCH的应用:
想象一下,你是一个智能家居系统的AI大脑。
你的任务是帮助主人准备一个晚餐。主人家今天回来很多小朋友,所以这个重任就落在了你的肩上。
首先,你得检查一下家里的食材库存。你控制着家里的智能冰箱,查看了里面的蔬菜和肉类,发现冰箱里有新鲜的番茄和牛肉,但是缺少了一些香料和饮料。于是,你生成了一个购物清单,并通过智能家居系统发送给了主人。
主人回来后,根据你的清单采购了所需的物品。现在,你得开始规划晚餐的菜单和烹饪流程了。你决定做一道经典的番茄牛肉意面。你根据冰箱里的食材和主人新买的香料,制定了一个详细的烹饪计划。
烹饪开始了,你首先指导主人把牛肉切成薄片,然后用橄榄油、大蒜和香料腌制。同时,你还控制着智能烤箱预热到合适的温度。牛肉腌制好后,你指导主人将其放入烤箱中烤制。
在牛肉烤制的同时,你也没闲着,开始准备意面和番茄 sauce。你指导主人把意面放入锅中煮熟,同时用智能搅拌机打碎番茄,制作出新鲜的番茄酱。你还控制着智能定时器,确保意面不会煮过头。
最后,当一切准备就绪,你指导主人将烤好的牛肉和热腾腾的番茄酱与意面混合,撒上一些新鲜的芝士,一道美味的番茄牛肉意面就完成了。
在这个过程中,你不仅要处理厨房里的各种智能设备,还要根据实际情况灵活调整计划。比如,当发现烤箱预热不够快时,你得决定是否先准备酱料,或者调整烤箱的温度。这就像是在玩一个实时策略游戏,你得随时做出决策,确保一切都能按时完成。
最后,一盘盘香气扑鼻、味道鲜美、色泽诱人的意面被小吃货们一扫而光。嚷嚷着下次还要来做客。
一个大型语言模型在动态环境中执行动作的能力,它需要理解任务、规划步骤、控制设备,并且能够根据实际情况灵活调整计划。这种能力对于智能家居系统来说是非常有价值的,它可以让家庭生活更加便捷和高效。
来吧,让我们走进:多摄像头视图推荐数据集|模型泛化数据集
相关文章:
WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。
2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBE…...
SpringBoot 集成 Activiti 7 工作流引擎
一. 版本信息 IntelliJ IDEA 2023.3.6JDK 17Activiti 7 二. IDEA依赖插件安装 安装BPM流程图插件,如果IDEA的版本超过2020,则不支持actiBPM插件。我的IDEA是2023版本我装的是 Activiti BPMN visualizer 插件。 在Plugins 搜索 Activiti BPMN visualizer 安装创建…...
UVM初学篇 -(22)UVM field_automation 域的自动化机制
field_automation机制是域的自动化的机制,这个机制的最大的优点是可以对一些变量进行批量的处理,比如对象拷贝、克隆、打印之类的变量。 一、 成员变量的注册 使用field_automation机制首先要用uvm_field 系列宏完成变量的注册,类中的成员变…...
STL二分查找
本课主要介绍容器部分里面的二分查找函数。涉及的函数有 3 个,这 3 个函数的强两个输入参数都和迭代器有关,或者说参数是可以迭代的,而第三个参数则是你要查找的值。 1. binary_search binary_search 的返回结果是 bool 值,如果找…...
啤酒游戏—企业经营决策沙盘
感谢黄浦区文华学院的邀请,今年是为南房集团开展系统思考培训的第二年。我们现在为客户设计的一整年系统思考训练中,会将系统环路结构图与真实议题研讨作为前置内容,让大家在理解整体框架后,再体验麻省理工学院系统动力学著名的“…...
尚硅谷-react教程-求和案例-@redux-devtools/extension 开发者工具使用-笔记
## 7.求和案例_react-redux开发者工具的使用(1).npm install redux-devtools/extension(2).store中进行配置import { composeWithDevTools } from redux-devtools/extension;export default createStore(allReducer,composeWithDevTools(applyMiddleware(thunk))) src/redux/s…...
【动手学强化学习】part2-动态规划算法
阐述、总结【动手学强化学习】章节内容的学习情况,复现并理解代码。 文章目录 一、什么是动态规划?1.1概念1.2适用条件 二、算法示例2.1问题建模2.2策略迭代(policyiteration)算法2.2.1伪代码2.2.2完整代码2.2.3运行结果2.2.4代码…...
【python爬虫实战】爬取全年天气数据并做数据可视化分析!附源码
由于篇幅限制,无法展示完整代码,需要的朋友可在下方获取!100%免费。 一、主题式网络爬虫设计方案 1. 主题式网络爬虫名称:天气预报爬取数据与可视化数据 2. 主题式网络爬虫爬取的内容与数据特征分析: - 爬取内容&am…...
初识Linux · 动静态库(incomplete)
目录 前言: 静态库 动态库 前言: 继上文,我们从磁盘的理解,到了文件系统框架的基本搭建,再到软硬链接部分,我们开始逐渐理解了为什么运行程序需要./a.out了,这个前面的.是什么我们也知道了。…...
华为OD机试 - 匿名信(Java 2024 E卷 100分)
华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(E卷D卷A卷B卷C卷)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加…...
通过rancher2.7管理k8s1.24及1.24以上版本的k8s集群
目录 初始化实验环境 安装Rancher 登录Rancher平台 通过Rancher2.7管理已存在的k8s最新版集群 文档中的YAML文件配置直接复制粘贴可能存在格式错误,故实验中所需要的YAML文件以及本地包均打包至网盘. 链接:https://pan.baidu.com/s/1oYX4eGoBtW_R-7i…...
text-align的属性justify
text-align常用的属性是left、center、right,具体的可参考css解释,今天重点记录的对象是justify justify 可以使文本的两端都对齐在两端对齐文本中,文本行的左右两端都放在父元素的内边界上。然后,调整单词和字母间的间隔&#x…...
使用python自制桌面宠物,好玩!——枫原万叶桌宠,可以直接打包成exe去跟朋友炫耀。。。
大家好,我是小黄。 今天我们使用python实现一个桌面宠物。只需要gif动态图片就行。超级简单容易上手。 #完整源代码可在下方图片免费获取 一:下载相关的库文件。 我们本次使用到的库文件为:tkinter和pyautogui 下载命令: pip…...
使用 ASP.NET Core 8.0 创建最小 API
构建最小 API,以创建具有最小依赖项的 HTTP API。 它们非常适合需要在 ASP.NET Core 中仅包括最少文件、功能和依赖项的微服务和应用。 本教程介绍使用 ASP.NET Core 生成最小 API 的基础知识。 在 ASP.NET Core 中创建 API 的另一种方法是使用控制器。 有关在最小 …...
气候服务平台ClimateSERV2.0简介(python)
1 简介 ClimateSERV 2.0允许开发从业者、科学家/研究人员和政府决策者可视化和下载历史降雨数据、植被状况数据以及 180 天的降雨和温度预报,以增进对农业和水资源供应相关问题的理解并做出改进的决策。 这些数据可以通过 Web 应用程序直接访问,也可以…...
Docker | centos7上对docker进行安装和配置
安装docker docker配置条件安装地址安装步骤2. 卸载旧版本3. yum 安装gcc相关4. 安装需要的软件包5. 设置stable镜像仓库6. 更新yum软件包索引7. 安装docker引擎8. 启动测试9. 测试补充:设置国内docker仓库镜像 10. 卸载 centos7安装docker https://docs.docker.com…...
React--》掌握Valtio让状态管理变得轻松优雅
Valtio采用了代理模式,使状态管理变得更加直观和易于使用,同时能够与React等框架无缝集成,本文将深入探讨Valtio的核心概念、使用场景以及其在提升应用性能中的重要作用,帮助你掌握这一强大工具,从而提升开发效率和用户…...
python爬虫百度图片
直接给代码,可直接用,个人需要修改的地方有两处: self.directory 这是本地存储地址,修改为自己电脑的地址,另外,**{}**不要删spider.json_count 10 这是下载的图像组数,一组有30张图像&#x…...
前端开发:Vue中数据绑定原理
Vue 中最大的一个特征就是数据的双向绑定,而这种双向绑定的形式,一方面表现在元数据与衍生数据之间的响应,另一方面表现在元数据与视图之间的响应,而这些响应的实现方式,依赖的是数据链,因此,要…...
CTF-RE 从0到N: TEA
TEA TEA(Tiny Encryption Algorithm,轻量加密算法) 是一种简单、快速的对称加密算法。它是一个分组加密算法,通常用于加密 64 位的数据块,并使用 128 位的密钥。TEA 是一种“费斯妥结构”(Feistel structu…...
业务系统对接大模型的基础方案:架构设计与关键步骤
业务系统对接大模型:架构设计与关键步骤 在当今数字化转型的浪潮中,大语言模型(LLM)已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中,不仅可以优化用户体验,还能为业务决策提供…...
使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...
FFmpeg 低延迟同屏方案
引言 在实时互动需求激增的当下,无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作,还是游戏直播的画面实时传输,低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架,凭借其灵活的编解码、数据…...
FastAPI 教程:从入门到实践
FastAPI 是一个现代、快速(高性能)的 Web 框架,用于构建 API,支持 Python 3.6。它基于标准 Python 类型提示,易于学习且功能强大。以下是一个完整的 FastAPI 入门教程,涵盖从环境搭建到创建并运行一个简单的…...
AtCoder 第409场初级竞赛 A~E题解
A Conflict 【题目链接】 原题链接:A - Conflict 【考点】 枚举 【题目大意】 找到是否有两人都想要的物品。 【解析】 遍历两端字符串,只有在同时为 o 时输出 Yes 并结束程序,否则输出 No。 【难度】 GESP三级 【代码参考】 #i…...
【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力
引言: 在人工智能快速发展的浪潮中,快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型(LLM)。该模型代表着该领域的重大突破,通过独特方式融合思考与非思考…...
今日学习:Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存
文章目录 优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义 使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因 常见解决方法更好的解决方法设计精妙之处 登录续期登录续期常见实现方式特…...
LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf
FTP 客服管理系统 实现kefu123登录,不允许匿名访问,kefu只能访问/data/kefu目录,不能查看其他目录 创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...
数据挖掘是什么?数据挖掘技术有哪些?
目录 一、数据挖掘是什么 二、常见的数据挖掘技术 1. 关联规则挖掘 2. 分类算法 3. 聚类分析 4. 回归分析 三、数据挖掘的应用领域 1. 商业领域 2. 医疗领域 3. 金融领域 4. 其他领域 四、数据挖掘面临的挑战和未来趋势 1. 面临的挑战 2. 未来趋势 五、总结 数据…...
Linux中INADDR_ANY详解
在Linux网络编程中,INADDR_ANY 是一个特殊的IPv4地址常量(定义在 <netinet/in.h> 头文件中),用于表示绑定到所有可用网络接口的地址。它是服务器程序中的常见用法,允许套接字监听所有本地IP地址上的连接请求。 关…...
