WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。
2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流,为研究人员提供了一个统一的框架来评估和比较不同LLMs的性能。
一、研究背景:
随着大型语言模型在处理复杂任务方面能力的显著提升,将复杂问题分解为可执行的工作流成为了实现实际部署的关键步骤。然而,现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。
目前遇到困难和挑战:
1、现有的评估基准大多只关注功能调用任务,忽视了更复杂的工作流结构,如并行性。
2、LLMs在生成工作流时容易受到幻觉和歧义的影响,导致评估缺乏系统性。
3、当前的工作流评估过于依赖GPT-3.5/4,而这些模型本身在复杂任务规划中的表现并不理想。
数据集地址:WORFBENCH|大型语言模型数据集|工作流生成数据集
二、让我们来一起看一下WORFBENCH
WORFBENCH是一个统一的工作流生成基准,包含多方面的应用场景和复杂的图结构工作流,目的全面提升LLMs的工作流生成能力。涵盖了问题解决、功能调用、具身规划和开放性规划等四种复杂的应用场景,包含了18k训练样本、2146个测试样本和723个用于评估泛化能力的保留任务。
整个构建过程包括任务的收集、节点链的构建、工作流图的生成以及严格的质量控制和数据过滤。通过GPT-4生成节点链和工作流图,并通过拓扑排序算法和人工评估来确保数据集的质量。
WORFBENCH提供了一套系统化的评估协议WORFEVAL,使用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。此外,还支持对不同规模的LLMs进行评估,并可以分析工作流如何增强端到端模型的性能。
基准测试 :
通过在WORFBENCH上的综合评估,研究人员发现即使是GPT-4这样的模型,在图结构化工作流的预测能力上也远远达不到实际要求,性能差距约为15%。此外,通过训练开源模型并评估其在保留任务上的泛化能力,进一步证明了WORFBENCH的有效性和实用性。
概述框架WORFBENCH:第1 扇区是基准构建,我们首先合成节点链,然后是工 作流图。第二部分是我们的数据过滤过程(§。第3部分描述了WORFEVAL中的算法,以评 估LLM代理的预测工作流。第四部分是我们WORFBENCH的详细数据点。请注意,图中的每个 节点都由其颜色唯一标识。
我们使用相同的精心设计指令和两个示例来评估所有模型。我们根据模型是否开源以及它们的规模对模型进行分类。每个类别中的最佳结果用粗体标出,第二好的结果用下划线标出。
三、让我们一起展望 WORFBENCH的应用:
想象一下,你是一个智能家居系统的AI大脑。
你的任务是帮助主人准备一个晚餐。主人家今天回来很多小朋友,所以这个重任就落在了你的肩上。
首先,你得检查一下家里的食材库存。你控制着家里的智能冰箱,查看了里面的蔬菜和肉类,发现冰箱里有新鲜的番茄和牛肉,但是缺少了一些香料和饮料。于是,你生成了一个购物清单,并通过智能家居系统发送给了主人。
主人回来后,根据你的清单采购了所需的物品。现在,你得开始规划晚餐的菜单和烹饪流程了。你决定做一道经典的番茄牛肉意面。你根据冰箱里的食材和主人新买的香料,制定了一个详细的烹饪计划。
烹饪开始了,你首先指导主人把牛肉切成薄片,然后用橄榄油、大蒜和香料腌制。同时,你还控制着智能烤箱预热到合适的温度。牛肉腌制好后,你指导主人将其放入烤箱中烤制。
在牛肉烤制的同时,你也没闲着,开始准备意面和番茄 sauce。你指导主人把意面放入锅中煮熟,同时用智能搅拌机打碎番茄,制作出新鲜的番茄酱。你还控制着智能定时器,确保意面不会煮过头。
最后,当一切准备就绪,你指导主人将烤好的牛肉和热腾腾的番茄酱与意面混合,撒上一些新鲜的芝士,一道美味的番茄牛肉意面就完成了。
在这个过程中,你不仅要处理厨房里的各种智能设备,还要根据实际情况灵活调整计划。比如,当发现烤箱预热不够快时,你得决定是否先准备酱料,或者调整烤箱的温度。这就像是在玩一个实时策略游戏,你得随时做出决策,确保一切都能按时完成。
最后,一盘盘香气扑鼻、味道鲜美、色泽诱人的意面被小吃货们一扫而光。嚷嚷着下次还要来做客。
一个大型语言模型在动态环境中执行动作的能力,它需要理解任务、规划步骤、控制设备,并且能够根据实际情况灵活调整计划。这种能力对于智能家居系统来说是非常有价值的,它可以让家庭生活更加便捷和高效。
来吧,让我们走进:多摄像头视图推荐数据集|模型泛化数据集
相关文章:

WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。
2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBE…...

SpringBoot 集成 Activiti 7 工作流引擎
一. 版本信息 IntelliJ IDEA 2023.3.6JDK 17Activiti 7 二. IDEA依赖插件安装 安装BPM流程图插件,如果IDEA的版本超过2020,则不支持actiBPM插件。我的IDEA是2023版本我装的是 Activiti BPMN visualizer 插件。 在Plugins 搜索 Activiti BPMN visualizer 安装创建…...

UVM初学篇 -(22)UVM field_automation 域的自动化机制
field_automation机制是域的自动化的机制,这个机制的最大的优点是可以对一些变量进行批量的处理,比如对象拷贝、克隆、打印之类的变量。 一、 成员变量的注册 使用field_automation机制首先要用uvm_field 系列宏完成变量的注册,类中的成员变…...
STL二分查找
本课主要介绍容器部分里面的二分查找函数。涉及的函数有 3 个,这 3 个函数的强两个输入参数都和迭代器有关,或者说参数是可以迭代的,而第三个参数则是你要查找的值。 1. binary_search binary_search 的返回结果是 bool 值,如果找…...

啤酒游戏—企业经营决策沙盘
感谢黄浦区文华学院的邀请,今年是为南房集团开展系统思考培训的第二年。我们现在为客户设计的一整年系统思考训练中,会将系统环路结构图与真实议题研讨作为前置内容,让大家在理解整体框架后,再体验麻省理工学院系统动力学著名的“…...

尚硅谷-react教程-求和案例-@redux-devtools/extension 开发者工具使用-笔记
## 7.求和案例_react-redux开发者工具的使用(1).npm install redux-devtools/extension(2).store中进行配置import { composeWithDevTools } from redux-devtools/extension;export default createStore(allReducer,composeWithDevTools(applyMiddleware(thunk))) src/redux/s…...

【动手学强化学习】part2-动态规划算法
阐述、总结【动手学强化学习】章节内容的学习情况,复现并理解代码。 文章目录 一、什么是动态规划?1.1概念1.2适用条件 二、算法示例2.1问题建模2.2策略迭代(policyiteration)算法2.2.1伪代码2.2.2完整代码2.2.3运行结果2.2.4代码…...

【python爬虫实战】爬取全年天气数据并做数据可视化分析!附源码
由于篇幅限制,无法展示完整代码,需要的朋友可在下方获取!100%免费。 一、主题式网络爬虫设计方案 1. 主题式网络爬虫名称:天气预报爬取数据与可视化数据 2. 主题式网络爬虫爬取的内容与数据特征分析: - 爬取内容&am…...

初识Linux · 动静态库(incomplete)
目录 前言: 静态库 动态库 前言: 继上文,我们从磁盘的理解,到了文件系统框架的基本搭建,再到软硬链接部分,我们开始逐渐理解了为什么运行程序需要./a.out了,这个前面的.是什么我们也知道了。…...

华为OD机试 - 匿名信(Java 2024 E卷 100分)
华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(E卷D卷A卷B卷C卷)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加…...

通过rancher2.7管理k8s1.24及1.24以上版本的k8s集群
目录 初始化实验环境 安装Rancher 登录Rancher平台 通过Rancher2.7管理已存在的k8s最新版集群 文档中的YAML文件配置直接复制粘贴可能存在格式错误,故实验中所需要的YAML文件以及本地包均打包至网盘. 链接:https://pan.baidu.com/s/1oYX4eGoBtW_R-7i…...

text-align的属性justify
text-align常用的属性是left、center、right,具体的可参考css解释,今天重点记录的对象是justify justify 可以使文本的两端都对齐在两端对齐文本中,文本行的左右两端都放在父元素的内边界上。然后,调整单词和字母间的间隔&#x…...

使用python自制桌面宠物,好玩!——枫原万叶桌宠,可以直接打包成exe去跟朋友炫耀。。。
大家好,我是小黄。 今天我们使用python实现一个桌面宠物。只需要gif动态图片就行。超级简单容易上手。 #完整源代码可在下方图片免费获取 一:下载相关的库文件。 我们本次使用到的库文件为:tkinter和pyautogui 下载命令: pip…...

使用 ASP.NET Core 8.0 创建最小 API
构建最小 API,以创建具有最小依赖项的 HTTP API。 它们非常适合需要在 ASP.NET Core 中仅包括最少文件、功能和依赖项的微服务和应用。 本教程介绍使用 ASP.NET Core 生成最小 API 的基础知识。 在 ASP.NET Core 中创建 API 的另一种方法是使用控制器。 有关在最小 …...

气候服务平台ClimateSERV2.0简介(python)
1 简介 ClimateSERV 2.0允许开发从业者、科学家/研究人员和政府决策者可视化和下载历史降雨数据、植被状况数据以及 180 天的降雨和温度预报,以增进对农业和水资源供应相关问题的理解并做出改进的决策。 这些数据可以通过 Web 应用程序直接访问,也可以…...

Docker | centos7上对docker进行安装和配置
安装docker docker配置条件安装地址安装步骤2. 卸载旧版本3. yum 安装gcc相关4. 安装需要的软件包5. 设置stable镜像仓库6. 更新yum软件包索引7. 安装docker引擎8. 启动测试9. 测试补充:设置国内docker仓库镜像 10. 卸载 centos7安装docker https://docs.docker.com…...

React--》掌握Valtio让状态管理变得轻松优雅
Valtio采用了代理模式,使状态管理变得更加直观和易于使用,同时能够与React等框架无缝集成,本文将深入探讨Valtio的核心概念、使用场景以及其在提升应用性能中的重要作用,帮助你掌握这一强大工具,从而提升开发效率和用户…...
python爬虫百度图片
直接给代码,可直接用,个人需要修改的地方有两处: self.directory 这是本地存储地址,修改为自己电脑的地址,另外,**{}**不要删spider.json_count 10 这是下载的图像组数,一组有30张图像&#x…...

前端开发:Vue中数据绑定原理
Vue 中最大的一个特征就是数据的双向绑定,而这种双向绑定的形式,一方面表现在元数据与衍生数据之间的响应,另一方面表现在元数据与视图之间的响应,而这些响应的实现方式,依赖的是数据链,因此,要…...
CTF-RE 从0到N: TEA
TEA TEA(Tiny Encryption Algorithm,轻量加密算法) 是一种简单、快速的对称加密算法。它是一个分组加密算法,通常用于加密 64 位的数据块,并使用 128 位的密钥。TEA 是一种“费斯妥结构”(Feistel structu…...

【OSG学习笔记】Day 18: 碰撞检测与物理交互
物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...

K8S认证|CKS题库+答案| 11. AppArmor
目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、切换节点 3)、切换到 apparmor 的目录 4)、执行 apparmor 策略模块 5)、修改 pod 文件 6)、…...
蓝桥杯 2024 15届国赛 A组 儿童节快乐
P10576 [蓝桥杯 2024 国 A] 儿童节快乐 题目描述 五彩斑斓的气球在蓝天下悠然飘荡,轻快的音乐在耳边持续回荡,小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下,六一来了。 今天是六一儿童节,小蓝老师为了让大家在节…...

04-初识css
一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

C++使用 new 来创建动态数组
问题: 不能使用变量定义数组大小 原因: 这是因为数组在内存中是连续存储的,编译器需要在编译阶段就确定数组的大小,以便正确地分配内存空间。如果允许使用变量来定义数组的大小,那么编译器就无法在编译时确定数组的大…...

论文笔记——相干体技术在裂缝预测中的应用研究
目录 相关地震知识补充地震数据的认识地震几何属性 相干体算法定义基本原理第一代相干体技术:基于互相关的相干体技术(Correlation)第二代相干体技术:基于相似的相干体技术(Semblance)基于多道相似的相干体…...
AGain DB和倍数增益的关系
我在设置一款索尼CMOS芯片时,Again增益0db变化为6DB,画面的变化只有2倍DN的增益,比如10变为20。 这与dB和线性增益的关系以及传感器处理流程有关。以下是具体原因分析: 1. dB与线性增益的换算关系 6dB对应的理论线性增益应为&…...

MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...

AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
【导读】 野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而,传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案,能够实现大范围覆盖并远程采集数据。尽管具备这些优势…...

uniapp 开发ios, xcode 提交app store connect 和 testflight内测
uniapp 中配置 配置manifest 文档:manifest.json 应用配置 | uni-app官网 hbuilderx中本地打包 下载IOS最新SDK 开发环境 | uni小程序SDK hbulderx 版本号:4.66 对应的sdk版本 4.66 两者必须一致 本地打包的资源导入到SDK 导入资源 | uni小程序SDK …...