【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents
arxiv: https://arxiv.org/pdf/2502.14499
简介
Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,其模块化设计涵盖Agent、环境、数据集和任务四大核心组件,允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务,共13个跨领域的开放式任务,覆盖数据科学、自然语言处理、计算机视觉、强化学习和博弈论方向。同时,对性能和开销进行了多维度评价。
AI Research Agents研究等级划分
文章中对AI Research Agents进行了六个等级的定义:
● Level 0 可复现: 对现有研究论文工作进行浮现。
● Level 1 改善基线: 在一个Benchmark给出一个基线代码,LLM Agent可以个改善性能。
● Level 2 达到SOTA: 在一个benchmark上金给出任务描述和可获取的公开文献且不为SOTA的方法,根据这些已有资料,实现出SOTA方法。
● Level 3 新的科学贡献: 在多个benchmark上达到SOTA,并且达到在顶级会议(NIPS、ML等)上发表的水平。
● Level 4 突破性科学贡献: LLM Agent可以发现关键研究问题、方向、解决方案并做令人瞩目的贡献,例如:获得best paper等。
● Level 5 长期研究议程: LLM Agent可以进行长期的研究,提出研究问题、方向和解决方案,并在数周、月或年内,不断产生新的科学发现。值得获得诺贝尔奖或者图灵奖的程度。
MLGym架构
该框架由四个核心组件组成:Agents、Environment、Datasets、Tasks
允许人们轻松得利用和扩展库,可以通过为Agent添加工具来扩展环境、在给定任务中添加数据集、在MLGym基准测试中添加更多任务。
Agent: 提供了一个环境和Agent分离的架构,允许用户去使用默认的Agent去测试不同的基座模型或者自己添加新的外部Agent进行测试。agent可以执行bash命令、可以获取工具集等。
Environment: 环境中是本地docker机器中的初始化的shell环境,允许使用需要的工具、安装python的依赖包、拷贝必要的环境、在独立的agent工作空间中编码和提供agent和系统之间的交互管理。
Datasets: 数据集和任务分离,一个数据集可对应多个任务,一个任务可对应多个数据集。数据集支持本地和hf下载。
Tasks: 每个任务可以包含一个或多个数据集、自定义评估脚本、特定任务的conda环境、可选的启动代码、训练超时和内存管理等,可定义不同困难度的各种开放式ml研究任务。可以自定义评估脚本和提交文件说明。
Tool 和 ACI(agent-computer interface):扩展了搜索,导航,文件查看器,文件编辑器和上下文管理与我们的权限管理系统的命令,并引入新的命令,文献检索和内存模块。当agent打开没有权限的文件时,会生成相应的反馈内容。
MLGym-Bench 基准任务
包含五大类,13个开放式AI研究任务。
数据科学
● 房价预测:使用Kaggle数据集,基于rmse和R2评估,基线为简单的Ridge回归。
● 3-SAT问题:优化DPLL算法的变量选择启发式,基于解决100个实例的时间评估。
博弈论
● 迭代囚徒困境:设计策略最大化与随机对手的长期收益,20 轮重复游戏。
● 性别大战:协调策略选择,20 轮重复游戏,对手基于最后一轮随机选择。
● Colonel Blotto 游戏:资源分配策略,对手使用简单随机分配规则。
计算机视觉
● CIFAR-10 图像分类:基线准确率 49.71%,优化模型架构和超参数。
● Fashion MNIST 图像分类:基线为两层 CNN,优化测试集准确率。
● MS-COCO 图像字幕生成:基于图像编码器 - 文本解码器基线,优化 BLEU 分数。
自然语言处理
● MNLI 自然语言推理:基于预训练 BERT 模型,优化微调策略和超参数。
● 语言建模:使用 FineWeb 数据集,基于 NanoGPT 基线,优化验证集困惑度。
强化学习
● MetaMaze 导航:网格世界环境,基于 Gymnax,基线为 PPO 算法。
● Mountain Car Continuous 控制:连续控制环境,优化策略以驱动汽车上山。
● Breakout MinAtar 游戏:Arcade 游戏环境,基于 Gymnax 评估平均分数。
评价指标
● 性能曲线(Performance Profiles)
○ 用于统一不同指标的性能衡量对比。定义方法 m 在任务 t 上的性能比:
(1)
(2)
○ 性能曲线ρm(τ)表示方法 m 在 τ 阈值内的任务比例。其中M是所有方法的集合,P是任务集合, l t , m l_{t,m} lt,m是方法M在任务t上的性能度量, r t , m r_{t,m} rt,m是一个称为性能比率的量。
○ 适应不同指标方向(越高越好或越低越好),处理不可行方法。(1)中指标越小越好,例如:损失、困惑度等(2)中指标越大越好,例如:准确率、召回率等。
● AUP 分数(Area Under the Performance Profile):
○ 计算性能曲线下面积,衡量方法在多任务上的综合表现。定义性能曲线下的面积(Area Under the Performance Profile),量化方法的综合表现。
其中 τ m a x \tau_{max} τmax是使所有方法 ρ m ( τ ) = 1 \rho_m(\tau)=1 ρm(τ)=1的最小阈值。
● 两类评估维度:
○ 最佳提交(Best Submission@4):每个模型在 4 次独立运行中验证的最佳中间结果。
○ 最佳尝试(Best Attempt@4):每个模型在 4 次独立运行中最终提交的最佳结果。
● 不可行方法处理:
○ 若有代理未生成有效解或者未超越极限,标记为 infeasible ,设置分数为: ( 1 + ϵ ) × r t , b a s e l i n e ( ϵ = 0.05 ) (1+\epsilon) \times r_{t,baseline} (\epsilon=0.05) (1+ϵ)×rt,baseline(ϵ=0.05)
避免因部分任务失败导致评估是真,保证跨模型比较的公平性。
相关文章:

【Agent】MLGym: A New Framework and Benchmark for Advancing AI Research Agents
arxiv: https://arxiv.org/pdf/2502.14499 简介 Meta 推出的 MLGym 框架及配套基准 MLGym-Bench,为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境,MLGym 支持强化学习等算法对代理的训练,…...
5.27 打卡
知识点回顾: Dataset类的__getitem__和__len__方法(本质是python的特殊方法)Dataloader类minist手写数据集的了解 作业:了解下cifar数据集,尝试获取其中一张图片 import torch import torchvision from torchvision im…...

Web安全测试-文件上传绕过-DVWA
Web安全测试-文件上传绕过-DVWA 很多网站都有上传资源(图片或者文件)的功能,资源上传后一般会存储在服务器的一个文件夹里面,如果攻击者绕过了上传时候的文件类型验证,传了木马或者其他可执行的代码上去,那服务器就危险了。 我用…...
织梦dedecms arclist最新发布日期显示红色
织梦DedeCMS在当天发表的文章显示红色、添加new图标的问题,织梦模板网在以前的文章中已经发表过类似的文章,今天我们再来回顾和温习一下,主要增加了真正的当天显示红色,而不是24小时内的文章显示红色。 真正的“当天”显示红色&a…...

现代 CSS 高阶技巧:实现平滑内凹圆角的工程化实践
通过 数学计算 CSS mask 复合遮罩 实现的真正几何内凹效果: 背景是一张图片,用来证明中间的凹陷是透明的。 完整代码: app.js import FormPage from "./pages/formPage"; import "./App.css"; const App () > {re…...

【运维自动化-标准运维】如何实现在不同步骤间传递参数
当流程有多个步骤时,经常需要把前面某个个步骤处理的结果传递给下一个或后面的步骤使用(输出作为输入),这就是跨步骤传参的场景,标准运维通过特有的标记符号"<SOPS_VAR>key:value</SOPS_VAR> "来…...
STM32 UART通信实战指南:从原理到项目落地
STM32串口通信实战指南:从零开始手把手教你 前言:为什么串口这么重要? 在嵌入式开发中,串口就像设备的"嘴巴"和"耳朵"。无论是给单片机下达指令、读取传感器数据,还是让两个模块"对话"…...
基于stm32的 永磁同步电机二电平驱动控制系统设计
基于STM32的永磁同步电机(PMSM)二电平驱动控制系统设计方案: 系统架构 永磁同步电机二电平驱动控制系统主要由以下部分组成: STM32微控制器:作为控制核心,生成PWM信号并处理反馈数据。功率驱动电路:使用IGBT或MOSFET构成三相桥式逆变器,实现二电平驱动。电流采样电路:…...

[AI]主流大模型、ChatGPTDeepseek、国内免费大模型API服务推荐(支持LangChain.js集成)
主流大模型特色对比表 模型核心优势适用场景局限性DeepSeek- 数学/代码能力卓越(GSM8K准确率82.3%)1- 开源生态完善(支持医疗/金融领域)7- 成本极低(API价格仅为ChatGPT的2%-3%)5科研辅助、代码开发、数据…...

手机IP地址更换的影响与操作指南
在移动互联网时代,IP地址如同手机的“网络身份证”,其变更可能对上网体验、隐私安全及服务访问产生连锁反应。无论是为了绕过地域限制、保护隐私,还是解决网络冲突,了解IP更换的影响与正确操作方法都至关重要。本文将系统分析影响…...
iOS 响应者链详解
响应者链是 iOS 中处理用户事件(如触摸、摇动、按键)的核心机制,由一系列 UIResponder 对象构成,决定了事件传递的路径和优先级。以下是其核心机制与使用场景的详细解析: 一、响应者链的组成 1. 响应者对象࿰…...
Flink Table API 编程入门实践
Flink Table API 编程入门实践 前言 Apache Flink 是目前大数据实时计算领域的明星产品,Flink Table API 则为开发者提供了声明式、类似 SQL 的数据处理能力,兼具 SQL 的易用性与编程 API 的灵活性。本文将带你快速了解 Flink Table API 的基本用法&am…...

MongoDB 安全机制详解:全方位保障数据安全
在当今数据驱动的时代,数据库安全至关重要。MongoDB 作为一款流行的 NoSQL 数据库,广泛应用于 Web 应用、大数据分析和物联网等领域。然而,随着 MongoDB 的普及,其安全性也面临诸多挑战,如未授权访问、数据泄露和注入攻…...
Teensy LC 一款由 PJRC 公司开发的高性能 32 位微控制器开发板
Teensy LC 是一款由 PJRC 公司开发的高性能 32 位微控制器开发板,具有以下特点: 硬件配置 核心处理器 :采用 MKL26Z64VFT4 ARM Cortex-M0 处理器,运行频率为 48MHz,相较于传统的 8 位 AVR 处理器,速度更快…...
MicroPython 开发ESP32应用教程 之 线程介绍及实例分析
MicroPython ESP32 线程(Thread)基础 MicroPython 在 ESP32 上支持线程(Thread)功能,通过 _thread 模块实现。线程允许程序并发执行多个任务,适合处理需要同时运行的场景,例如传感器数据采集和…...
鸿蒙5开发宝藏案例分享---一多断点开发实践
🌟【鸿蒙开发实战进阶】六大核心案例深度拆解,带你玩转多端适配! 📐 案例4:动态网格布局(电商商品列表) 应用场景:手机/平板商品展示差异 痛点分析:手机单列→平板多列&…...

嵌入式学习之系统编程(六)线程
目录 一、线程 (一)线程概念 (二)特征 (三)优缺点 二、线程与进程的区别(面问) 三、多线程程序设计步骤 四、线程的创建(相关函数) 1、pthread_create…...
分布式常见概念
分布式常见概念 反向代理正向代理 vs 反向代理(对比理解名称)正向代理示意(“我去帮你拿数据”)反向代理示意(“你找我,我替你联系内部服务器”)为什么叫“反向”? API网关一、为什么…...
数据库的事务(Transaction)
在数据库中,事务(Transaction) 是保证数据操作一致性和完整性的核心机制。它通过一组原子性的操作单元,确保所有操作要么全部成功(提交),要么全部失败(回滚)。以下是数据…...

大语言模型 提示词的少样本案例的 演示选择与排序新突破
提示词中 演示示例的选择与排序 这篇论文《Rapid Selection and Ordering of In-Context Demonstrations via Prompt Embedding Clustering》聚焦于提升大语言模型(LLMs)在自适应上下文学习(ICL)场景中演示示例的选择与排序效率 一、论文要解决的问题 在上下文学习(ICL)…...

【算法篇】二分查找算法:基础篇
题目链接: 34.在排序数组中查找元素的第一个和最后一个位置 题目描述: 给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。 如果数组中不存在目标值 target,返…...
Qtc++开发遇到的问题-按钮点击不管用?
我在设计自己的控件的时候,遇到了按钮点击不管用的问题,而且是有的自定义控件不管用,有的管用,有的一开始管用,多点几次就不管用了, 它是这样的,一个lineEdit和位于两侧的按钮,分别…...

重磅发布 | 复旦533页《大规模语言模型:从理论到实践(第2版)》(免费下载)
在人工智能浪潮席卷全球的今天,大语言模型正以前所未有的速度推动着科技进步和产业变革。从 ChatGPT 到各类行业应用,LLM 不仅重塑了人机交互的方式,更成为推动学术研究与产业创新的关键技术。 面对这一飞速演进的技术体系,如何系…...

智能体赋能效率,企业知识库沉淀价值:UMI企业智脑的双轮驱动!
智能体企业知识库:UMI企业智脑的核心功能与价值 在人工智能技术飞速发展的今天,企业智能化转型已经成为不可逆转的趋势。作为企业级AI智能体开发平台的佼佼者,优秘智能推出的UMI企业智脑,以其强大的智能体开发能力和全面的企业知…...
STM32CubeMX,arm-none-eabi-gcc简单试用
在windows下,为stm32系列单片机编程,keil有了免费的试用版,有很多开发板示例,给学习单片机编程带来很大的方便。 STM32CubeMX提供了stm32单片机的功能设置,在输出方式上给出了几种方式,有mdk(k…...
Spring AI(一)
Spring AI 官网 Spring AI 是一个用于 AI 工程的应用程序框架。其目标是将 Spring 生态系统设计原则(如可移植性和模块化设计)应用于 AI 领域,并将使用 POJO 作为应用程序的构建块推广到 AI 领域。 Spring AI 的核心是解决了 AI 集成的根本挑战:将您的企业数据和 API 与 A…...
Nacos适配GaussDB超详细部署流程
1部署openGauss 官方文档下载 https://support.huaweicloud.com/download_gaussdb/index.html 社区地址 安装包下载 本文主要是以部署轻量级为主要教程 1.1系统环境准备 操作系统选择 系统AARCH64X86-64openEuler√√CentOS7√Docker√√1.2软硬件安装环境 版本轻量版(单…...
vue-pure-admin动态路由无Layout实现解决方案
背景: 最近在使用vue-pure-admin开发后台项目的时候发现作者并没有动态路由的全屏无Layout实现方案。查询作者路由发现,作者只做了静态路由的无Layout方案,其它动态路由,作者在做整合的时候,都放进了 \ 下面的子路由&…...

vue项目 build时@vue-office/docx报错
我在打包vue项目时, 开始用的npm run build和cnpm run build,总是提示 vue-office/docx 错误,尝试过用cnpm重新安装node_modules几次都没用。类似下面的提示一直有。 Error: [commonjs--resolver] Failed to resolve entry for package "…...
卓力达蚀刻工艺:精密制造的跨行业赋能者
引言 蚀刻技术作为现代精密制造的核心工艺之一,通过化学或物理方法对金属材料进行选择性去除,实现微米级复杂结构的加工。南通卓力达凭借20余年技术积淀与全产业链布局,成为全球高端制造领域的重要支撑力量。本文将从蚀刻技术的多领域应用与…...