当前位置: 首页 > article >正文

ICLR 2026 | Earth-Agent:地球科学智能体来了!

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自遥感与深度学习、机器之心题目Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents会议International Conference on Learning Representations (ICLR 2026)论文https://www.arxiv.org/abs/2509.23141代码https://github.com/opendatalab/Earth-Agent项目https://opendatalab.github.io/Earth-Agent/年份2026单位上海AI Lab中山大学创新点首个统一多模态EO数据的智能体框架Earth-Agent是首个将RGB图像、原始光谱数据(Spectrum)和地球产品数据(Products)统一在单一架构中的地球观测智能体系统突破了现有MLLM仅支持RGB数据的限制。基于MCP的结构化工具生态系统构建了包含104个专业工具的预定义工具生态系统组织为Index、Inversion、Perception、Analysis和Statistics五大工具包支持复杂的多步骤科学分析和量化推理。双层次评估协议提出了同时评估推理轨迹(step-by-step)和最终结果(end-to-end)的双层评估体系不仅关注答案准确性还系统性地评估工具调用顺序、参数正确性等中间推理过程。Earth-Bench基准数据集构建了包含248个专家标注问题、13,729张图像的综合基准每个问题平均需要5.4步推理支持Auto-Planning和Instruction-Following两种查询模式填补了跨模态、多步骤量化分析评估的空白。与以往侧重于对单张或少量遥感影像进行描述Captioning、分类Classification或简单问答VQA 的基准不同的是Earth-Bench 的核心在于评估智能体执行完整地球科学分析工作流的能力。背景地球观测(EO)在城市规划、农业、灾害监测等领域至关重要。近年来多模态大语言模型(MLLM)在遥感感知任务上取得进展但面临显著局限只能处理 RGB 图像面对光谱数据束手无策。只能做少量的图片无法胜任大规模遥感数据语料分析。只能做简单问答缺乏处理复杂、多步骤科学问题的能力。囿于模型预训练所得的静态知识无法调用成熟的专业工具与科学模型体系。这些局限使得现有方法难以支持真实的地球科学工作流程无法处理需要跨模态数据、大规模图像、多步骤推理和量化分析的复杂科学任务。因此亟需一个能够统一处理多模态EO数据、集成结构化工具生态系统、支持复杂多步推理并具备系统性双层评估机制的智能体框架。数据Earth-Bench基准数据集核心数据规模248个专家标注的问题13,729张图像平均每题55.4张最多670张1,345个推理步骤平均每题5.42步最多19步三种数据模态RGB 图像用于场景分类、目标检测、变化检测等感知任务原始光谱数据用于植被监测、温度反演、干旱评估等定量分析地球产品数据用于城市扩张、水体变化、气象趋势等时空分析。数据来源Google Earth Engine、NASA EarthData和公开遥感数据集AID、DIOR、DOTA等任务覆盖14种代表性任务从经典分类检测到复杂的时空量化分析标注内容每个问题包含完整的Python解决方案、分步骤工具调用轨迹JSON格式、每步输入输出参数、最终答案特点首个同时支持跨模态数据、大规模图像处理、多步骤推理和量化分析的地球观测基准并提供完整推理轨迹标注用于双层次评估。以往的 Agent 基准测试陷入了 「唯结果论」 的陷阱侧重于最终结果的准确性而忽视了对于 Agent 推理轨迹的评估。研究者认为 「怎么得出这个结论」 的过程和结论本身同样重要因此邀请了一支由遥感专业研究生组成的专家小组针对 Earth-Bench 的每一个问题都进行逐步的解答求得最终结果。他们把每一步调用了什么工具、输入了什么参数、得到了什么中间结果都完整地记录了下来。 这就形成了一条条标准的 「专家推理轨迹」。接着将专家推理轨迹纳入到了 step-by-step 评估并将最终的答案和效率纳入到了结果的 end-to-end 评估。方法Earth-Agent方法框架1. 整体架构Earth-Agent采用ReAct推理范式将地球观测任务建模为部分可观测马尔可夫决策过程(POMDP)。系统由LLM控制器作为决策核心通过与结构化工具包交互来完成复杂的地球观测分析任务。2. 四步操作循环① 工具调用根据任务目标和当前记忆选择最合适的工具执行② 记忆更新将工具调用和返回结果追加到记忆栈保持完整交互历史③ 推理思考LLM分析更新后的记忆规划下一步行动和工具配置④ 执行动作选择并执行下一个工具调用循环继续直到任务完成这个循环产生完整的工具调用轨迹和最终答案确保推理过程可追溯可复现。3. 五大工具包系统104个专业工具基于模型上下文协议(MCP)构建保证互操作性和可扩展性① Index工具包实现NDVI、NDWI、NBR等常用地球观测指数用于快速环境特征提取② Inversion工具包地球物理参数反演包括地表温度、可降水量、植被含水量、海冰浓度等③ Perception工具包支持场景分类、目标检测、语义分割等视觉感知任务④ Analysis工具包时空推理分析提供趋势检测、季节性分解、变化点分析、空间自相关等⑤ Statistics工具包大规模数据预处理和统计计算支持批量操作、云掩膜、数据聚合等4. 双层次评估协议End-to-End评估任务级Accuracy评估最终答案的正确性Efficiency评估轨迹效率对比专家解决方案的步骤数量Step-by-Step评估轨迹级Tools_any_order检查是否使用了所有必需工具不考虑顺序Tools_in_order评估工具调用是否按正确逻辑顺序执行Tools_exact_match最严格标准要求与专家轨迹完全匹配Parameters验证每个工具的输入输出参数是否正确5. 两种查询模式Auto-Planning自动规划不在Query中提供步骤指导评估智能体自主规划能力Instruction-Following指令遵循在Query中提供步骤指导评估智能体执行专家指令的能力6. 核心技术优势跨模态处理通过工具调用统一处理RGB、光谱数据和地球产品不受模态限制多步骤推理支持平均5.4步、最多19步的复杂分析流程大规模处理单任务可处理数百张图像突破MLLM的输入限制科学量化超越定性描述支持地球物理参数反演和时空统计分析可扩展性基于MCP的模块化设计易于集成新工具和模型可解释性完整记录推理轨迹每步工具调用可追溯验证结果与精度实验设置评估多个闭源模型GPT-5、Gemini-2.5等和开源模型DeepSeek-V3.1、Kimik2、Qwen3等核心结果LLM对比预训练支持工具调用的模型表现最佳。闭源模型最终准确率较高但部分开源模型在工具使用轨迹上表现更优。精确工具匹配和参数执行是主要瓶颈。发现1预训练支持工具调用的模型表现更好相比于没有进行工具调用进行预训练的模型。闭源模型在end-to-end任务级评估的最终准确率更高但DeepSeek-V3.1和Kimik2在step-by-step推理级评估工具使用的准确率更高发现2相比于自主规划模式指令遵循模式提升工具调用准确性但不一定提高最终准确率。发现3模型通常能识别正确的工具集合但往往引入无关的步骤引起级联误差。工具的精确匹配和参数输入是执行地球观测数据分析的关键瓶颈。vs 通用智能体在Earth-Bench-Lite上Earth-Agent在Spectrum、Products、RGB三种模态上均显著优于通用智能体GPT-Agent、Manus等后者缺乏领域工具支持。vs MLLM在分类、检测、分割任务上全面超越现有遥感大模型。现有MLLM缺乏跨任务泛化能力Earth-Agent通过工具调用实现稳健性能。示例「利用 2022 年纽约市 Landsat 8 热成像和反射率数据采用单通道方法基于 NDVI 和热波段 10 估算 LST然后计算夏季和秋季的平均 LST并确定平均差以评估这两个时期之间的季节性温度差值。A. 8.65K B. 10.89K C.12.42K D.14.75K。」可以看到Earth-Bench 的题目不再局限于对于原始地球观测数据进行简单的一步即可完成的描述、分类、计数任务而是强调利用地球科学的知识进行严格的指标计算和时空分析。Earth-Agent 未来还有广阔的发展前景从基石到生态Earth-Agent 只纳入了 104 个专业的地球科学工具 / 专家模型这仅仅是一个起点。Earth-Agent 采用了 MCP 框架可以非常方便地加入新的工具。研究者相信在开放社区的共同努力下Earth-Agent 将成长为一个不断进化、日益强大的地球科学智能体。从评估到训练本篇工作验证了智能体路线在地球科学分析任务中的巨大潜力而没有对 LLM 进行专门的训练或微调。研究者在附录中对于现阶段的 LLM 进行了详细的错误分析发现智能体在与真实操作系统交互时表现出严重的 「工具幻觉」 和 「文件幻觉」它们会调用不存在的工具或试图处理根本不存在的文件。这为将来的训练路线提供指导。从语言到视觉当前 LLM 对于工具的选择依赖于模型的上下文和工具的描述它局限在文本语义的 prompt 提示工程随着 MLLM 的成熟研究者预见下一个突破点让具备视觉能力的模型作为智能体的核心建立在视觉语义的工具感知可能成为突破地球观测数据分析的关键。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

相关文章:

ICLR 2026 | Earth-Agent:地球科学智能体来了!

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶…...

SwiftChat:基于React Native与Amazon Bedrock的高性能跨平台AI助手深度解析

1. 项目概述:一个真正“快”的跨平台AI助手 如果你和我一样,厌倦了那些启动慢、响应卡顿、功能单一的移动端AI应用,那么 SwiftChat 的出现,绝对值得你花时间了解一下。这不是又一个简单的聊天机器人外壳,而是一个由…...

3步掌握ZenTimings:AMD Ryzen内存时序监控终极指南

3步掌握ZenTimings:AMD Ryzen内存时序监控终极指南 【免费下载链接】ZenTimings 项目地址: https://gitcode.com/gh_mirrors/ze/ZenTimings 想要深入了解AMD Ryzen平台内存性能表现?ZenTimings是一款专为AMD Ryzen处理器设计的开源内存时序监控工…...

GitHub 中文插件:3分钟让全球最大开发者平台说你的语言

GitHub 中文插件:3分钟让全球最大开发者平台说你的语言 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 作为一名开发者&am…...

开源游戏汉化实战:从文本提取到字体替换的完整技术流程

1. 项目概述:一个开源游戏汉化的“小作坊”如果你是一个喜欢玩独立游戏,尤其是那些来自海外开发者的精品小游戏的玩家,大概率会遇到一个头疼的问题:游戏本身质量上乘,但偏偏没有中文。这时候,你可能会去社区…...

AI辅助开发:让快马AI成为你的系统修复顾问,智能诊断kernel32.dll问题

AI辅助开发:让快马AI成为你的系统修复顾问,智能诊断kernel32.dll问题 最近在开发一个Windows系统工具时,遇到了kernel32.dll相关的错误,这让我意识到系统文件修复其实是个挺复杂的问题。kernel32.dll作为Windows核心动态链接库&a…...

从生态竞争到商业博弈:Lotka-Volterra模型如何解释市场中的‘你死我活’与‘共存共荣’

从生态竞争到商业博弈:Lotka-Volterra模型如何解释市场中的‘你死我活’与‘共存共荣’ 商业竞争的本质是什么?为什么有些市场最终形成双寡头格局,而另一些则演变为赢家通吃?当我们观察iOS与Android、可口可乐与百事可乐、美团与饿…...

配网缺陷检测图像数据集,螺栓销钉缺失

配网缺陷检测图像数据集,螺栓销钉缺失 1.配网销钉缺失检测图像数据集(1200多张,voc,销钉缺失) 2.配网缺陷检测图像数据集(3000多张,voc,销钉缺失与绑扎不规范缺陷 ) 针对…...

别再傻傻用IP核了!手把手教你用Verilog写一个高性能FPGA除法器(附完整代码)

突破FPGA除法性能瓶颈:从零构建定制化移位-减法除法器 在FPGA开发中,除法运算一直是性能优化的重点难点。当项目遇到严格的时序约束时,即便是Xilinx或Intel提供的优化IP核,也可能无法满足高频时钟需求。本文将带您深入硬件除法器的…...

Functional-php源码解析:深入理解函数式编程的实现原理

Functional-php源码解析:深入理解函数式编程的实现原理 【免费下载链接】functional-php Primitives for functional programming in PHP 项目地址: https://gitcode.com/gh_mirrors/fu/functional-php 在PHP中实现函数式编程往往需要基础构建模块的支持&…...

3分钟上手:用easy-topo轻松绘制专业网络拓扑图

3分钟上手:用easy-topo轻松绘制专业网络拓扑图 【免费下载链接】easy-topo vuesvgelement-ui 快捷画出网络拓扑图 项目地址: https://gitcode.com/gh_mirrors/ea/easy-topo 你是否曾经为了绘制一张清晰明了的网络拓扑图而头疼?传统的绘图工具要么…...

给单片机项目选Type-C接口?6P、16P、24P引脚电路图与选型避坑指南

单片机项目Type-C接口选型实战:从引脚电路到避坑全攻略 Type-C接口早已超越手机充电的单一场景,成为嵌入式开发中的"万能插座"。但当你打开元器件商城,面对6P、16P、24P各种封装的Type-C连接器,是否感到选择困难&#x…...

Ubuntu 20.04下搞定CH341串口驱动:从下载到开机自启的保姆级避坑指南

Ubuntu 20.04下CH341串口驱动全攻略:从安装到故障排除的终极指南 当你第一次在Ubuntu系统上连接CH341串口设备时,可能会遇到各种令人头疼的问题。无论是Arduino开发板、ESP32模块还是3D打印机控制器,稳定的串口连接都是开发调试的基础。本文将…...

从TROPOMI/NO2数据说起:新手在Linux下载NASA数据最容易踩的3个坑(及解决办法)

从TROPOMI/NO2数据说起:新手在Linux下载NASA数据最容易踩的3个坑(及解决办法) 当你第一次尝试在Linux系统上下载NASA的卫星数据时,可能会感到既兴奋又忐忑。TROPOMI/NO2这类大气成分监测数据对科研工作至关重要,但下载…...

从PBRUSH到扫雷:用otvdmw在Win10上搭建一个可运行的Windows 3.2怀旧博物馆

从PBRUSH到扫雷:用otvdmw在Win10上搭建一个可运行的Windows 3.2怀旧博物馆 在数字技术飞速迭代的今天,那些曾经定义了一个时代的软件界面正逐渐淡出人们的视野。Windows 3.2作为微软首个真正流行的图形操作系统,承载着无数早期PC用户的集体记…...

保姆级教程:在virt-manager上给Ubuntu 22.04虚拟机换VirtIO驱动,性能直接起飞

VirtIO驱动性能优化实战:让Ubuntu虚拟机在virt-manager上飞起来 如果你正在使用virt-manager运行Ubuntu 22.04虚拟机,可能会发现默认配置下的磁盘和网络性能不尽如人意。这通常是因为虚拟机默认使用了兼容性优先的IDE和e1000驱动,而非专为虚拟…...

开源免费的WPS AI 软件 察元AI文档助手:链路 036:persistDocumentEvaluation 与 appendEvaluationRecord

链路 036:persistDocumentEvaluation 与 appendEvaluationRecord 总体链路图 下图在全系列各篇保持一致,仅通过高亮样式标示本篇所覆盖的环节;箭头表示主成功路径,点线为异常或可选路径。阅读任意一篇时都应能回到本图定位&…...

OpenClaw AI Agent会话实时监控仪表盘:零配置部署与深度使用指南

1. 项目概述:一个为AI Agent会话打造的实时监控仪表盘如果你正在使用OpenClaw这类AI Agent框架进行开发或日常使用,那你一定遇到过这样的场景:Agent在后台默默运行,处理着复杂的对话和工具调用,但你却对它的“内心活动…...

开源免费的WPS AI 软件 察元AI文档助手:链路 035:executeAssistantTask 中 buildStructuredExecutionPlan 到 apply

链路 035:executeAssistantTask 中 buildStructuredExecutionPlan 到 apply 总体链路图 下图在全系列各篇保持一致,仅通过高亮样式标示本篇所覆盖的环节;箭头表示主成功路径,点线为异常或可选路径。阅读任意一篇时都应能回到本图…...

英雄联盟个性化展示终极指南:用LeaguePrank安全打造你的专属游戏身份

英雄联盟个性化展示终极指南:用LeaguePrank安全打造你的专属游戏身份 【免费下载链接】LeaguePrank 项目地址: https://gitcode.com/gh_mirrors/le/LeaguePrank 想要在《英雄联盟》中展示与众不同的游戏形象吗?LeaguePrank为你提供了安全又创意的…...

Spotify音乐下载终极方案:打造个人离线音乐库的完整指南

Spotify音乐下载终极方案:打造个人离线音乐库的完整指南 【免费下载链接】spotify-downloader Download your Spotify playlists and songs along with album art and metadata (from YouTube if a match is found). 项目地址: https://gitcode.com/gh_mirrors/sp…...

2013-2023年 银行风险资产占比数据

2013-2023年 银行风险资产占比数据 https://download.csdn.net/download/2401_84585615/91149815数据统计了2013年至2023年间国内主要商业银行的风险加权资产占比(风险加权资产/总资产),涵盖平安银行、浦发银行、民生银行、招商银行等机构的年…...

深度学习中的张量运算:核心原理与工程实践

1. 张量运算:AI世界的通用货币第一次接触张量这个概念是在研究生时期的数值分析课上,教授用"高维数组"一笔带过这个概念。直到后来真正开始做计算机视觉项目,我才意识到张量在AI领域的核心地位——它就像深度学习领域的"通用货…...

从零调试高通Hypervisor通信:HAB用户层API(uhab.c)使用详解与避坑指南

高通Hypervisor通信框架HAB实战:用户层API深度解析与开发避坑指南 在异构计算架构中,虚拟化技术已成为实现资源隔离与共享的关键。当我们面对搭载高通芯片的智能座舱系统时,经常会遇到Host OS(如QNX)与Guest OS&#x…...

程序员转行新方向:深度解析渗透测试岗位,工作内容与核心技术详解

你们有没有看过一部电影,叫《我是谁:没有绝对的安全系统》。这部电影围绕男主角和他的几位伙伴组建的黑客组织 CLAY 展开,讲述了他们为了追求正义而入侵国际安全系统的故事。凭借过人的黑客技术,他们的行动不仅吸引了媒体的关注&a…...

得物小程序响应体解密

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包 内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!侵权通过头像私信或名字简介叫我删除博…...

BinaryMuseGAN终极指南:二值神经元在音乐生成中的革命性应用

BinaryMuseGAN终极指南:二值神经元在音乐生成中的革命性应用 【免费下载链接】musegan An AI for Music Generation 项目地址: https://gitcode.com/gh_mirrors/mu/musegan BinaryMuseGAN是一个基于GAN(生成对抗网络)的音乐生成AI项目…...

5个维度重新定义英雄联盟:从被动操作到智能决策的进化之路

5个维度重新定义英雄联盟:从被动操作到智能决策的进化之路 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为重复的点击操作消…...

GPT-5.5如何提升SEO内容生产效率?关键词、文章与内链策略

概要GPT-5.5是OpenAI于2026年4月24日发布的新一代旗舰模型,代号Spud,是GPT-4.5之后第一个从头训练的底座模型。对SEO从业者来说,GPT-5.5解决的核心问题不是"写文章更快",而是整个SEO内容生产链条的效率瓶颈——关键词研…...

DesignPatternsPHP:享元模式优化内存使用效率的终极指南

DesignPatternsPHP:享元模式优化内存使用效率的终极指南 【免费下载链接】DesignPatternsPHP Sample code for several design patterns in PHP 8.x 项目地址: https://gitcode.com/gh_mirrors/de/DesignPatternsPHP 在现代PHP应用开发中,内存管理…...