当前位置：首页 > article >正文

大模型终于看懂立体几何！中科院联合阿里提出统一形式语言，刷新解析SOTA

article 2026/5/22 1:00:34

论文详细解读使用统一形式化语言的平面与立体几何图形解析论文标题Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language作者机构中国科学院自动化研究所CASIA、中国科学院大学、阿里巴巴未来生活实验室摘要 (Abstract)尽管多模态大语言模型 (MLLMs) 在诸多领域取得了显著进展但在几何推理方面仍面临挑战其主要瓶颈在于对细粒度视觉元素的感知能力不足。虽然以往的形式化语言有助于理解平面几何但需要复杂空间理解能力的立体几何 (Solid Geometry)领域仍未被充分探索。为解决这一问题本文设计了一种统一的形式化语言将平面与立体几何相融合全面覆盖了几何结构与语义关系。同时作者构建了大型数据集GDP-29K包含 2万个平面几何样本和 9千个立体几何样本均配有真实的形式化描述标注。在训练范式上提出结合监督微调 (SFT)与基于可验证奖励的强化学习 (RLVR)的方法以确保生成的语法正确性与几何一致性。实验表明该方法不仅在解析性能上达到了 SOTA最高水平其输出的形式化描述还能作为关键的“认知脚手架”大幅提升 MLLMs 在下游几何推理任务中的能力。引言 (Introduction)几何是数学的核心也是人工智能解决复杂视觉信息与符号推理融合问题的关键。根据结构特性几何可分为平面几何 (PG) 和立体几何 (SG)。相比于平面几何立体几何需要理解 3D 结构和空间关系对 AI 系统而言极具挑战性。尽管近期 MLLMs 发展迅速但几何问题求解 (GPS) 依然是软肋。核心难点在于精准的几何感知需求模型必须准确识别点、线、面等基本图元及它们之间的关系。然而即便是最先进的模型如 Gemini-3-Pro 和 GPT-5.1在解析稍复杂的平面几何和简单的立体几何时也会产生严重的“幻觉”如下图所示。图1SOTA MLLMs 在几何解析中的幻觉现象。红字表示解析错误。为了打破这一感知瓶颈此前的研究集中于平面几何图表解析 (PGDP)但缺乏对立体图表解析 (SGDP) 的研究。为此本文提出了一种统一的形式化语言将成熟的平面几何形式化表示扩展至立体几何。GDP-29K 数据集包含 20K 平面和 9K 立体几何图像包含打印和手写风格填补了数据空白。图2GDP-29K 数据集概览。包含各种风格的几何图形及其对应的包含基元与语义约束的形式化语言标注。在模型训练方面采用SFT RLVR的两阶段训练范式。结合基于规则的验证器提供奖励信号该模型在 PGDP 上取得分在 SGDP 上取得分。此外结合该解析器结果下游模型 Qwen3-VL-8B 在 Geometry3K、PGPS9K 和 SolidGeo 测试基准上分别提升了、和。相关工作 (Related Work)MLLMs 的几何感知限制目前 MLLMs 在端到端基准测试如 GeoEval, MathVerse中容易混淆“感知错误”与“推理失败”。许多研究表明感知错误是首要问题因此需要将图表感知与逻辑推理显式解耦。数据集与形式化现有的 PGDP 数据集如 Geometry3K, PGDP5K仅限 2D 且来源单一、缺乏视觉多样性。立体几何领域更是处于空白。几何理解与推理方法早期依赖规则启发式检测。近期的研究试图通过自然语言监督增强推理。本文则受数学领域强化学习成功的启发首次引入 RLVR 机制来确保图表解析的语法与几何精准度。几何形式化表示 (Geometry Formal Representation)本文提出一种简洁且兼容的统一表示框架平面几何的继承沿用 PGPS9K 的语言以谓词序列的形式描述点、线、圆等基本图元以及平行、垂直、长度、角度等语义关系。立体几何的扩展引入高阶基元面和体并将其明确分类**多面体 (Polyhedra)**包含立方体、棱柱、棱锥及其组合体等。**旋转体 (Solids of Revolution)**包含球体、圆柱、圆锥、截锥等。通过标准化模板确保复杂结构可以被拆解为可解释的图元并实现 2D/3D 表示的完全兼容。GDP-29K 数据集 (GDP-29K Dataset)4.1 数据集概览总计包含 28,882 个样本。PGDP-20K包含 19,965 个平面几何图像其中包含 5,516 个纯手工绘制的样本极大增加了现实世界的手写泛化性。SGDP-9K包含 8,917 个立体几何图像是目前首个专门针对立体几何解析的大规模数据集。4.2 数据集构建过程数据收集来源于开源教科书、考试卷、教育网站及部分现有数据集初步获取近 10 万张图片。**数据过滤 (三阶段)**1) OpenCV 剔除模糊低分辨率图像2) GPT-5.1 过滤语义模糊或文本无法识别的图像3) 严格的人工校验。数据标注平面几何采用模型辅助专家修正的策略立体几何因 MLLMs 感知能力差采用纯人工从零标注。实施了“标注-验证-最终验收”三级质量控制并移除了形式化描述完全相同的冗余样本。方法论 (Methodology)核心目标是训练一个多模态模型输入视觉图像和指令输出严谨的形式化序列图3模型框架。先通过 GDP-29K 进行 SFT 训练随后通过可验证奖励格式和几何有效性的强化学习 (RLVR) 进行进一步优化。5.1 第一阶段监督微调 (Supervised Fine-Tuning, SFT)利用交叉熵损失通过 Teacher-forcing 让基础模型学习视觉特征与几何图元之间的映射以及基础语法5.2 第二阶段基于可验证奖励的强化学习 (RLVR)SFT 仅优化 token 级别的概率容易产生语法合理但在几何全局上无效的描述。本文引入基于规则的验证器通过 GRPO 算法最大化期望奖励总奖励是格式奖励与几何有效性奖励的加权和其中验证标签格式。根据基元类型分配不同的难度权重计算各个图元的精确度该细粒度奖励机制促使模型在面对如高阶语义关系等复杂图元时也能保持高保真度。实验部分 (Experiments)6.1 实验设置基础模型选择 Qwen3-VL-4B-Instruct。将数据集划分为训练集 (26K) 和测试集 GDP-3K (包含 PGDP-2K 和 SGDP-1K)。主要评估指标为 Precision §、Recall ® 和 F1-score (F1)。6.2 主要结果**平面几何 (PGDP)**GDP-4B-RL 模型达到 SOTA (96.4 F1)。尽管 GPT-5.2 等模型在“点”等基本图元上表现不错但在“线”和“语义关系”上性能大幅下滑如超大模型 Qwen3-VL-235B-Thinking 在语义上仅 72.4而本文模型达到 90.7证明通用视觉预训练无法替代专业的几何逻辑训练。**立体几何 (SGDP)**立体几何的感知挑战极为明显即使 GPT-5.2 在“线”(72.8)、“圆”(65.3) 和“面”(75.9) 上也表现挣扎。本文模型则表现出极强的空间理解力综合得分高达 94.9。强化学习 (RLVR) 的影响相比于纯 SFT 模型RLVR 对基础图元点/线提升有限但对高阶结构PGDP中的语义关系提升 SGDP中的面关系提升有显著促进作用说明奖励信号有效解决了复杂歧义。6.3 图表级别的完全匹配评估不仅关注细粒度 F1更关注整体的完全匹配率 (Perfect Parsing Rate, PPR)。一个微小的图元错误就会导致整个描述作废。实验结果显示本文模型 GDP-4B-RL 在 PGDP 上达到了的 PPR在 SGDP 上达到远超诸如 Gemini-3-Flash (, ) 和 GPT-5.2 等通用 MLLM证实了该框架极大地提升了整体解析的绝对正确率。6.4 对下游几何推理的帮助将模型解析出的形式化描述作为 prompt 添加给下游大模型能显著提升各类模型的几何解题能力。在视觉密集的平面图表Geometry3K, PGPS9K上提升巨大如 Qwen3-VL-8B 获得了和的绝对提升。在立体几何 (SolidGeo) 上也有稳定提升。立体几何提升幅度略小的原因可能是现有测试集的题干本身已经对 3D 结构进行了较多文字描述且内在的隐含符号约束较平面几何少。6.5 表示形式的影响 (形式化语言 vs 自然语言)使用 Gemini-3-Pro 将形式化语言 (FL) 翻译为自然语言 (NL) 进行等效对比。*图4不同表示形式对 PGPS9K 推理准确率的影响。*结果表明尽管两种辅助描述都能提升基线模型性能但**形式化语言 (FL) 一致优于自然语言 (NL)**。这表明紧凑、符号化的表示方式能提供更高的信息密度为几何推理提供了更强的归纳偏置。结论与局限性 (Conclusion Limitations)结论本文建立了一个涵盖平面与立体几何的统一形式化语言及解析框架彻底打破了多模态模型在几何感知上的瓶颈。新提出的 GDP-29K 数据集填补了三维数据的严重空白。采用 SFTRLVR 范式模型不仅达到了 SOTA 解析精度还被证明能作为关键认知脚手架大幅提升下游各类 MLLM 的几何问题解答能力。局限性与未来工作目前的形式化语言尚未在立体几何中显式区分可见元素与不可见如虚线元素。增加这种属性将进一步增强空间深度理解。现有的立体几何样本视觉语义相对稀疏。未来的研究旨在构建语义更丰富、空间场景更复杂的 3D 数据集。附录补充细节 (Appendix)数据收集细节手写数据子集为捕捉真实的笔画动态、线条粗细变化及现实扭曲如画不圆的圆研究团队聘请了 10 名不同书写风格的标注员通过数位板纯手工重绘了 5,516 张平面几何图表确保了对教育场景下的极强泛化性。数据集结构分布立体图表中棱锥 (Pyramids) 占比最高 (3,937例)其次是立方体 () 和棱柱 ( )。此外包含了一定比例的截面体、圆锥、圆柱乃至球体以保证对复杂旋转曲面的泛化能力。平面几何中核心语义约束高度集中于“长度”(37.54%)、“角度”(33.05%) 以及拓扑证明中最关键的“垂直关系”(25.06%)。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

大模型终于看懂立体几何！中科院联合阿里提出统一形式语言，刷新解析SOTA

相关文章：

大模型终于看懂立体几何！中科院联合阿里提出统一形式语言，刷新解析SOTA

Agentic Search能替代GraphRAG吗，结论清晰了

RAG 检索到了还是答错：从一个线上事故讲透 RAG 数据工程全链路

印地语语音合成落地难？ElevenLabs官方未披露的4大限制、3种绕过技巧，及2个替代模型性能对比数据

ElevenLabs波斯文TTS落地难题全破解：从Unicode乱码、音节切分失败到自然语调合成的5大技术卡点

紧急通知：Claude文档解析API响应延迟突增300%？立即启用这3个异步缓存+增量摘要策略保生产可用性

揭秘Midjourney V6蒸汽波出图失败率高达63%的底层原因：3步绕过平台封禁，稳定生成霓虹故障美学

Midjourney单色调风格失效诊断图谱（含8种典型失败案例+对应--no、--style、--seed三重校准方案）

从扁平到触手可及，Midjourney拟物化全流程拆解，含12组高复用材质参数模板与避坑清单

谷歌收录怎么做比较快？Shopify过滤5个无效参数提升商品页收录

我在大厂做开发的5年：那些996的日子

谷歌收录怎么做比较快？提升网页打开速度至2秒内的优化方案

做技术选型时，别只看Star数，这五个指标更重要

福建话TTS落地难？手把手教你绕过ElevenLabs官方未公开的闽东方言/莆仙话语音注入方案，限时可复现

【编号884】江西省各城市-春节人口迁徙规模数据（2019-2025）

LLM 认知框架：揭秘时间序列与空间结构，洞悉 AI 未来！

微信聊天记录永久保存指南：5分钟掌握WeChatMsg完整备份方案

2026年四款主流 SaaS 收银系统：不同场景怎么选？

YOLOv11公共场所吸烟行为目标检测数据集-6496张-smoking-detection-1

ElevenLabs支持闽南语吗？福建话语音合成实测：从API调用到音色克隆的7步通关手册

拒绝C盘爆红！自制 Windows 系统垃圾一键清理工具（精美UI设计）

MPV_lazy终极指南：如何用懒人包快速提升视频播放体验？

千问 LeetCode 2547. 拆分数组的最小代价 Java实现

ElevenLabs陕西话语音落地实录：从零配置API到高保真秦腔语调还原，7步搞定方言TTS部署

15. tsconfig.json 配置详解

Python数据流式处理：Streaming深度解析与实战

14. 声明文件（Declaration Files）

远程会议还在发文档改来改去？我用 Rustpad 搭了个协作平台彻底解决

专业级图片去重神器：彻底告别重复照片的数字困扰

【软考高级架构】论文预测——论基于ATAM的架构评估方法