当前位置: 首页 > article >正文

大模型终于看懂立体几何!中科院联合阿里提出统一形式语言,刷新解析SOTA

论文详细解读使用统一形式化语言的平面与立体几何图形解析论文标题Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language作者机构中国科学院自动化研究所CASIA、中国科学院大学、阿里巴巴未来生活实验室摘要 (Abstract)尽管多模态大语言模型 (MLLMs) 在诸多领域取得了显著进展但在几何推理方面仍面临挑战其主要瓶颈在于对细粒度视觉元素的感知能力不足。虽然以往的形式化语言有助于理解平面几何但需要复杂空间理解能力的立体几何 (Solid Geometry)领域仍未被充分探索。 为解决这一问题本文设计了一种统一的形式化语言将平面与立体几何相融合全面覆盖了几何结构与语义关系。同时作者构建了大型数据集GDP-29K包含 2万个平面几何样本和 9千个立体几何样本均配有真实的形式化描述标注。在训练范式上提出结合监督微调 (SFT)与基于可验证奖励的强化学习 (RLVR)的方法以确保生成的语法正确性与几何一致性。实验表明该方法不仅在解析性能上达到了 SOTA最高水平其输出的形式化描述还能作为关键的“认知脚手架”大幅提升 MLLMs 在下游几何推理任务中的能力。引言 (Introduction)几何是数学的核心也是人工智能解决复杂视觉信息与符号推理融合问题的关键。根据结构特性几何可分为平面几何 (PG) 和立体几何 (SG)。相比于平面几何立体几何需要理解 3D 结构和空间关系对 AI 系统而言极具挑战性。尽管近期 MLLMs 发展迅速但几何问题求解 (GPS) 依然是软肋。核心难点在于精准的几何感知需求模型必须准确识别点、线、面等基本图元及它们之间的关系。然而即便是最先进的模型如 Gemini-3-Pro 和 GPT-5.1在解析稍复杂的平面几何和简单的立体几何时也会产生严重的“幻觉”如下图所示。图1SOTA MLLMs 在几何解析中的幻觉现象。红字表示解析错误。为了打破这一感知瓶颈此前的研究集中于平面几何图表解析 (PGDP)但缺乏对立体图表解析 (SGDP) 的研究。为此本文提出了一种统一的形式化语言将成熟的平面几何形式化表示扩展至立体几何。GDP-29K 数据集包含 20K 平面和 9K 立体几何图像包含打印和手写风格填补了数据空白。图2GDP-29K 数据集概览。包含各种风格的几何图形及其对应的包含基元与语义约束的形式化语言标注。在模型训练方面采用SFT RLVR的两阶段训练范式。结合基于规则的验证器提供奖励信号该模型在 PGDP 上取得 分在 SGDP 上取得 分。此外结合该解析器结果下游模型 Qwen3-VL-8B 在 Geometry3K、PGPS9K 和 SolidGeo 测试基准上分别提升了 、 和 。相关工作 (Related Work)MLLMs 的几何感知限制目前 MLLMs 在端到端基准测试如 GeoEval, MathVerse中容易混淆“感知错误”与“推理失败”。许多研究表明感知错误是首要问题因此需要将图表感知与逻辑推理显式解耦。数据集与形式化现有的 PGDP 数据集如 Geometry3K, PGDP5K仅限 2D 且来源单一、缺乏视觉多样性。立体几何领域更是处于空白。几何理解与推理方法早期依赖规则启发式检测。近期的研究试图通过自然语言监督增强推理。本文则受数学领域强化学习成功的启发首次引入 RLVR 机制来确保图表解析的语法与几何精准度。几何形式化表示 (Geometry Formal Representation)本文提出一种简洁且兼容的统一表示框架平面几何的继承沿用 PGPS9K 的语言以谓词序列的形式描述点、线、圆等基本图元以及平行、垂直、长度、角度等语义关系。立体几何的扩展引入高阶基元面和体并将其明确分类**多面体 (Polyhedra)**包含立方体、棱柱、棱锥及其组合体等。**旋转体 (Solids of Revolution)**包含球体、圆柱、圆锥、截锥等。 通过标准化模板确保复杂结构可以被拆解为可解释的图元并实现 2D/3D 表示的完全兼容。GDP-29K 数据集 (GDP-29K Dataset)4.1 数据集概览总计包含 28,882 个样本。PGDP-20K包含 19,965 个平面几何图像其中包含 5,516 个纯手工绘制的样本极大增加了现实世界的手写泛化性。SGDP-9K包含 8,917 个立体几何图像是目前首个专门针对立体几何解析的大规模数据集。4.2 数据集构建过程数据收集来源于开源教科书、考试卷、教育网站及部分现有数据集初步获取近 10 万张图片。**数据过滤 (三阶段)**1) OpenCV 剔除模糊低分辨率图像2) GPT-5.1 过滤语义模糊或文本无法识别的图像3) 严格的人工校验。数据标注平面几何采用模型辅助 专家修正的策略立体几何因 MLLMs 感知能力差采用纯人工从零标注。实施了“标注-验证-最终验收”三级质量控制并移除了形式化描述完全相同的冗余样本。方法论 (Methodology)核心目标是训练一个多模态模型 输入视觉图像 和指令 输出严谨的形式化序列 图3模型框架。先通过 GDP-29K 进行 SFT 训练随后通过可验证奖励格式和几何有效性的强化学习 (RLVR) 进行进一步优化。5.1 第一阶段监督微调 (Supervised Fine-Tuning, SFT)利用交叉熵损失通过 Teacher-forcing 让基础模型学习视觉特征与几何图元之间的映射以及基础语法5.2 第二阶段基于可验证奖励的强化学习 (RLVR)SFT 仅优化 token 级别的概率容易产生语法合理但在几何全局上无效的描述。本文引入基于规则的验证器通过 GRPO 算法最大化期望奖励总奖励 是格式奖励与几何有效性奖励的加权和其中 验证标签格式。 根据基元类型分配不同的难度权重 计算各个图元的精确度该细粒度奖励机制促使模型在面对如高阶语义关系等复杂图元时也能保持高保真度。实验部分 (Experiments)6.1 实验设置基础模型选择 Qwen3-VL-4B-Instruct。将数据集划分为训练集 (26K) 和测试集 GDP-3K (包含 PGDP-2K 和 SGDP-1K)。主要评估指标为 Precision §、Recall ® 和 F1-score (F1)。6.2 主要结果**平面几何 (PGDP)**GDP-4B-RL 模型达到 SOTA (96.4 F1)。尽管 GPT-5.2 等模型在“点”等基本图元上表现不错但在“线”和“语义关系”上性能大幅下滑如超大模型 Qwen3-VL-235B-Thinking 在语义上仅 72.4而本文模型达到 90.7证明通用视觉预训练无法替代专业的几何逻辑训练。**立体几何 (SGDP)**立体几何的感知挑战极为明显即使 GPT-5.2 在“线”(72.8)、“圆”(65.3) 和“面”(75.9) 上也表现挣扎。本文模型则表现出极强的空间理解力综合得分高达 94.9。强化学习 (RLVR) 的影响相比于纯 SFT 模型RLVR 对基础图元点/线提升有限但对高阶结构PGDP中的语义关系提升 SGDP中的面关系提升 有显著促进作用说明奖励信号有效解决了复杂歧义。6.3 图表级别的完全匹配评估不仅关注细粒度 F1更关注整体的完全匹配率 (Perfect Parsing Rate, PPR)。一个微小的图元错误就会导致整个描述作废。 实验结果显示本文模型 GDP-4B-RL 在 PGDP 上达到了 的 PPR在 SGDP 上达到 远超诸如 Gemini-3-Flash (, ) 和 GPT-5.2 等通用 MLLM证实了该框架极大地提升了整体解析的绝对正确率。6.4 对下游几何推理的帮助将模型解析出的形式化描述作为 prompt 添加给下游大模型能显著提升各类模型的几何解题能力。在视觉密集的平面图表Geometry3K, PGPS9K上提升巨大如 Qwen3-VL-8B 获得了 和 的绝对提升。在立体几何 (SolidGeo) 上也有稳定提升。立体几何提升幅度略小的原因可能是现有测试集的题干本身已经对 3D 结构进行了较多文字描述且内在的隐含符号约束较平面几何少。6.5 表示形式的影响 (形式化语言 vs 自然语言)使用 Gemini-3-Pro 将形式化语言 (FL) 翻译为自然语言 (NL) 进行等效对比。*图4不同表示形式对 PGPS9K 推理准确率的影响。*结果表明尽管两种辅助描述都能提升基线模型性能但**形式化语言 (FL) 一致优于自然语言 (NL)**。这表明紧凑、符号化的表示方式能提供更高的信息密度为几何推理提供了更强的归纳偏置。结论与局限性 (Conclusion Limitations)结论本文建立了一个涵盖平面与立体几何的统一形式化语言及解析框架彻底打破了多模态模型在几何感知上的瓶颈。新提出的 GDP-29K 数据集填补了三维数据的严重空白。采用 SFTRLVR 范式模型不仅达到了 SOTA 解析精度还被证明能作为关键认知脚手架大幅提升下游各类 MLLM 的几何问题解答能力。局限性与未来工作目前的形式化语言尚未在立体几何中显式区分可见元素与不可见如虚线元素。增加这种属性将进一步增强空间深度理解。现有的立体几何样本视觉语义相对稀疏。未来的研究旨在构建语义更丰富、空间场景更复杂的 3D 数据集。附录补充细节 (Appendix)数据收集细节手写数据子集为捕捉真实的笔画动态、线条粗细变化及现实扭曲如画不圆的圆研究团队聘请了 10 名不同书写风格的标注员通过数位板纯手工重绘了 5,516 张平面几何图表确保了对教育场景下的极强泛化性。数据集结构分布立体图表中棱锥 (Pyramids) 占比最高 (3,937例)其次是立方体 () 和棱柱 ( )。此外包含了一定比例的截面体、圆锥、圆柱乃至球体以保证对复杂旋转曲面的泛化能力。 平面几何中核心语义约束高度集中于“长度”(37.54%)、“角度”(33.05%) 以及拓扑证明中最关键的“垂直关系”(25.06%)。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

大模型终于看懂立体几何!中科院联合阿里提出统一形式语言,刷新解析SOTA

论文详细解读:使用统一形式化语言的平面与立体几何图形解析 论文标题:Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language作者机构:中国科学院自动化研究所(CASIA)、中国科学…...

Agentic Search能替代GraphRAG吗,结论清晰了

2024 年 GraphRAG 爆火以来,「要不要建图」成了 RAG 系统设计中最常被讨论的决策。建图能显著提升多跳推理性能,但代价高昂——实体抽取、图谱构建、索引维护,每一步都是真金白银。 与此同时,agentic search 系统快速崛起——Sear…...

RAG 检索到了还是答错:从一个线上事故讲透 RAG 数据工程全链路

一个合同问答系统的线上事故 某企业法务团队上线了一套合同问答系统。用户问:“渠道商季度返点的计算条件是什么?” 系统返回了三段参考文档,生成了一段看起来完整的回答。法务审核时发现:引用的是 2024 年旧版渠道政策&#xf…...

印地语语音合成落地难?ElevenLabs官方未披露的4大限制、3种绕过技巧,及2个替代模型性能对比数据

更多请点击: https://kaifayun.com 第一章:印地语语音合成落地难?ElevenLabs官方未披露的4大限制、3种绕过技巧,及2个替代模型性能对比数据 ElevenLabs对印地语支持的真实现状 ElevenLabs虽在API文档中标注“支持印地语&#x…...

ElevenLabs波斯文TTS落地难题全破解:从Unicode乱码、音节切分失败到自然语调合成的5大技术卡点

更多请点击: https://codechina.net 第一章:ElevenLabs波斯文TTS落地难题全破解:从Unicode乱码、音节切分失败到自然语调合成的5大技术卡点 波斯文(Farsi)作为右向左(RTL)、连字密集、元音隐含…...

紧急通知:Claude文档解析API响应延迟突增300%?立即启用这3个异步缓存+增量摘要策略保生产可用性

更多请点击: https://intelliparadigm.com 第一章:Claude复杂文档分析工作流的稳定性危机本质 当处理百页PDF、嵌套Markdown表格、多语言混合注释及跨页公式引用的法律合同时,Claude模型常在推理链中出现非确定性断裂——并非简单“超时”或…...

揭秘Midjourney V6蒸汽波出图失败率高达63%的底层原因:3步绕过平台封禁,稳定生成霓虹故障美学

更多请点击: https://codechina.net 第一章:蒸汽波美学的数字幽灵:Midjourney V6封禁机制本质解构 蒸汽波(Vaporwave)以低保真采样、CRT扫描线、80年代商业图腾与数字怀旧为视觉语法,其美学内核恰恰在于对…...

Midjourney单色调风格失效诊断图谱(含8种典型失败案例+对应--no、--style、--seed三重校准方案)

更多请点击: https://intelliparadigm.com 第一章:Midjourney单色调风格失效诊断图谱(含8种典型失败案例对应--no、--style、--seed三重校准方案) 单色调(Monochrome)图像生成在Midjourney中高度依赖提示词…...

从扁平到触手可及,Midjourney拟物化全流程拆解,含12组高复用材质参数模板与避坑清单

更多请点击: https://kaifayun.com 第一章:从扁平到触手可及:Midjourney拟物化设计范式跃迁 当UI设计从iOS 7的极简扁平风席卷全球,我们曾笃信“去装饰即高级”。而Midjourney V6起悄然掀起一场静默革命——它不再满足于生成“看…...

谷歌收录怎么做比较快?Shopify过滤5个无效参数提升商品页收录

一个拥有5000个SPU的Shopify独立站,在Google Search Console后台的网页报告中,未收录网页数量高达45000个。索引分配明细标明,超过32000个URL带有“已抓取 - 目前未索引”标签。谷歌浏览器爬虫每天分配给该站点的抓取请求固定在4000次左右。检…...

我在大厂做开发的5年:那些996的日子

作为一名在互联网大厂摸爬滚打五年的开发工程师,如今转型成为软件测试团队的负责人,回望过去那些被996填满的日子,我有太多话想对同为技术从业者的测试同仁们说。这些经历不仅是我个人的成长印记,更藏着开发与测试岗位在高压环境下…...

谷歌收录怎么做比较快?提升网页打开速度至2秒内的优化方案

谷歌爬虫(Googlebot)在网站停留的时间存在硬性额度。网页文件若达到 6MB,传输会耗尽爬虫配额。调整网页体积到 1MB 以内,同等时间内抓取数量能提升 4倍。每日抓取页面从 1000 个爬升到 4000 个,新内容进入索引库的时间…...

做技术选型时,别只看Star数,这五个指标更重要

在软件研发的技术选型赛道上,GitHub的Star数常被当作“流量密码”,不少团队仅凭这一指标就敲定技术栈。但对于软件测试从业者而言,Star数只是技术生态的“表面繁华”,真正决定技术选型成败的,是那些能直接影响测试可行…...

福建话TTS落地难?手把手教你绕过ElevenLabs官方未公开的闽东方言/莆仙话语音注入方案,限时可复现

更多请点击: https://kaifayun.com 第一章:福建话TTS落地难?手把手教你绕过ElevenLabs官方未公开的闽东方言/莆仙话语音注入方案,限时可复现 ElevenLabs 官方 API 当前仅支持普通话、粤语等主流中文变体,对闽东方言&a…...

【编号884】江西省各城市-春节人口迁徙规模数据(2019-2025)

今天分享的是 江西省各城市-春节人口迁徙规模数据(2019-2025)数据概况 江西省各城市-春节人口迁徙规模数据(2019-2025) 春节地级市人口迁徙指数(2019-2025)迁徙指数依托位置时空大数据构建,形…...

LLM 认知框架:揭秘时间序列与空间结构,洞悉 AI 未来!

一、简明摘要 本文是一篇概念说明与方法论文章,核心问题是:LLM 到底是什么,它与 AI、AGI、Agent、Skill 有什么关系。全文先区分 AI、AGI、LLM 三个层级,再说明 LLM 的现实形态已经从“文本生成模型”扩展为“模型、上下文、外部知…...

微信聊天记录永久保存指南:5分钟掌握WeChatMsg完整备份方案

微信聊天记录永久保存指南:5分钟掌握WeChatMsg完整备份方案 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/…...

2026年四款主流 SaaS 收银系统:不同场景怎么选?

开店做生意,最让人头疼的往往不是选址或装修,而是每天打烊后对着乱糟糟的账本发愁。很多刚起步的老板为了省成本,初期只用纸笔或简单的 Excel 记账,一旦客流上来,库存对不上、会员积分算错、交接班混乱等问题接踵而至。…...

YOLOv11公共场所吸烟行为目标检测数据集-6496张-smoking-detection-1

YOLOv11公共场所吸烟行为目标检测数据集 📊 数据集基本信息 目标类别: [‘not_smoking’, ‘smoking’]中文类别:[‘不吸烟’, ‘吸烟’]训练集:5644 张验证集:569 张测试集:283 张总计:6496 张…...

ElevenLabs支持闽南语吗?福建话语音合成实测:从API调用到音色克隆的7步通关手册

更多请点击: https://intelliparadigm.com 第一章:ElevenLabs福建话语音支持现状与能力边界 ElevenLabs 目前尚未在官方语音模型库中提供对福建话(含闽南语、闽东语等分支)的原生支持。其公开文档与 API 文档均未列出任何以“Fuj…...

拒绝C盘爆红!自制 Windows 系统垃圾一键清理工具(精美UI设计)

你的 C盤 又红了吗?相信很多 Windows 用户都经历过被 **“C盘空间不足”** 支配的恐惧。随着日常办公、浏览网页、系统更新,各种临时文件和日志会悄悄吞噬掉我们珍贵的固态硬盘空间。市面上的清理软件鱼龙混杂,要么捆绑软件,要么后…...

MPV_lazy终极指南:如何用懒人包快速提升视频播放体验?

MPV_lazy终极指南:如何用懒人包快速提升视频播放体验? 【免费下载链接】mpv_PlayKit 🔄 mpv player 播放器折腾记录 Windows conf | 中文注释配置 汉化文档 快速帮助入门 | mpv-lazy 懒人包 Win11 x64 config | 着色器 shader 滤镜 filter 整…...

千问 LeetCode 2547. 拆分数组的最小代价 Java实现

这道题是典型的区间DP(动态规划)问题,核心在于如何高效计算每个子数组的"重要性"。问题分析重要性的计算规则: - 子数组中只出现一次的数字会被移除(不计入长度) - 重要性 k 剩余数字的个数 - …...

ElevenLabs陕西话语音落地实录:从零配置API到高保真秦腔语调还原,7步搞定方言TTS部署

更多请点击: https://kaifayun.com 第一章:ElevenLabs陕西话语音落地实录:从零配置API到高保真秦腔语调还原,7步搞定方言TTS部署 环境准备与API密钥获取 首先注册ElevenLabs账号并进入 Profile → API Keys页面,生成…...

15. tsconfig.json 配置详解

15. tsconfig.json 配置详解 1. 概述 tsconfig.json 是 TypeScript 项目的核心配置文件,用于指定编译选项、文件包含/排除规则、项目引用等。正确配置 tsconfig.json 是 TypeScript 项目工程化的基础。 ┌────────────────────────────…...

Python数据流式处理:Streaming深度解析与实战

Python数据流式处理:Streaming深度解析与实战 引言 在Python开发中,数据流式处理是处理大数据和实时数据的关键技术。作为一名从Rust转向Python的后端开发者,我深刻体会到流式处理在处理海量数据时的优势。Python提供了多种流式处理工具&…...

14. 声明文件(Declaration Files)

14. 声明文件(Declaration Files) 1. 概述 声明文件(.d.ts 文件)用于描述 JavaScript 库的类型信息,让 TypeScript 能够理解和使用纯 JavaScript 编写的代码。声明文件只包含类型定义,不包含实现代码。 ┌─…...

远程会议还在发文档改来改去?我用 Rustpad 搭了个协作平台彻底解决

前言 远程会议开到一半,需要共同修订一份文档或代码提纲,这种场景估计不少人经历过。方案来来去去就那几个:发邮件等反馈、微信来回传文件、用腾讯文档但要登录账号……每种都有各自的鸡肋之处。后来我自己琢磨出一套更顺手的方案&#xff1…...

专业级图片去重神器:彻底告别重复照片的数字困扰

专业级图片去重神器:彻底告别重复照片的数字困扰 【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 你是否曾经花费数小时手动整理电脑中堆积如山的重复照片&a…...

【软考高级架构】论文预测——论基于ATAM的架构评估方法

论基于ATAM的架构评估方法 摘要 软件架构评估是保障系统质量属性满足业务目标的关键环节。架构权衡分析方法(Architecture Trade-off Analysis Method,ATAM)作为一种系统化的架构评估方法,通过场景捕获、质量属性分析、敏感点与权衡点识别、风险与非风险决策分类等结构化…...