当前位置: 首页 > news >正文

MiniCTX:面向大语言模型定理证明的上下文相关基准测试系统

卡内基梅隆大学的研究人员推出MiniCTX,这是一个强大的基准测试系统,旨在通过整合前所未有的多重上下文元素(包括前提、先前证明、注释、符号以及导入和声明等结构组件)来彻底改变大型语言模型中定理证明能力的评估方式,从而更真实地模拟现实世界中的数学证明环境。

论文介绍

大型语言模型 (LLM) 在数学自动化领域有着巨大的潜力,而形式化定理证明已成为评估其推理能力的关键基准。虽然这些模型在通过证明完成和形式化工具辅助数学家方面展现出希望,但在弥合当前评估方法与现实世界定理证明复杂性之间的差距方面仍然存在重大挑战。实验室性能与实际应用之间的脱节引发了人们对基于 LLM 的证明器真正有效性的担忧。当前的方法通常无法捕捉到真实定理证明场景中所需的数学推理的复杂性,从而限制了它们的实际效用。这种差异凸显了对更复杂的评估框架的需求,这些框架可以准确地评估 LLM 处理真实数学证明中遇到的多方面挑战的能力。

为了增强语言模型的定理证明能力,人们开发了各种方法。最早的突破是下一个策略预测,其中模型根据当前的证明状态生成下一个证明步骤。随后出现了更复杂的方法,例如前提检索条件化(将相关的数学前提纳入生成过程)和非正式证明条件化(使用自然语言证明作为指导)。另一种值得注意的方法涉及使用文件上下文微调模型,使其能够在没有中间证明状态的情况下生成完整的证明。虽然这些方法证明了渐进式的改进,但它们主要集中在定理证明的孤立方面,而不是解决数学推理的全部复杂性。每种方法都带来了具体的创新,但在处理形式化定理证明的综合要求方面仍然有限。

卡内基梅隆大学的研究人员推出了 MiniCTX,这是一个强大的基准测试系统,旨在彻底改变大型语言模型中定理证明能力的评估。该系统通过整合先前方法忽略的多个上下文元素,为定理证明中的上下文处理引入了一种综合方法。这个创新框架通过整合前提、先前证明、注释、符号以及导入和声明等结构组件,专门解决了现实世界定理证明的挑战。该系统由 NTP-TOOLKIT 支持,NTP-TOOLKIT 是一个从 Lean 项目中提取相关定理和上下文的自动化工具,可确保持续更新并防止数据污染。这种强大的架构代表着在创建更真实、更实用的定理证明评估方面迈出的重要一步。

img

MiniCTX 的架构建立在一个包含 376 个定理的综合数据集之上,这些定理来自六个不同的数学项目,包括素数定理、多项式 Freiman-Ruzsa 猜想和科学计算形式化。该系统的结构围绕着每个定理的三个关键组件:定理陈述本身、完整的先前文件内容以及详细的元数据。元数据组件特别复杂,包含文件信息、版本控制数据、位置上下文、前提关系、模块导入和证明特征。这种分层架构支持精确的上下文重建,允许用户访问文件内和跨文件的上下文信息。该系统以 JSON 格式维护所有数据,确保可访问性和标准化。该实现包括自包含的定理和那些在多个文件之间具有复杂依赖关系的定理,从而创建了数学证明环境的真实表示。

img

实验结果表明,在定理证明中使用上下文相关方法可以显着提高性能。在包含所有文件上下文的条件下训练的文件微调模型的成功率达到了 35.94%,而仅依赖证明状态的状态-策略模型的成功率为 19.53%。类似地,向 GPT-4o 提供先前文件上下文带来了实质性改进,达到了 27.08%,而仅使用证明状态时为 11.72%。前提选择在不同场景中表现出不同的有效性,特别是在 GPT-4o 的高跨文件依赖性案例中提高了性能,尤其是在 PFR 和 SciLean 等项目中。然而,文件微调模型在使用前提选择时表现出不一致的结果,这表明在有效整合跨文件上下文方面存在挑战。值得注意的是,在 miniF2F 基准测试(侧重于没有上下文依赖关系的独立问题)中进行测试时,文件微调模型相对于状态-策略模型的改进很小,这突出了 miniCTX 评估上下文相关证明能力的独特能力。

img

该研究揭示了上下文相关定理证明未来发展需要改进的几个关键领域。当前在处理长上下文方面的局限性(为了满足 token 预算而进行的截断可能会丢弃有价值的信息)提出了重大挑战。整合存储库级别的上下文和跨文件依赖关系仍然特别具有挑战性,因为当前的前提选择方法显示出不一致的改进。此外,在复杂证明(尤其是那些需要五行以上代码的证明)上的性能相对较低,这表明处理复杂的数学推理仍然是一个开放的挑战。这些发现强调需要更复杂的方法来处理自动化定理证明中的上下文。

论文下载

  • 论文地址:https://www.arxiv.org/abs/2408.03350
  • 项目地址:https://cmu-l3.github.io/minictx/

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

相关文章:

MiniCTX:面向大语言模型定理证明的上下文相关基准测试系统

卡内基梅隆大学的研究人员推出MiniCTX,这是一个强大的基准测试系统,旨在通过整合前所未有的多重上下文元素(包括前提、先前证明、注释、符号以及导入和声明等结构组件)来彻底改变大型语言模型中定理证明能力的评估方式&#xff0c…...

树莓派开发相关知识三PWM控制转速

基于树莓派PWM控制 控制L298N马达驱动转速 马达驱动转速 1、L298N电路图: 2、需要留意的有几点 INA~IND四个引脚分别控制OUTA-OUTD,即,INA高电平则OUTA有电。 ENA,ENB分别使能控制OUTA~OUTB以及OUTC~OUTD。 OUT口有VCC电压驱动…...

SpringBoot最常用的注解

1、RestController 作用:与Controller类似,但是RestController会自动将返回值转换为JSON格式。 2、RequestMapping 作用:用于映射请求URL和处理方法。 RequestMapping是Spring MVC框架中的一个核心注解,它用于映射HTTP请求和控…...

js 获取当前时间与前一个月时间

// 获取当前时间的毫秒数 var currentTimeMillis new Date().getTime();// 获取前一个月的Date对象 var dateLastMonth new Date(); dateLastMonth.setMonth(dateLastMonth.getMonth() - 1);// 获取前一个月的毫秒数 var timeMillisLastMonth dateLastMonth.getTime();conso…...

深度了解flink rpc机制(四) 组件启动流程源码分析

前言 目前已发布了3篇关于Flink RPC相关的文章,分别从底层通信系统akka/Pekko,RPC实现方式动态代理以及Flink RPC相关的组件做了介绍 深度了解flink rpc机制(一)-Akka/Pekko_flink pekko akka-CSDN博客 深度了解flink rpc机制&…...

C++基于opencv的视频质量检测--遮挡检测

文章目录 0.引言1. 原始代码分析1.1 存在的问题 2. 优化方案3. 优化后的代码4. 代码详细解读4.1. 输入检查4.2. 图像预处理4.3. 高斯模糊4.4. 梯度计算4.5. 计算梯度幅值和方向4.6. 边缘检测4.7. 计算边缘密度4.8. 估计遮挡程度4.9. 限定结果范围4.10. 返回结果 0.引言 视频质…...

手机玩潜水员戴夫?GameViewer远程如何随时随地玩潜水员戴夫教程

如果你是潜水员戴夫的忠实玩家,你知道如何在手机上玩潜水员戴夫吗?潜水员戴夫是一个以神秘蓝洞为背景的海洋冒险游戏。在这个游戏里你白天可以在美丽的大海里打鱼,晚上可以经营寿司店。现在这个游戏也能实现用手机随时随地畅玩了!…...

UE5 喷射背包

首选创建一个输入操作 然后在输入映射中添加,shift是向上飞,ctrl是向下飞 进入人物蓝图中编写逻辑,变量HaveJatpack默认true,Thrust为0 最后...

【Vue3】第三篇

Vue3学习第三篇 01. 组件组成02. 组件嵌套关系03. 组件注册方式04. 组件传递数据Props05. 组件传递多种数据类型06. 组件传递Props校验07. 组件事件08. 组件事件配合v-model使用09. 组件数据传递10. 透传Attributes 01. 组件组成 在vue当中,组件是最重要的知识&…...

c++二级指针

如果要通过函数改变一个指针的值&#xff0c;要往函数中传入指针的指针 如果要通过函数改变一个变量的值&#xff0c;那就要往函数中传入这个变量的地址 改变a的值和b的值 #include <iostream>using namespace std;void swap(int* a, int* b) {int temp *a;*a *b;*b …...

客户端存储 — IndexedDB 实现分页查询

前言 相信 IndexedDB 大家都有过了解&#xff0c;但是不一定每个人都有过实践&#xff0c;并且其中涉及到事务、游标等概念&#xff0c;会导致在初次使用时会有些不适应&#xff0c;那么本文会通过 IndexedDB 实现分页查询的形式进行实践&#xff0c;在开始之前&#xff0c;可…...

logback 如何将日志输出到文件

如何作 将日志输出到文件需要使用 RollingFileAppender&#xff0c;该 Appender 必须定义 rollingPolicy &#xff0c;另外 rollingPollicy 下必须定义 fileNamePattern 和 encoder <appender name"fileAppender" class"ch.qos.logback.core.rolling.Rollin…...

Files.newBufferedReader和Files.readAllLines

在Java中&#xff0c;Files.newBufferedReader 和 Files.readAllLines 都是用于从文件中读取数据的工具方法&#xff0c;但它们的使用场景和功能有所不同。下面我将详细解释这两个方法的含义、用途、区别、优缺点以及各自的使用场景。 1. Files.newBufferedReader 含义和用途…...

MySQL 数据库备份与恢复全攻略

MySQL 数据库备份与恢复全攻略 引言 在现代应用中&#xff0c;数据库是核心组件之一。无论是个人项目还是企业级应用&#xff0c;数据的安全性和完整性都至关重要。为了防止数据丢失、损坏或意外删除&#xff0c;定期备份数据库是必不可少的。本文将详细介绍 MySQL 数据库的备…...

Appium中的api(一)

目录 1.基础python代码准备 1--参数的一些说明 2--python内所要编写的代码 解释 2.如何获取包名和界面名 1-api 2-完整代码 代码解释 3.如何关闭驱动连接 4.安装卸载app 1--卸载 2--安装 5.判断app是否安装 6.将应用放到后台在切换为前台的时间 7.UIAutomatorViewer的使用 1--找…...

【AI辅助设计】没错!训练FLUX LoRA就这么简单!

前言 得益于开源社区的力量&#xff0c;在各位大佬的努力下&#xff0c;现在16G VRAM的家用电脑也可以训练FLUX的LoRA了 &#x1f44f;。 今天我使用fluxgym这个方法&#xff0c;训练LoRA&#xff0c;并记录过程。 篇幅有限&#xff0c;这里就不一一展示了&#xff0c;有需要的…...

Mac 下安装FastDFS

首先我们需要下载相对应的安装包&#xff1a; libfastcommonFastDFS 下载完成后我们先将其解压到桌面。 1.安装libfastcommon 我们进入到libfastcommon-master目录中执行./make.sh和sudo ./make.sh install&#xff0c;具体代码如下&#xff1a; 2.安装FastDFS 同安装libfa…...

人工智能的未来:重塑生活与工作的变革者

随着人工智能&#xff08;AI&#xff09;技术的快速发展&#xff0c;我们正处于一个前所未有的变革时代。AI不仅在医疗、企业运营和日常生活中发挥着重要作用&#xff0c;而且正在重新定义我们的生活和工作方式。本文将探讨人工智能技术的应用前景以及它如何改变我们的生活和工…...

【微服务】Java 对接飞书多维表格使用详解

目录 一、前言 二、前置操作 2.1 开通企业飞书账户 2.2 确保账户具备多维表操作权限 2.3 创建一张测试用的多维表 2.4 获取飞书开放平台文档 2.5 获取Java SDK 三、应用App相关操作 3.1 创建应用过程 3.2 应用发布过程 3.3 应用添加操作权限 四、多维表应用授权操作…...

学习threejs,使用粒子实现下雪特效

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.Points简介1.11 ☘️…...

如何快速提升Obsidian笔记体验:AnuPpuccin主题完整指南

如何快速提升Obsidian笔记体验&#xff1a;AnuPpuccin主题完整指南 【免费下载链接】AnuPpuccin Personal theme for Obsidian 项目地址: https://gitcode.com/gh_mirrors/an/AnuPpuccin 还在为单调的Obsidian界面而烦恼吗&#xff1f;想让你的笔记软件既美观又实用吗&a…...

终极指南:5分钟学会用FanControl免费掌控Windows风扇转速

终极指南&#xff1a;5分钟学会用FanControl免费掌控Windows风扇转速 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending…...

终极指南:如何用UI-TARS桌面版实现零代码智能桌面自动化

终极指南&#xff1a;如何用UI-TARS桌面版实现零代码智能桌面自动化 【免费下载链接】UI-TARS-desktop The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop …...

XueQiuSuperSpider技术深度解析:模块化爬虫架构与量化投资数据采集实现

XueQiuSuperSpider技术深度解析&#xff1a;模块化爬虫架构与量化投资数据采集实现 【免费下载链接】XueQiuSuperSpider 雪球股票信息超级爬虫 项目地址: https://gitcode.com/gh_mirrors/xu/XueQiuSuperSpider XueQiuSuperSpider是一款基于Java8函数式编程范式设计的雪…...

边缘节点就地智能处理方案

边缘节点就地智能处理方案 第1章项目概述 1.1项目背景 随着数字中国建设迈入深度落地与规模化赋能的全新阶段,2026年作为国家数据要素价值释放关键年、算力网络规模化落地之年以及“十五五”规划开局之年,全国各行业数字化、数智化转型正式从信息化补短板阶段迈入提质增效、深…...

天地协同:卫星如何成为5G物联网“组合拳”的关键一环

未来的物联网连接格局并非“卫星取代地面”或“地面压制卫星”的零和博弈&#xff0c;而是一个基于场景需求、优势互补的“组合式”解决方案。卫星连接的价值在于补充和增强更广泛的连接组合&#xff0c;与5G等地面蜂窝网络协同工作&#xff0c;共同构建一张无处不在、经济高效…...

Coding爆发打破「AI泡沫论」,MiniMax能否卡位下一个Google?

【Coding爆发打破「AI泡沫论」】 Coding的爆发&#xff0c;彻底断绝了「AI泡沫论」&#xff0c;这已成为共识。阿里财报显示MaaS ARR超过80亿元&#xff0c;年底还有望再涨三倍以上&#xff0c;意味着只有投入没有回报的周期已过去&#xff0c;能开始盈利&#xff0c;大小玩家都…...

怎么判断铝合金熔炼炉价格才合理?

在选购铝合金熔炼炉时&#xff0c;价格只是一个参考。需要关注市场行情、熔炼炉厂家信誉、设备性能与售后服务等多方面因素。铝熔炼炉若性能更好&#xff0c;初期投入虽高&#xff0c;长期使用能提升产能并降低单位成本。不同类型的冶金熔炼炉各有特点&#xff0c;会影响选型与…...

Mybatis-Plus条件构造器实战:QueryWrapper与UpdateWrapper的进阶应用与避坑指南

1. 为什么需要条件构造器&#xff1f; 在日常开发中&#xff0c;数据库操作是绕不开的话题。记得我刚入行时&#xff0c;每次写SQL都要手动拼接字符串&#xff0c;不仅容易出错&#xff0c;还经常被SQL注入漏洞困扰。后来接触到MyBatis&#xff0c;虽然解决了安全问题&#xf…...

DSP开发环境搭建实战:从CCSv3.3安装到XDS510仿真器配置全解析

1. CCSv3.3安装全流程详解 第一次接触DSP开发的朋友&#xff0c;安装CCSv3.3这个"老前辈"可能会遇到各种意想不到的问题。我当年在实验室安装时&#xff0c;光是补丁问题就折腾了一整天。下面就把这些年积累的实战经验分享给大家。 首先需要准备的是安装文件。虽然现…...