当前位置: 首页 > article >正文

ProgramBench 重新定义 AI Coding 评估:大模型软件工程能力遭“团灭”,瓶颈在哪?

地狱级新 benchmark 结果震撼SWE - Bench 创建者放出新 benchmarkClaude Opus 4.7、GPT - 5.4、GPT - 5 mini、Gemini 3.1 Pro、Gemini 3 Flash 等一线模型全部 0% 完成率意味着今天的大模型会写代码但不会做软件工程。ProgramBench 重新定义评估方式Meta FAIR 联合斯坦福、哈佛等机构发布 ProgramBench它把问题推进到软件工程层面让 AI 从零开始构建可执行软件系统如 ffmpeg、SQLite、ripgrep且不能联网。它采用行为等价打分用 agent - driven fuzzing 做测试结果所有模型 0% 完成率。模型表现细节Figure 4 显示模型常能完成一部分少数任务接近完成但要求 100% 行为等价就不行。Claude 系列表现相对最好Claude Opus 4.7 只有 3% 的任务接近完成。模型倾向于生成单体化代码与人类工程师习惯相反暴露其擅长局部代码生成不擅长全局系统规划的问题。不同语言与任务难度表现研究团队统计模型在 C/C、Go、Rust 等语言项目上的表现C/C 项目完成度最高Rust 最差。不同模型在任务难度排序上一致简单 CLI 工具通过率高复杂系统难推进说明复杂软件系统对当前模型有稳定压制。围绕 ProgramBench 的争议及回应有人质疑 ProgramBench 是考模型背过 FFmpeg 吗知名硅谷投资人 Deedy Das 回应称任何 benchmark 都可能被 overfit真正重要的是模型完成这类任务的能力可能泛化到其他工程场景。还有人吐槽 benchmark 不合理Deedy Das 认为 benchmark 目标是推动模型向更高层次智能逼近人类做不到不意味着没价值。ProgramBench 的缺陷与改进方向ProgramBench 存在缺陷如没测试 Claude Code、Codex 等完整 agent harness只统计是否完成限制联网能力等。但这些问题可随 benchmark 演进修正它第一次把 AI Coding 评估从函数级拉到系统级暴露出行业断层。行业研究新方向当前大模型缺乏维护复杂系统的能力行业开始研究 memory、agents、repo - level reasoning、long - horizon planning、autonomous software engineering 等关键词下一阶段竞争可能是谁能持续稳定维护软件系统。

相关文章:

ProgramBench 重新定义 AI Coding 评估:大模型软件工程能力遭“团灭”,瓶颈在哪?

地狱级新 benchmark 结果震撼SWE - Bench 创建者放出新 benchmark,Claude Opus 4.7、GPT - 5.4、GPT - 5 mini、Gemini 3.1 Pro、Gemini 3 Flash 等一线模型全部 0% 完成率,意味着今天的大模型会写代码,但不会做软件工程。ProgramBench 重新定…...

Snap.Hutao:彻底改变原神游戏体验的智能桌面工具箱

Snap.Hutao:彻底改变原神游戏体验的智能桌面工具箱 【免费下载链接】Snap.Hutao 实用的开源多功能原神工具箱 🧰 / Multifunctional Open-Source Genshin Impact Toolkit 🧰 项目地址: https://gitcode.com/GitHub_Trending/sn/Snap.Hutao …...

AI 算力新格局:端侧突围与算力基建“三级跳”,OpenAI 酝酿已久的智能手机自研计划开始实施

引言2026年5月的这个节点,全球 AI 产业的竞争重心正在经历一次历史性转向——从“谁家的模型参数最大、跑分最高”的简单比拼,加速转向“谁能让算力以更低成本、更低时延触达每一台终端和每一个枢纽”的全面基础设施竞赛。本周,两条看似独立实…...

产品经理没有设计基础,如何用 AI 工具快速画原型

关键要点:本文面向零设计基础的产品经理,解析为什么"画不了原型"不是能力短板而是工具时代的问题,提供 AI 工具快速出原型的完整操作路径,推荐 4 款适合 PM 独立使用的 AI 原型工具,附常见问题解答。 一、不…...

MySql基础知识精简版

一、建表1、分析需求明确关系,作用:提前在建表的时候保留有相关的字段,方便进行相互的校验查询表里边必须有一个 ID 字段的话代表是唯一标识字段查询两个不同的表时,需要表进行关联绑定,建立一对一关联,设立…...

基于Django与Vue.js的现代开源ERP系统Trenova架构解析与实战部署

1. 项目概述:一个开源ERP的现代实践最近在梳理企业内部流程时,我一直在寻找一个既能满足复杂业务逻辑,又具备现代技术架构的ERP(企业资源计划)系统。传统的商业ERP要么价格昂贵、定制困难,要么技术栈陈旧&a…...

测试用例设计方法与理论基

一、测试理论基础(为什么要这样设计) 1.1 测试的目的与边界概念含义对用例设计的启示验证(Verification)产品是否“按规格做对”用例要可追溯到需求/设计条目确认(Validation)产品是否“做对的事”需场景化…...

Gemini和ChatGPT同时要开始投广告了:AI聊天机器人的“免费午餐“时代终结

Gemini和ChatGPT同时要开始投广告了:AI聊天机器人的"免费午餐"时代终结 导语 5月2日,谷歌母公司Alphabet在财报电话会议上释放了一个明确信号:Gemini未来将引入广告业务。 首席商务官Philipp Schindler的原话是:“广告是…...

解密世界杯转播费天价之谜:这 7 大因素是关键

解密世界杯转播费天价之谜:这 7 大因素是关键为你揭开世界杯转播费高昂背后的神秘面纱,让你明白其中缘由。全球超高关注度:受众群体庞大。世界杯是全球最具影响力的体育赛事,每届世界杯吸引全球数十亿观众观看。据统计&#xff0c…...

通过curl命令快速测试Taotoken API连通性与模型列表

通过curl命令快速测试Taotoken API连通性与模型列表 基础教程类,适合需要在无SDK环境或进行快速排错的开发者,教程将详细展示如何使用curl命令,携带正确的Authorization头向Taotoken端点发送请求,获取可用模型列表或完成一次简单…...

BepInEx插件框架深度解析:Unity游戏模块化扩展架构设计与实战指南

BepInEx插件框架深度解析:Unity游戏模块化扩展架构设计与实战指南 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx作为一款高性能的Unity游戏插件框架&#xff…...

智能游戏助手终极指南:如何用MAA彻底告别《明日方舟》重复操作?

智能游戏助手终极指南:如何用MAA彻底告别《明日方舟》重复操作? 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!| A one-click tool for the daily tasks of Arknights, supporting all clients. 项…...

弹幕格式转换终极指南:如何3分钟搞定B站弹幕跨平台播放

弹幕格式转换终极指南:如何3分钟搞定B站弹幕跨平台播放 【免费下载链接】DanmakuFactory 支持特殊弹幕的xml转ass格式转换工具 项目地址: https://gitcode.com/gh_mirrors/da/DanmakuFactory 还在为B站弹幕无法在其他播放器显示而烦恼吗?DanmakuF…...

Arm Socrates™ IP工具平台:SoC设计的高效解决方案

1. Arm Socrates™ IP工具平台概述 Arm Socrates™是Arm公司推出的一款专业IP工具平台,专为系统级芯片(SoC)设计工程师打造。作为一个集成化开发环境,它提供了从IP选型、配置到构建的完整工作流程,极大简化了基于Arm IP的SoC设计过程。 1.1…...

docxcpp开源库,用于读写docx

docxcpp 下载地址: https://github.com/yunxingluoyun/docxcpp C .docx 读写库,基于 pugixml 和 miniz 实现。 能力概览 分类支持内容文档打开 / 创建 / 保存 .docx段落新增段落、标题、分页符、样式段落、多 Run 段落Run粗体、斜体、下划线、字号、…...

openclaw v2026.5.6 最新更新:修复 OpenAI Codex OAuth 路由、插件请求、调试代理与 Web Fetch 超时问题

一、版本概览 openclaw 在 2026年5月7日发布了 v2026.5.6 版本。 这次更新虽然看起来是一个小版本,但实际涉及多个关键修复,特别是 Doctor/OpenAI Codex 路由回退问题、插件/runtime fetch 请求头兼容问题、debug proxy 请求重放问题、以及 web fetch 超…...

# 019、Semantic Kernel 与微软生态:Planner、Plugin、Memory 深度解析

从一次诡异的 Planner 死循环说起 上个月帮一个做工业质检的团队调 Semantic Kernel,他们的 Agent 在调用一个“检测结果汇总”的 Plugin 时,Planner 突然开始疯狂重试同一个步骤。日志里反复出现“Plan execution failed, retrying with adjusted conte…...

UPD720201-K8-701‌ 是瑞萨电子(Renesas Electronics)推出的 ‌USB 3.0 主机控制器芯片‌,广泛用于需要高速数据传输和多端口扩展的设备中,支持 xHCI 1.0

UPD720201-K8-701‌ 是瑞萨电子(Renesas Electronics)推出的 ‌USB 3.0 主机控制器芯片‌,广泛用于需要高速数据传输和多端口扩展的设备中,支持 xHCI 1.0 与 PCIe Gen2 接口标准。 核心参数: 接口标准‌:US…...

AISMM vs. MLPerf/LLMBench/HuggingFace Eval:谁才是大模型评估的黄金标尺?

更多请点击: https://intelliparadigm.com 第一章:AISMM vs. MLPerf/LLMBench/HuggingFace Eval:谁才是大模型评估的黄金标尺? 大模型评估正面临标准碎片化挑战:AISMM(AI System Measurement Methodology…...

Sigma规则开发利器:VSCode插件全解析与实战指南

1. 项目概述:一个为Sigma规则开发者量身定制的VSCode插件如果你是一名安全分析师、威胁猎人或者SOC工程师,每天的工作离不开编写和调试Sigma规则,那你一定对在纯文本编辑器里反复切换、手动验证YAML语法、以及记不清某个字段的正确拼写而感到…...

全球供应链波动下,制造业物流延迟预警将如何智能化?

一、 2026年全球供应链震荡:传统预警机制的“系统性失效” 站在2026年的当下,制造业正面临自21世纪以来最严峻的物流考验。 由于霍尔木兹海峡的局势波动,全球石油与石脑油供应陷入深度结构性震荡。 布伦特原油价格在短短数周内于80美元至130美…...

开源智能体集市:Lobe Chat Agents 项目解析与实战指南

1. 项目概述:一个开源的智能体集市如果你最近在折腾AI应用,尤其是想找一个能快速上手、功能强大且社区活跃的智能体(Agent)集合,那么“lobehub/lobe-chat-agents”这个项目绝对值得你花时间深入研究。简单来说&#xf…...

如何快速解决细胞图像分割难题:Cellpose完整指南

如何快速解决细胞图像分割难题:Cellpose完整指南 【免费下载链接】cellpose a generalist algorithm for cellular segmentation with human-in-the-loop capabilities 项目地址: https://gitcode.com/gh_mirrors/ce/cellpose Cellpose是一款基于深度学习的开…...

基于VecTextSearch的本地语义搜索:从原理到实践

1. 项目概述:从文本到向量的智能搜索新范式 最近在折腾一个老项目的数据检索功能,用户反馈说关键词匹配经常不准,比如搜“如何快速部署服务”,结果出来一堆“服务部署的快速指南”,明明意思差不多,但就是匹…...

轻量级进程守护工具openclaw-warden:极简配置与自动化运维实践

1. 项目概述与核心价值最近在折腾一些自动化任务时,发现了一个挺有意思的项目,叫openclaw-warden。乍一看这个名字,可能会联想到“看门狗”或者“守卫者”,没错,它的核心定位就是一个轻量级的、开源的守护进程管理器。…...

AI工具导航:如何利用Awesome列表高效构建技术栈与工作流

1. 项目概述与核心价值最近在折腾AI项目时,我发现自己陷入了一个典型的“工具选择困难症”。面对市面上层出不穷的AI工具,从文本生成、图像创作到代码辅助,信息过于碎片化,质量也参差不齐。我需要一个能快速定位、评估和上手合适工…...

Bridge-Search:基于MCP协议实现WSL2与Windows文件系统高速互通的AI助手搜索桥梁

1. 项目概述 如果你和我一样,长期在 WSL2 环境下工作,并且重度依赖像 Claude、Cursor 或 OpenClaw 这类 AI 助手来辅助编程和文件管理,那你一定遇到过这个令人抓狂的问题:当你让 AI 助手在 WSL 里搜索一个位于 /mnt/c/Users/...…...

wmux:无缝桥接窗口管理器与终端复用器的操作范式

1. 项目概述:一个为窗口管理器而生的终端复用器如果你和我一样,是那种喜欢把桌面环境折腾得“寸草不生”,完全依赖平铺式窗口管理器(比如i3wm、Sway、Awesome WM)来组织工作流的效率狂人,那你一定对终端复用…...

Ix:为代码库构建智能地图,解决AI上下文失忆与系统理解难题

1. 项目概述:从“猜代码”到“看地图”的范式转变作为一名在大型软件系统里摸爬滚打了十多年的老兵,我太熟悉那种面对陌生或复杂代码库时的无力感了。你接手一个新项目,或者需要深入一个许久未碰的模块,接下来就是数小时甚至数天的…...

命令行AI助手chatgpt-cli:集成LLM到终端工作流的完整指南

1. 项目概述:一个全能型命令行AI助手如果你和我一样,每天大部分时间都泡在终端里,那你肯定也想过:要是能把ChatGPT直接集成到命令行工作流里,该有多方便。不用再频繁切换浏览器标签,不用复制粘贴&#xff0…...