当前位置：首页 > article >正文

ProgramBench 重新定义 AI Coding 评估：大模型软件工程能力遭“团灭”，瓶颈在哪？

article 2026/5/8 2:04:35

地狱级新 benchmark 结果震撼SWE - Bench 创建者放出新 benchmarkClaude Opus 4.7、GPT - 5.4、GPT - 5 mini、Gemini 3.1 Pro、Gemini 3 Flash 等一线模型全部 0% 完成率意味着今天的大模型会写代码但不会做软件工程。ProgramBench 重新定义评估方式Meta FAIR 联合斯坦福、哈佛等机构发布 ProgramBench它把问题推进到软件工程层面让 AI 从零开始构建可执行软件系统如 ffmpeg、SQLite、ripgrep且不能联网。它采用行为等价打分用 agent - driven fuzzing 做测试结果所有模型 0% 完成率。模型表现细节Figure 4 显示模型常能完成一部分少数任务接近完成但要求 100% 行为等价就不行。Claude 系列表现相对最好Claude Opus 4.7 只有 3% 的任务接近完成。模型倾向于生成单体化代码与人类工程师习惯相反暴露其擅长局部代码生成不擅长全局系统规划的问题。不同语言与任务难度表现研究团队统计模型在 C/C、Go、Rust 等语言项目上的表现C/C 项目完成度最高Rust 最差。不同模型在任务难度排序上一致简单 CLI 工具通过率高复杂系统难推进说明复杂软件系统对当前模型有稳定压制。围绕 ProgramBench 的争议及回应有人质疑 ProgramBench 是考模型背过 FFmpeg 吗知名硅谷投资人 Deedy Das 回应称任何 benchmark 都可能被 overfit真正重要的是模型完成这类任务的能力可能泛化到其他工程场景。还有人吐槽 benchmark 不合理Deedy Das 认为 benchmark 目标是推动模型向更高层次智能逼近人类做不到不意味着没价值。ProgramBench 的缺陷与改进方向ProgramBench 存在缺陷如没测试 Claude Code、Codex 等完整 agent harness只统计是否完成限制联网能力等。但这些问题可随 benchmark 演进修正它第一次把 AI Coding 评估从函数级拉到系统级暴露出行业断层。行业研究新方向当前大模型缺乏维护复杂系统的能力行业开始研究 memory、agents、repo - level reasoning、long - horizon planning、autonomous software engineering 等关键词下一阶段竞争可能是谁能持续稳定维护软件系统。

ProgramBench 重新定义 AI Coding 评估：大模型软件工程能力遭“团灭”，瓶颈在哪？

相关文章：

ProgramBench 重新定义 AI Coding 评估：大模型软件工程能力遭“团灭”，瓶颈在哪？

Snap.Hutao：彻底改变原神游戏体验的智能桌面工具箱

AI 算力新格局：端侧突围与算力基建“三级跳”，OpenAI 酝酿已久的智能手机自研计划开始实施

产品经理没有设计基础，如何用 AI 工具快速画原型

MySql基础知识精简版

基于Django与Vue.js的现代开源ERP系统Trenova架构解析与实战部署

测试用例设计方法与理论基

Gemini和ChatGPT同时要开始投广告了：AI聊天机器人的“免费午餐“时代终结

解密世界杯转播费天价之谜：这 7 大因素是关键

通过curl命令快速测试Taotoken API连通性与模型列表

BepInEx插件框架深度解析：Unity游戏模块化扩展架构设计与实战指南

智能游戏助手终极指南：如何用MAA彻底告别《明日方舟》重复操作？

弹幕格式转换终极指南：如何3分钟搞定B站弹幕跨平台播放

Arm Socrates™ IP工具平台：SoC设计的高效解决方案

docxcpp开源库，用于读写docx

openclaw v2026.5.6 最新更新：修复 OpenAI Codex OAuth 路由、插件请求、调试代理与 Web Fetch 超时问题

# 019、Semantic Kernel 与微软生态：Planner、Plugin、Memory 深度解析

UPD720201-K8-701‌ 是瑞萨电子（Renesas Electronics）推出的 ‌USB 3.0 主机控制器芯片‌，广泛用于需要高速数据传输和多端口扩展的设备中，支持 xHCI 1.0

AISMM vs. MLPerf/LLMBench/HuggingFace Eval：谁才是大模型评估的黄金标尺？

Sigma规则开发利器：VSCode插件全解析与实战指南

全球供应链波动下，制造业物流延迟预警将如何智能化？

开源智能体集市：Lobe Chat Agents 项目解析与实战指南

如何快速解决细胞图像分割难题：Cellpose完整指南

基于VecTextSearch的本地语义搜索：从原理到实践

轻量级进程守护工具openclaw-warden：极简配置与自动化运维实践

AI工具导航：如何利用Awesome列表高效构建技术栈与工作流

Bridge-Search：基于MCP协议实现WSL2与Windows文件系统高速互通的AI助手搜索桥梁

wmux：无缝桥接窗口管理器与终端复用器的操作范式

Ix：为代码库构建智能地图，解决AI上下文失忆与系统理解难题

命令行AI助手chatgpt-cli：集成LLM到终端工作流的完整指南