当前位置：首页 > article >正文

N-Day 基准测试揭晓：OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

article 2026/4/15 7:47:25

【导语N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成扫描 1000 个安全公告公布了各模型的平均得分等数据。】N - Day 基准测试衡量语言模型网络安全能力N - Day 基准测试由 Winfunc Research 发起旨在衡量大型语言模型LLM的实际网络安全能力特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文杜绝作弊。该测试具有适应性测试用例会每月更新模型集也会升级到最新版本和检查点且所有记录都可公开浏览。最新测试结果各模型表现大揭秘最新基准测试已完成扫描了 1000 个安全公告接受案例 47 个跳过案例 953 个。在平均得分排行榜中openai/gpt - 5.4 以 83.93 分位居榜首z - ai/glm - 5.1 以 80.13 分紧随其后anthropic/claude - opus - 4.6 得 79.95 分moonshotai/kimi - k2.5 为 77.18 分google/gemini - 3.1 - pro - preview 则是 68.50 分。从发现模型的数据来看z - ai/glm - 5.1 提交 44 次平均发现数为 1.23openai/gpt - 5.4 提交 44 次平均发现数 1.07anthropic/claude - opus - 4.6 提交 43 次平均发现数 1.16moonshotai/kimi - k2.5 提交 37 次平均发现数 1.05google/gemini - 3.1 - pro - preview 提交 44 次平均发现数 0.91。测试运行详情时间与状态全知晓此次测试创建时间为 2026 年 4 月 13 日下午 5:03开始时间与之相同完成时间是晚上 8:53且无失败情况。近期还有多条评判运行和发现运行的记录公布。编辑观点N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考不同模型得分和表现差异反映其在漏洞发现能力上的差距将推动模型研发的优化和竞争。

N-Day 基准测试揭晓：OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

相关文章：

N-Day 基准测试揭晓：OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

别再为PLC和DCS通讯头疼了！手把手教你用Modbus桥接器搞定西门子S7-300/400与DCS对接

4步快速完成B站视频转文字：免费开源工具bili2text终极指南

ZIO性能优化终极指南：让你的应用快10倍的秘诀

Towards-Realtime-MOT性能评估与调优：如何达到MOTA 64%+的跟踪精度

Chart.js项目实战：科学研究数据可视化完整指南

终极指南：如何免费解锁《原神》60FPS限制，让游戏帧率飙升！

【pip】pip的各种操作

Pixel Script Temple 数据库课程设计实战：AI辅助生成SQL与ER图脚本

毫秒级响应！NEURAL MASK幻镜RMBG-2.0模型部署与推理加速教程

Lingbot-Depth-Pretrain-ViTL-14模型推理优化：降低显存占用的实战技巧

省预算方案：用STM32F103C8T6开发迷你无人机的全套硬件选型指南

KrakenD部署实战：Docker、Kubernetes、云原生环境全攻略

【4月急救】论文AI率怎么稳降至5%？实测手工润色核心方法与4款降AI工具清单

Zig中结构体和枚举怎么用？

终极指南：为什么选择Vuera实现Vue与React框架无缝集成？

【论文求生帖】AIGC检测又爆红？2026.4全网最全：国内外10大免费降AI率工具避坑指南

天赐范式第11天牛马时间:OMEGA-001人生效验器开源｜成长路上，我写了个帮你校验决策的实用工具

7个终极技巧：使用ZIO设计可扩展的微服务架构

像素史诗·智识终端保姆级教程：开箱即用的16-bit研究报告AI助手

大麦抢票终极指南：5分钟掌握自动化抢票技巧

终极指南：扩展BallonsTranslator插件生态，轻松集成OCR、文本检测和图像修复功能

终极指南：detect-secrets架构设计与实现原理深度剖析

联想拯救者工具箱终极指南：如何用轻量级工具完全替代官方臃肿软件

终极React Native Permissions测试与调试指南：从Jest模拟到真机调试的完整手册

SpringBoot集成JasperReports实现PDF、HTML、XML的一键生成

面试技巧提升：系统设计问题的高分回答框架

多智能体系统的一致性维护：处理冲突、达成共识的算法与实践

多模态大模型端侧落地难？揭秘TensorRT-LLM+ONNX Runtime双引擎协同部署的7个关键阈值指标

5分钟搞定！Ollama部署DeepSeek-R1推理模型，小白也能用的AI解题工具