当前位置: 首页 > article >正文

N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

【导语N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成扫描 1000 个安全公告公布了各模型的平均得分等数据。】N - Day 基准测试衡量语言模型网络安全能力N - Day 基准测试由 Winfunc Research 发起旨在衡量大型语言模型LLM的实际网络安全能力特别是“漏洞发现”能力。所有模型使用相同的测试框架和上下文杜绝作弊。该测试具有适应性测试用例会每月更新模型集也会升级到最新版本和检查点且所有记录都可公开浏览。最新测试结果各模型表现大揭秘最新基准测试已完成扫描了 1000 个安全公告接受案例 47 个跳过案例 953 个。在平均得分排行榜中openai/gpt - 5.4 以 83.93 分位居榜首z - ai/glm - 5.1 以 80.13 分紧随其后anthropic/claude - opus - 4.6 得 79.95 分moonshotai/kimi - k2.5 为 77.18 分google/gemini - 3.1 - pro - preview 则是 68.50 分。从发现模型的数据来看z - ai/glm - 5.1 提交 44 次平均发现数为 1.23openai/gpt - 5.4 提交 44 次平均发现数 1.07anthropic/claude - opus - 4.6 提交 43 次平均发现数 1.16moonshotai/kimi - k2.5 提交 37 次平均发现数 1.05google/gemini - 3.1 - pro - preview 提交 44 次平均发现数 0.91。测试运行详情时间与状态全知晓此次测试创建时间为 2026 年 4 月 13 日下午 5:03开始时间与之相同完成时间是晚上 8:53且无失败情况。近期还有多条评判运行和发现运行的记录公布。编辑观点N - Day 基准测试为评估语言模型的网络安全能力提供了重要参考不同模型得分和表现差异反映其在漏洞发现能力上的差距将推动模型研发的优化和竞争。

相关文章:

N-Day 基准测试揭晓:OpenAI GPT - 5.4 以 83.93 分领跑语言模型网络安全能力排名

【导语:N - Day 基准测试用于衡量前沿语言模型发现现实世界中在其知识截止日期之后披露的漏洞的能力。近期测试已完成,扫描 1000 个安全公告,公布了各模型的平均得分等数据。】N - Day 基准测试:衡量语言模型网络安全能力N - Day …...

别再为PLC和DCS通讯头疼了!手把手教你用Modbus桥接器搞定西门子S7-300/400与DCS对接

工业自动化实战:西门子PLC与DCS系统的高效Modbus桥接方案 在工业自动化现场,不同品牌设备间的数据互通一直是工程师的痛点。上周在化工厂遇到个典型案例:产线中控室的DCS系统需要实时读取西门子S7-300 PLC的温度数据,但两者协议不…...

4步快速完成B站视频转文字:免费开源工具bili2text终极指南

4步快速完成B站视频转文字:免费开源工具bili2text终极指南 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 还在为手动记录B站视频内容而烦恼吗&am…...

ZIO性能优化终极指南:让你的应用快10倍的秘诀

ZIO性能优化终极指南:让你的应用快10倍的秘诀 【免费下载链接】zio ZIO — A type-safe, composable library for async and concurrent programming in Scala 项目地址: https://gitcode.com/gh_mirrors/zi/zio ZIO是一个类型安全、可组合的Scala异步并发编…...

Towards-Realtime-MOT性能评估与调优:如何达到MOTA 64%+的跟踪精度

Towards-Realtime-MOT性能评估与调优:如何达到MOTA 64%的跟踪精度 【免费下载链接】Towards-Realtime-MOT Joint Detection and Embedding for fast multi-object tracking 项目地址: https://gitcode.com/gh_mirrors/to/Towards-Realtime-MOT Towards-Realt…...

Chart.js项目实战:科学研究数据可视化完整指南

Chart.js项目实战:科学研究数据可视化完整指南 【免费下载链接】awesome A curated list of awesome Chart.js resources and libraries 项目地址: https://gitcode.com/GitHub_Trending/awesome/awesome Chart.js是一款功能强大的开源数据可视化库&#xff…...

终极指南:如何免费解锁《原神》60FPS限制,让游戏帧率飙升!

终极指南:如何免费解锁《原神》60FPS限制,让游戏帧率飙升! 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 想要在《原神》中获得更流畅的游戏体验吗&a…...

【pip】pip的各种操作

安装指定版本的库 pip install torchaudio2.1.2导出当前环境的python安装库 使用–local来去掉文件的安装路径 pip freeze --local > requirements.txt会导出当前环境的所有库,按需要删除 安装下载到本地的包 1.cd到包所在的文件夹 d: cd D:\迅雷下载2.pip insta…...

Pixel Script Temple 数据库课程设计实战:AI辅助生成SQL与ER图脚本

Pixel Script Temple 数据库课程设计实战:AI辅助生成SQL与ER图脚本 1. 课程设计的痛点与解决方案 对于高校学生来说,数据库课程设计往往是一个既期待又头疼的环节。期待是因为终于可以把理论知识付诸实践,头疼则是因为从概念到实现的过程中…...

毫秒级响应!NEURAL MASK幻镜RMBG-2.0模型部署与推理加速教程

毫秒级响应!NEURAL MASK幻镜RMBG-2.0模型部署与推理加速教程 1. 为什么你需要一个更好的抠图工具? 如果你曾经尝试过给照片换背景,尤其是处理带发丝的人像、半透明的婚纱或者边缘复杂的物体,你大概率会感到头疼。传统的抠图工具…...

Lingbot-Depth-Pretrain-ViTL-14模型推理优化:降低显存占用的实战技巧

Lingbot-Depth-Pretrain-ViTL-14模型推理优化:降低显存占用的实战技巧 你是不是也遇到过这种情况?好不容易找到一个效果不错的深度估计模型,比如Lingbot-Depth-Pretrain-ViTL-14,兴致勃勃地准备在自己的项目里用起来,结…...

省预算方案:用STM32F103C8T6开发迷你无人机的全套硬件选型指南

省预算方案:用STM32F103C8T6开发迷你无人机的全套硬件选型指南 当创客精神遇上有限的预算,如何用不到300元打造一台可编程的迷你无人机?STM32F103C8T6(俗称"蓝色药丸")这颗售价仅12元的ARM Cortex-M3芯片&am…...

KrakenD部署实战:Docker、Kubernetes、云原生环境全攻略

KrakenD部署实战:Docker、Kubernetes、云原生环境全攻略 【免费下载链接】krakend-ce KrakenD Community Edition: High-performance, stateless, declarative, API Gateway written in Go. 项目地址: https://gitcode.com/gh_mirrors/kr/krakend-ce KrakenD…...

【4月急救】论文AI率怎么稳降至5%?实测手工润色核心方法与4款降AI工具清单

屏幕前的学弟学妹们,最近还好吗? 是不是刚刚经历了这样的至暗时刻:顶着黑眼圈熬了三个大夜,好不容易把两万字的文章初稿怼出来,查重过了,心里正美滋滋呢,结果教务处突然发了一条通知——要查AI…...

Zig中结构体和枚举怎么用?

在 Zig 编程语言中,结构体(struct)和枚举(enum)是两种基本的数据类型。 结构体和枚举是定义和使用自定义数据类型的两种主要方式。 结构体和枚举提供了更高层次的数据组织和类型安全,适用于不同的编程场景…...

终极指南:为什么选择Vuera实现Vue与React框架无缝集成?

终极指南:为什么选择Vuera实现Vue与React框架无缝集成? 【免费下载链接】vuera :eyes: Vue in React, React in Vue. Seamless integration of the two. :dancers: 项目地址: https://gitcode.com/gh_mirrors/vu/vuera 在现代前端开发中&#xff…...

【论文求生帖】AIGC检测又爆红?2026.4全网最全:国内外10大免费降AI率工具避坑指南

不知不觉间,2026年已经过去三分之一了,各大高校的查重系统也逐步部署好了。 其中最让人头痛的AIGC检测已经从“查不查”变成“查多严”了——知网去年底刚完成新一轮算法升级,检测识别能力直接拉升了15-18个百分点,不少同学去年底…...

天赐范式第11天牛马时间:OMEGA-001人生效验器开源|成长路上,我写了个帮你校验决策的实用工具

大家好,我是天赐范式。曾几何时,我也曾陷入人生成长的低谷,在迷茫中徘徊,面对选择时犹豫不决,多次因决策偏差走了弯路——这不是绝境,是很多人成长路上都会遇到的困境。我试过盲目跟风、墨守成规&#xff0…...

7个终极技巧:使用ZIO设计可扩展的微服务架构

7个终极技巧:使用ZIO设计可扩展的微服务架构 【免费下载链接】zio ZIO — A type-safe, composable library for async and concurrent programming in Scala 项目地址: https://gitcode.com/gh_mirrors/zi/zio ZIO是一个类型安全、可组合的Scala异步并发编程…...

像素史诗·智识终端保姆级教程:开箱即用的16-bit研究报告AI助手

像素史诗智识终端保姆级教程:开箱即用的16-bit研究报告AI助手 1. 认识你的像素冒险伙伴 像素史诗智识终端(Pixel EpicWisdom Terminal)是一款将严肃的研究报告撰写过程转化为像素RPG冒险的创新AI工具。它基于AgentCPM-Report大模型构建,专为需要撰写专…...

大麦抢票终极指南:5分钟掌握自动化抢票技巧

大麦抢票终极指南:5分钟掌握自动化抢票技巧 【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。 项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为抢不到心仪的演唱会门票而烦恼吗?DamaiHelper大麦抢票脚本是你的救星&am…...

终极指南:扩展BallonsTranslator插件生态,轻松集成OCR、文本检测和图像修复功能

终极指南:扩展BallonsTranslator插件生态,轻松集成OCR、文本检测和图像修复功能 【免费下载链接】BallonsTranslator 深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered…...

终极指南:detect-secrets架构设计与实现原理深度剖析

终极指南:detect-secrets架构设计与实现原理深度剖析 【免费下载链接】detect-secrets An enterprise friendly way of detecting and preventing secrets in code. 项目地址: https://gitcode.com/gh_mirrors/de/detect-secrets detect-secrets 是一款企业级…...

联想拯救者工具箱终极指南:如何用轻量级工具完全替代官方臃肿软件

联想拯救者工具箱终极指南:如何用轻量级工具完全替代官方臃肿软件 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit …...

终极React Native Permissions测试与调试指南:从Jest模拟到真机调试的完整手册

终极React Native Permissions测试与调试指南:从Jest模拟到真机调试的完整手册 【免费下载链接】react-native-permissions An unified permissions API for React Native on iOS, Android and Windows. 项目地址: https://gitcode.com/gh_mirrors/re/react-nativ…...

SpringBoot集成JasperReports实现PDF、HTML、XML的一键生成

JasperReports 是一个基于 Java 的开源报表工具,支持多种输出格式(如 PDF、HTML、XML 等),广泛应用于 Java 开发中生成动态报表‌。本文将完整演示如何在 Spring Boot 项目中整合 JasperReports,从环境配置、模板设计到…...

面试技巧提升:系统设计问题的高分回答框架

面试技巧提升:系统设计问题的高分回答框架 在技术面试中,系统设计问题往往是区分候选人的关键环节。无论是初级工程师还是资深架构师,能否清晰、系统地回答这类问题,直接决定了面试的成败。许多人在面对开放性的系统设计问题时容…...

多智能体系统的一致性维护:处理冲突、达成共识的算法与实践

多智能体系统的一致性维护:处理冲突、达成共识的算法与实践 1. 核心概念 多智能体系统(Multi-Agent System, MAS)是人工智能和分布式系统领域的重要研究方向,它由多个自主或半自主的智能体组成,这些智能体通过相互协作、竞争或协商来解决单个智能体无法或难以解决的问题…...

多模态大模型端侧落地难?揭秘TensorRT-LLM+ONNX Runtime双引擎协同部署的7个关键阈值指标

第一章:多模态大模型端侧部署方案 2026奇点智能技术大会(https://ml-summit.org) 端侧部署多模态大模型面临算力受限、内存紧张、功耗敏感与实时性要求高等多重挑战。当前主流路径聚焦于模型轻量化、推理引擎适配与硬件协同优化三大方向,兼顾语义理解、…...

5分钟搞定!Ollama部署DeepSeek-R1推理模型,小白也能用的AI解题工具

5分钟搞定!Ollama部署DeepSeek-R1推理模型,小白也能用的AI解题工具 1. 引言:为什么选择DeepSeek-R1-Distill-Qwen-7B 你是否遇到过复杂的数学题解不出来?或者需要快速生成专业报告却无从下手?DeepSeek-R1-Distill-Qw…...