当前位置: 首页 > article >正文

CLeVeR:用多模态对比学习把“漏洞语义”从代码里挖出来

“现有自动化漏洞检测模型往往学习的是「整体功函数语义」这会带入与漏洞无关的噪声影响检测效果。CLeVeR提出用对比学习contrastive learning在代码与漏洞描述之间建立语义对齐并通过Adapter、Representation Refinement与 Description Simulator三个模块解决模态差异、语义不平衡与训练/推理阶段输入不一致的问题从而生成更“聚焦漏洞”的代码表示。”论文CLeVeR: Multi-modal Contrastive Learning for Vulnerability Code Representation作者Jiayuan Li, Lei Cui*,等单位中国科学院信息工程研究所、北京邮电大学等会议信息Findings of ACL 2025ACL 2025开源代码https://github.com/yoimiya-nlp/CLeVeR01—方法介绍CLeVeR的设计策略分为两阶段预训练pre-training与微调/下游fine-tuning / downstream。预训练阶段模型使用 CodeBERT/CPG 提取代码表示使用 RoBERTa 提取漏洞描述表示随后通过 Adapter 将两模态投射到公共空间再用 Cross-attentionRepresentation Refinement生成对漏洞敏感的「脆弱性代码表示vulnerability code representation」。对齐目标由 InfoNCE对比损失驱动。为了解决测试时没有描述这一问题作者提出 Description Simulator在预训练中学习从代码直接预测“被 refine 后”的表示使模型在推理时仍能生成高质量的漏洞表示。CLeVeR 模型整体架构示意小结CLeVeR 通过“描述——代码”的语义对齐把漏洞描述中的判别特征映射到代码表示得到更具辨识度的漏洞向量。02—关键机制机制实现要点核心作用Adapter对 codeCodeBERTCPG与 descriptionRoBERTa各自输出做轻量投射使两模态落到同一维度/空间。缓解模态语义差异便于后续对齐。Representation Refinement以描述向量作为 Query对 code 表示做 cross-attention提取与漏洞描述相关的 code 子表示。从整体代码语义中抽取“漏洞相关”部分提升判别能力。Description Simulator预训练阶段学习从原始 code 表示预测 refined 表示在微调/测试时用以代替真实描述。解决训练/推理阶段描述缺失的不一致问题使模型可在仅有代码时推理。Contrastive Loss (InfoNCE)在批内将正确的code, description对作为正样本其它对作为负样本优化相似性。将描述语义的判别信息注入 code 表示空间提升检出/分类效果。小结三类模块协同Adapter对齐空间Refinement抽取漏洞语义Simulator保证无描述时仍能生成高质量表示最终由对比学习把描述信息注入表示空间。03—实验结果作者构建了 VCLData基于 SARD用于预训练共280,034个 C/C 函数覆盖 146 个 CWE并按 80%/20% 分为预训练/微调集合。为全面评估作者在三类数据上测试下游检测性能VCLData-ft微调集、SynData半合成基准、RealDataFFmpegQemu 合并真实集。检测任务对比结果如下数值为平均值方法VCLData-ft (A / P / R / F1)APRF1CLeVeR96.5392.9298.4195.58CasualVul90.6790.3084.6787.39UnixCoder89.3087.9583.4385.63CodeT588.2586.0482.6884.32SynData (A / P / R / F1)CLeVeR98.1996.14100.0098.03CasualVul93.1191.5993.0892.33UnixCoder91.8192.7188.5590.58CodeT588.7190.3783.5286.81RealData (A / P / R / F1)CLeVeR79.1386.2563.0172.82CasualVul72.7866.1556.5460.97UnixCoder71.0964.4151.6757.34CodeT569.7861.4052.8456.80小结CLeVeR 在三类数据集上均取得显著提升在 VCLData-ft 与 SynData 上 F1 分别达 95.58% 与 98.03%在 RealData真实工程代码上也达到 72.82%相比主流方法实现了明显增益同时作者报告了在零样本/零-shot 场景下也具备较好迁移能力。 总结CLeVeR用“描述监督对比学习”的方法直接把漏洞描述的判别性特征注入代码表示解决了“整体语义掩盖漏洞语义”的问题。Adapter、Refinement、Simulator 三模块共同解决了跨模态对齐、语义不平衡与训练/推理不一致的问题使得模型在检测、分类与0-shot任务上均表现出色为基于语义的漏洞表示学习提供了新范式。 欢迎留言讨论你认为未来漏洞检测中“用自然语言监督表示学习”会成为常态吗在工程化场景下我们应该如何结合 CLeVeR 生成的漏洞表示与传统静态分析的结论 点赞 · 收藏 · 分享 —— 你的支持是我们持续解读学术前沿方法的最大动力。

相关文章:

CLeVeR:用多模态对比学习把“漏洞语义”从代码里挖出来

“现有自动化漏洞检测模型往往学习的是「整体功函数语义」,这会带入与漏洞无关的噪声,影响检测效果。CLeVeR提出用对比学习(contrastive learning)在代码与漏洞描述之间建立语义对齐,并通过Adapter、Representation Re…...

nstagram内容分级扩展后跨境品牌如何把握素材边界

数字围栏:内容分级时代,跨境品牌的素材合规之道当全球社交平台纷纷筑起内容分级的数字围栏,一场关于品牌表达边界的静默革命正在发生。对于跨境品牌而言,这不再仅仅是文化适配的课题,更是如何在日益复杂的数字监管环境…...

别再手写Word表格了!用poi-tl 1.12.0 + SpringBoot 3分钟搞定动态数据填充

3分钟极速上手:用poi-tl在SpringBoot中玩转Word表格动态填充 每次接到"导出Word报表"的需求就头皮发麻?还在用Apache POI逐行拼接表格单元格?上周团队新来的实习生花了整整两天调试一个动态表格导出功能,结果生成的文档…...

Taotoken的API Key管理与审计日志功能保障企业调用安全

Taotoken的API Key管理与审计日志功能保障企业调用安全 1. 企业级API Key管理 在Taotoken平台上,企业管理员可以创建多个API Key,并为每个Key分配不同的权限和使用限制。这一功能特别适合需要将大模型能力集成到多个项目或分配给不同团队的企业用户。 …...

对比直接使用厂商 API 通过聚合平台管理多模型成本更透明

通过聚合平台管理多模型成本更透明 1. 多厂商 API 的成本管理痛点 在同时使用多个大模型厂商的 API 时,成本管理往往面临诸多挑战。每个厂商都有独立的计费体系、账单周期和用量统计方式,导致开发者需要登录不同平台查看分散的数据。这种碎片化的管理方…...

数学老师都在用的GeoGebra 6,从下载到上手画图,10分钟搞定动态几何

GeoGebra 6:数学课堂的动态教学神器,10分钟从零到精彩演示 当抛物线在屏幕上随着参数的调整而优雅地舞动,当几何图形在拖动中展现出不变的性质,数学的魅力就这样直观地呈现在学生眼前。GeoGebra 6正是这样一款能让数学课堂活起来…...

别再死磕nmtui了!虚拟机里Linux网卡激活失败的3个真实原因与终极解法

虚拟机环境下Linux网卡激活失败的深度诊断与实战解决方案 当你第5次在虚拟机里敲下nmtui命令,屏幕依然弹出那个令人窒息的"Activation failed"错误时,该意识到问题可能远超出配置文件本身。作为常年与虚拟化环境打交道的技术顾问,我…...

Tidyverse 2.0报告自动化终极面试清单(23道题|11道代码实操|9道架构设计),仅剩最后200份PDF版解析可领

更多请点击: https://intelliparadigm.com 第一章:Tidyverse 2.0报告自动化核心演进与面试全景图 Tidyverse 2.0标志着R语言数据科学生态的一次结构性升级,其核心不再仅聚焦于语法一致性,而是深度整合报告生成、动态渲染与可复现…...

终极LaTeX公式转换指南:3秒将网页公式完美粘贴到Word

终极LaTeX公式转换指南:3秒将网页公式完美粘贴到Word 【免费下载链接】LaTeX2Word-Equation Copy LaTeX Equations as Word Equations, a Chrome Extension 项目地址: https://gitcode.com/gh_mirrors/la/LaTeX2Word-Equation 还在为学术论文写作时公式复制格…...

别再死记硬背Payload了!用DVWA靶场手把手教你理解SQL注入与XSS的底层原理

从DVWA靶场实战拆解Web安全核心原理&#xff1a;SQL注入与XSS的攻防博弈 当你第一次在DVWA靶场中输入admin or 11成功登录时&#xff0c;是否思考过为什么这个简单的字符串能绕过密码验证&#xff1f;当<img srcx onerroralert(1)>在页面上弹出警告框时&#xff0c;浏览器…...

三电平半桥LLC谐振变换器电路仿真研究:移相角度控制与DSP PWM生成方式探讨,输出电压优化...

三电平半桥LLC谐振变换器电路仿真 采用频率控制方式 引入一定的移相角度&#xff08;比较小&#xff09; 驱动信号采用CMPA CMPB方式产生 增计数模式&#xff08;参照DSP PWM生成&#xff09; 相比普通半桥LLC开关管电压应力小 输出电压闭环控制 输出特性好&#xff0c;几乎无超…...

Firefox老版本爱好者的自救指南:手动修改prefs.js与channel-prefs.js锁定版本

Firefox版本锁定终极指南&#xff1a;从配置文件到注册表的深度控制 你是否也遇到过这样的困扰&#xff1f;精心挑选的Firefox旧版本在不知不觉中被强制升级&#xff0c;熟悉的界面突然变得陌生&#xff0c;那些陪伴多年的插件一夜之间全部失效。对于依赖特定版本进行开发测试的…...

论mysql国盾shell-sfa犯罪行为集团下的分项工程及反向注入原理尐深度纳米算法下的鐌檵鄐鉎行为

SQL注入核心技术原理及纳米技术深度计算机算法机器应用函数技术的黑客用途是什么涵盖与控制原理**1. 概念澄清&#xff1a;不存在“纳米技术深度计算机算法”** * **SQL 注入**是一种针对**数据库软件层面**的网络攻击技术&#xff0c;利用的是代码逻辑漏洞。 * **纳米技术…...

VR视频转换终极指南:用VR-Reversal将3D视频智能转换为2D格式

VR视频转换终极指南&#xff1a;用VR-Reversal将3D视频智能转换为2D格式 【免费下载链接】VR-reversal VR-Reversal - Player for conversion of 3D video to 2D with optional saving of head tracking data and rendering out of 2D copies. 项目地址: https://gitcode.com…...

关于Vscode配置企业Git

1.获取账号信息①企业邮箱&#xff1a;xxxxxxxxxxx.com.cn②在邮箱里会有企业给你的git密码修改自己设置③打开Vscode下方终端旁边有一个加号&#xff0c;新建终端2.配置终端打开 VS Code&#xff0c;在顶部菜单栏点击 终端(Terminal) -> 新建终端(New Terminal)&#xff0c…...

思源宋体TTF版本兼容性与升级指南

思源宋体TTF版本兼容性与升级指南 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 版本兼容性矩阵 版本发布日期主要特性兼容性说明升级建议v1.0012021-10-15初始版本发布完全兼容所有…...

【2024信创落地硬核案例】:某政务终端从ARM切换至平头哥曳影1520,C驱动重写仅用11人日——附完整Makefile与Kconfig补丁包

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;国产化 RISC-V 芯片 C 语言驱动适配案例 随着平头哥、芯来科技、赛昉科技等厂商推出成熟 RISC-V SoC&#xff08;如 TH1520、Nuclei N/NX 系列、JH7110&#xff09;&#xff0c;国产嵌入式生态正加速构…...

为什么你的Tidyverse 2.0报告总在CI/CD中断?8大环境变量冲突真相,含可复用的docker-compose.yml模板

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Tidyverse 2.0自动化数据报告的核心挑战与定位 Tidyverse 2.0 的发布标志着 R 生态在声明式数据处理与可重复报告生成方面迈入新阶段&#xff0c;但其自动化能力在真实生产环境中仍面临多重结构性挑战。…...

别再被线阻坑了!用开尔文四线法精准测量毫欧级电阻(附Multisim仿真步骤)

毫欧级电阻测量的终极方案&#xff1a;开尔文四线法全解析与Multisim实战 在硬件调试的微观世界里&#xff0c;毫欧级电阻的测量就像用普通尺子测量头发丝的直径——传统两线法的误差足以淹没真实信号。当某次电源模块异常发热的排查中&#xff0c;我反复测量MOSFET的导通电阻始…...

别急着把 autocast 全切成 bf16:RTX 3090 上把 GEMM、Conv2d 和 ResNet18 训练都跑完后,我的推荐顺序是这样

别急着把 autocast 全切成 bf16:RTX 3090 上把 GEMM、Conv2d 和 ResNet18 训练都跑完后,我的推荐顺序是这样 很多人把 bf16 当成“更稳的 fp16”,也有人一提消费级显卡就先下结论:bf16 肯定更慢,别折腾。我这次在一张 RTX 3090 上,把 4096x4096 的 GEMM、Conv2d 和 ResN…...

VSCode 2026协作权限体系曝光:细粒度文件级/行级/语义级锁定策略(含RBAC+SCIM集成方案)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;VSCode 2026实时协作多人编辑的架构演进与设计哲学 VSCode 2026 将协作能力从插件生态升维至核心运行时层&#xff0c;其底层采用基于 CRDT&#xff08;Conflict-free Replicated Data Type&#xff09…...

Microsemi Libero SoC 实战:用Verilog写个LED呼吸灯,从仿真到上板全流程(附ModelSim波形分析)

Microsemi Libero SoC实战&#xff1a;Verilog实现LED呼吸灯的全流程解析 引言 呼吸灯效果在消费电子产品中极为常见&#xff0c;从笔记本电脑的睡眠指示灯到智能家居设备的待机状态提示&#xff0c;这种柔和的光线渐变效果远比简单的闪烁更富科技感和用户体验。对于FPGA开发…...

如何在 Chrome 浏览器中快速接入 Taotoken 并调用大模型 API

如何在 Chrome 浏览器中快速接入 Taotoken 并调用大模型 API 1. 准备工作 在开始之前&#xff0c;请确保您已经拥有 Taotoken 平台的 API Key。登录 Taotoken 控制台&#xff0c;在「API 密钥」页面可以创建和管理您的密钥。同时&#xff0c;建议在「模型广场」查看当前可用的…...

【紧急预警】大模型上线前必做的3项R统计审查:Feldman–Hajek偏差指数、Wasserstein公平距离、Bootstrap置信带校验

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;R语言在大语言模型偏见检测中的统计方法导论 在大语言模型&#xff08;LLM&#xff09;部署日益广泛的背景下&#xff0c;系统性偏见可能通过训练数据、词嵌入或生成逻辑被隐式放大。R语言凭借其强大的…...

Visual C++运行库终极修复指南:一键解决系统依赖问题的完整教程

Visual C运行库终极修复指南&#xff1a;一键解决系统依赖问题的完整教程 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist Visual C运行库是Windows系统中不可或缺…...

终极指南:让Mem Reduct内存优化工具显示中文界面的完整方案

终极指南&#xff1a;让Mem Reduct内存优化工具显示中文界面的完整方案 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memreduct …...

告别视频消失焦虑:用m4s-converter永久保存你的B站收藏

告别视频消失焦虑&#xff1a;用m4s-converter永久保存你的B站收藏 【免费下载链接】m4s-converter 一个跨平台小工具&#xff0c;将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的情况&…...

用MSP432P401R驱动HX711压力传感器:从引脚配置到数据读取的保姆级代码解析

MSP432P401R与HX711压力传感器的深度开发指南 1. 硬件架构与通信原理 HX711是一款专为高精度称重传感器设计的24位模数转换器芯片&#xff0c;采用双线制串行通信协议。与MSP432P401R微控制器的配合使用&#xff0c;能够构建高性价比的称重系统解决方案。 核心引脚功能&#xf…...

java同步另一项目数据

java同步另一平台的数据 在 Java 中实现跨平台的数据同步&#xff0c;并没有唯一的标准答案&#xff0c;而是需要根据你的数据量大小、实时性要求以及对方平台提供的接口类型来选择合适的方案。 结合你的 Spring Boot MyBatis-Plus 技术栈&#xff0c;这里为你梳理了 4 种最主…...

别光看Loss曲线了!用TensorBoard/PyTorch Lightning可视化工具,5分钟揪出模型过拟合的‘狐狸尾巴’

别光看Loss曲线了&#xff01;用TensorBoard/PyTorch Lightning可视化工具&#xff0c;5分钟揪出模型过拟合的‘狐狸尾巴’ 在模型训练过程中&#xff0c;我们常常会陷入一个误区&#xff1a;盯着Loss曲线的下降趋势就以为万事大吉。但实际上&#xff0c;Loss曲线背后隐藏的信息…...