当前位置：首页 > news >正文

【论文阅读】Large Language Models for Equivalent Mutant Detection: How Far Are We?

news 2026/2/9 0:27:54

阅读笔记：Large Language Models for Equivalent Mutant Detection: How Far Are We?

1. 来源出处

本文发表于《ISSTA’24, September 16–20, 2024, Vienna, Austria》会议，由Zhao Tian, Honglin Shu, Dong Wang, Xuejie Cao, Yasutaka Kamei和Junjie Chen撰写。

2. 先前方法存在的不足

传统的等价突变检测（EMD）技术存在以下不足：

基于规则的方法：如编译优化、约束测试等，在复杂开发场景中表现有限。
机器学习方法：包括KNN、SVM等传统分类器，以及基于树的神经网络模型，虽然通过代码特征提取有所改进，但无法充分捕捉程序语义差异，尤其在语法细微差别方面。
数据稀缺性：训练数据不足，难以泛化到未见过的突变情况。

3. 现阶段面临的挑战

尽管大语言模型（LLMs）在自然语言处理（NLP）和软件工程（SE）领域表现出色，但在等价突变检测中的有效性和效率尚不明确。

4. 本文如何解决这些挑战

本文通过大规模实证研究，探讨了LLMs在等价突变检测中的应用，具体方法如下：

数据集构建：使用MutantBench数据集，包含4,400个C/C++和Java突变对。
策略评估：比较LLMs与现有EMD技术的有效性，并评估LLMs的不同策略（如代码嵌入和提示）。
正交性分析：评估不同EMD技术之间的正交性。
时间效率测量：计算训练和推理的时间开销。

5. 具体介绍本文使用的方法

LLMs选择：包括CodeBERT、GraphCodeBERT、PLBART、CodeT5、UniXCoder、CodeT5+、StarCoder、Code Llama和ChatGPT。
预训练代码嵌入策略：利用LLMs的编码器部分生成代码嵌入向量，并通过多层感知机（MLP）分类器进行预测。
微调策略：在训练过程中同时更新编码器和分类器的参数。
零样本提示策略：直接利用突变对和结构指令提示LLMs进行检测。
少量样本提示策略：通过少量示例学习突变对和语义等价性的关系。
指令微调策略：在包含指令的训练集中微调LLMs，以提高检测性能。

6. 实验设计和结果

RQ1：LLMs的性能
- 结果表明，LLMs在所有基准中的表现均优于传统方法。例如，UniXCoder和CodeT5+的F1分数分别为81.88%，显著高于其他方法。
- 小尺寸的LLMs（如UniXCoder）在等价突变检测中表现最佳，表明数据模态和预训练任务的重要性。
RQ2：最佳策略
- 微调的UniXCoder在所有组合中表现最佳，F1分数提升1.16%至78.85%。
- 代码嵌入策略（无论是预训练还是微调）都优于提示策略，尤其是在精度、召回率和F1分数上。
RQ3：EMD技术间的正交性
- LLMs基方法和微调代码嵌入策略在独特正确/错误检测和各突变操作符的检测性能上均优于其他方法。
RQ4：效率
- LLMs基方法的推理时间略长于传统方法，但因其高准确性，额外的成本是可接受的。
- 微调的UniXCoder训练时间为2566.1184秒，是预训练版本的三倍，表明需要权衡资源消耗和效果。

7. 讨论与未来工作

模型大小的影响：研究发现模型大小并非决定性因素，数据模态和预训练任务更为重要。
嵌入质量的影响：t-分布随机邻域嵌入（t-SNE）分析显示，微调的UniXCoder在嵌入空间中的分离度更高，表明嵌入质量与检测性能密切相关。
未来研究方向：跨编程语言的研究、Chain-of-Thought提示技术、避免生成等价突变、重复突变检测等。

8. 结论

本文通过大规模实证研究验证了LLMs在等价突变检测中的有效性和效率，特别是微调的代码嵌入策略表现最佳。此外，本文还为未来的研究提供了方向，如跨语言研究、CoT提示技术、结合避免生成等价突变的策略等。

以上内容详细总结了论文的主要贡献、方法、实验设计及结果，并讨论了未来的研究方向。

【论文阅读】Large Language Models for Equivalent Mutant Detection: How Far Are We?

阅读笔记：Large Language Models for Equivalent Mutant Detection: How Far Are We? 1. 来源出处本文发表于《ISSTA’24, September 16–20, 2024, Vienna, Austria》会议，由Zhao Tian, Honglin Shu, Dong Wang, Xuejie Cao, Yasutaka Kamei和Junji…...

编程日记 2024/11/20 0:30:13

vue2 面试题带答案，万字总结

1. 什么是 vue Vue 是一套用于构建用户界面的渐进式框架。Vue.js 的主要特点：渐进式框架、声明式渲染、组件化、响应式数据绑定等； 2、MVC 和 MVVM 区别 MVC 是模型(model)－视图(view)－控制器(controller)，控制器负责…...

编程日记 2024/11/20 0:29:12

git的常用用法（最简精华版）

一、工作区域（工作区，暂存区，本地仓库） 1、工作区当前正在使用的文件 2、暂存区已使用add命令提交的工作区的文件，会保存到暂存区 3、本地仓库已使用commit命令提交的暂存区的文件，会保存到本地仓库。…...

编程日记 2024/11/20 0:27:10

哥德巴赫猜想渐行渐远

我现在的工作，表明经典分析可能出了问题，如此则连Vinogradov的三素数定理都不成立了，更别说基于L-函数方程的陈氏定理“12”了。事实上即使L-函数方程成立，由于我指出Siegel定理不成立，陈景润和张益唐的工作就不成立。…...

编程日记 2024/11/20 0:23:07

Spring Boot应用开发实战：构建高效、可维护的Web应用

Spring Boot应用开发实战：构建高效、可维护的Web应用在当今快速迭代的软件开发环境中，Spring Boot凭借其“约定优于配置”的理念，迅速成为Java开发者构建微服务及Web应用的首选框架。它不仅简化了Spring应用的初始搭建以及开发过程，还通过自动配置、嵌入式服务器等特性，…...

编程日记 2024/11/20 0:21:05

keep-alive多级页面缓存实现

文章目录 keep-alive多级页面缓存实现只适用于页面是否缓存状态不变的情况对于上面的问题提供一种解决方案 keep-alive多级页面缓存实现只适用于页面是否缓存状态不变的情况网上有一种很普遍的教程，不使用keep-alive的include属性，而是通过在路由表中…...

编程日记 2024/11/20 0:18:03

ks 小程序sig3

前言搞了app版的快手之后 （被风控麻了） 于是试下vx小程序版的抓包调试小程序抓包问题网上很多教程， github也有开源的工具代码自行搜索因为我们需要调试代码，所以就用了下开源的工具 （可以用chrome的F12功能&a…...

编程日记 2024/11/20 0:14:59

图论之构造完全图

题目 2398: 信息学奥赛一本通T1489-构造完全图时间限制: 2s 内存限制: 192MB 提交: 16 解决: 9 题目描述对于完全图 G，若有且仅有一棵最小生成树为 T，则称完全图 G 是树 T 扩展出的。给你一棵树 T，找出 T 能扩展出的边权和最小的完全图 G…...

编程日记 2024/11/20 0:08:54

RDD触发算子：一些常用的触发算子（count、foreach、saveAsTextFile、first）

文章目录 1、count算子功能语法 2、foreach算子功能语法 3、saveAsTextFile算子功能语法 4、first算子功能语法举例 1、count算子功能统计RDD集合中元素的个数，返回一个int值语法 def count(self) -> int2、foreach算子功能对RDD中每个元素调用一次参数中…...

编程日记 2024/11/20 0:05:52

搭建RAGFlow

RAGFlow 是一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠…...

编程日记 2024/11/20 0:03:49

css中的box-sizing，记录

border-box：最终高度为height，默认包含padding border等属性 content-box：box-sizing默认值，最终大小为heightpaddingborder 等...

编程日记 2024/11/20 0:01:40

使用useCallback引发对闭包的理解

一、先简单介绍一下闭包: 闭包是 JavaScript 中的重要概念，它指的是一个函数可以“记住”并访问其词法作用域，即使在这个函数的外部被执行。简单来说，闭包是由函数及其相关的环境组合而成的。闭包的特性函数内部可以访问外部变量: 闭包…...

编程日记 2024/11/19 23:59:38

gvim添加至右键、永久修改配置、放大缩小快捷键、ctrl + c ctrl +v 直接复制粘贴、右键和还原以前版本(V)冲突

一、将 vim 添加至右键进入安装目录找到 vim91\install.exe 管理员权限执行 Install will do for you:1 Install .bat files to use Vim at the command line:2 Overwrite C:\Windows\vim.bat3 Overwrite C:\Windows\gvim.bat4 Overwrite C:\Windows\evim.bat…...

编程日记 2024/11/19 23:58:37

腾讯云-COS

COS 对象存储是一种可扩展的云端数据存储服务。它适用于存储任意类型的文件，并且可以针对这些文件进行访问控制。 CORS 跨域资源共享是一种机制，它使用额外的HTTP头来告诉浏览器允许一个域上的Web应用请求另一个域上的资源。当需要从一个域名下的网页向…...

编程日记 2024/11/19 23:57:35

蓝桥杯每日真题 - 第16天

题目：（卡牌） 题目描述（13届 C&C B组C题） 解题思路： 题目分析： 有 n 种卡牌，每种卡牌的现有数量为 a[i]，所需的最大数量为 b[i]，还有 m 张空白卡牌。每…...

编程日记 2024/11/19 23:56:34

基因组之全局互作热图可视化

引言 PlotHiC 是一个专为 Hi-C 数据可视化分析而设计的 Python 包。Hi-C 技术是一种能够检测染色体三维结构的实验方法，它能揭示 DNA 在细胞核内的三维组织结构。为了更好地展示和解释这些复杂的数据，PlotHiC[1] 可以帮助用户方便地绘制Hi-C 数据的热图。…...

编程日记 2024/11/19 23:53:32

基于Lora通讯加STM32空气质量检测WIFI通讯

目录目录前言一、本设计主要实现哪些很“开门”功能？ 二、电路设计原理图 1.电路图采用Altium Designer进行设计： 2.实物展示图片三、程序源代码设计四、获取资料内容前言随着环境污染问题的日益严重，空气质量的监测与管理已经…...

编程日记 2024/11/19 23:51:30

STM32 极速入门第一天基础拓展驱动i2c屏幕 ( 使用PlatformIO开发STM32单片机 )

输入输出模式解析输出模式在输出模式下，通常不需要设置上下拉电阻. 输出电平由 LL_GPIO_SetOutputPin 和 LL_GPIO_ResetOutputPin 函数直接控制。输入模式在输入模式下，设置上下拉电阻是非常重要的. 输入引脚悬空时可能会导致不确定的电平&#xf…...

编程日记 2024/11/19 23:50:29

【WPF】Prism学习（五）

Prism Commands 1.错误处理（Error Handling） Prism 9 为所有的命令（包含AsyncDelegateCommand）提供了更好的错误处理。避免用try/catch包装每一个方法根据不同遇到的异常类型来提供特定的逻辑处理可以在多个命令之间共享错误处…...

编程日记 2024/11/19 23:49:28

RabbitMQ的基本概念和入门

RabbitMQ 的基本概念和入门 RabbitMQ 是一款流行的开源消息队列中间件，实现了高级消息队列协议（AMQP）。它使用Erlang语言编写，具备高可用性、可扩展性和易用性等特点，广泛应用于各种分布式系统中。本文将详细介绍Rabb…...

编程日记 2024/11/19 23:47:26

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

Golang dig框架与GraphQL的完美结合

将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用，可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器，能够帮助开发者更好地管理复杂的依赖关系，而 GraphQL 则是一种用于 API 的查询语言，能够提…...

编程新知 2025/12/31 8:38:23

Linux --进程控制

本文从以下五个方面来初步认识进程控制： 目录进程创建进程终止进程等待进程替换模拟实现一个微型shell 进程创建在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程，创建出来的进程就是子进程，原来的进程为父进程。…...

编程新知 2026/1/30 15:27:25

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2026/1/26 9:07:56

搭建DNS域名解析服务器(正向解析资源文件)

正向解析资源文件 1）准备工作服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2）服务端安装软件：bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...

编程新知 2026/2/4 15:42:45

GO协程(Goroutine)问题总结

在使用Go语言来编写代码时，遇到的一些问题总结一下 [参考文档]：https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函数默认的Goroutine 场景再现： 今天在看到这个教程的时候，在自己的电…...

编程新知 2026/1/31 6:53:53