[论文阅读] 人工智能 | 用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案
用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案
论文信息
作者: Eva Martín del Pico, Josep Lluís Gelpí, Salvador Capella-Gutiérrez
标题: Identity resolution of software metadata using Large Language Models
年份: 2025
来源: arXiv preprint arXiv:2505.23500
一、研究背景:科研软件的“身份混乱”困境
想象你在图书馆找书,发现同一本书可能有不同书名,或者同名的书内容完全不同。科研软件领域也有类似的“身份混乱”问题:
- 数据碎片化:生物信息学领域的软件元数据(如功能描述、开发者信息)分散在bio.tools、Bioconductor等多个平台,就像书籍被胡乱堆放在不同书架上。
- 重复与矛盾:同一软件可能在不同平台有重复记录,或同名软件功能迥异(比如“Python工具A”和“Python工具B”可能完全无关),传统方法靠“书名”(字符串匹配)或简单规则判断,就像只看封面找书,经常认错。
- 人工成本高:OpenEBench平台曾手动处理4.5万条记录中的500-3000条冲突,耗时又费力,急需自动化方案。
二、主要贡献:让AI成为科研软件的“智能管家”
这篇论文做了三件实事,让科研软件管理更高效:
-
证明大语言模型能“看懂”软件内涵
测试了8种LLMs(如GPT-4o、Llama 4 Scout、Mistral 7B),发现它们能通过分析元数据(名称、描述、官网内容等)判断软件是否相同,准确率超89%,比传统“看名字”的方法聪明多了。
类比:就像通过书的目录、作者简介、内容摘要判断两本书是否为同一作品,而不是只看书名。 -
发明“多数决”AI裁判团,减少误判
提出“共识代理”机制:当多个高性能LLMs(如Llama 4 Scout + Mixtral 8x22B)对同一软件身份判断一致时,直接采纳结果(准确率96.5%);意见分歧时交给人工,既保证正确率,又减少人工工作量。
类比:类似选秀节目中多个评委打分,一致通过的直接晋级,有争议的再复审。 -
大幅提升处理速度
人工标注100个案例需27.8小时,而LLMs仅需几分钟,搭配“共识代理”后,94%的案例可自动处理,效率提升几十倍。
三、创新点:告别“单脑作战”,让AI学会“团队协作”
- 用语义理解替代机械匹配:传统方法像查字典对关键词,LLMs则像通读全文理解含义,能处理模糊信息(如官网内容不完整时判断软件功能是否重叠)。
- “多数决”降低AI偏见:单个模型可能犯错(比如误将同名但不同功能的软件认作同一),多个模型投票可减少“误判”,就像陪审团制度比单人审判更可靠。
- 开源模型也能打:开源模型如Mistral 7B、Mixtral 8x7B表现接近闭源的GPT-4o,性价比更高,让更多科研团队能用得起。
四、核心方法:AI如何“学习辨认”软件身份?
1. 给AI布置“三选一”作业
定义任务:给定两个软件元数据,判断它们是“同一软件”“不同软件”还是“信息不足无法判断”,类似做选择题。
输入内容:软件名称、描述、官网链接、开发者信息,甚至官网爬取的正文内容(如README文档)。
2. 准备“标准答案”训练AI
- 从555对冲突记录中人工标注100个典型案例,作为“黄金标准”,标注时需查看官网内容并记录判断理由,像老师批改作业一样严格。
- 数据不平衡(多数是“同一软件”),不强行造伪数据,直接用真实案例测试模型“抗干扰”能力。
3. 让不同AI“考试”并打分
- 用Hugging Face等API调用8个LLMs,统一提示格式(如“请对比以下两个软件信息,给出判断”),避免“考试环境”不同影响成绩。
- 评估指标:准确率(整体对题率)、宏F1(各题型平均得分),并区分“简单题”(人工高信心案例)和“难题”(信息模糊案例)。
4. 组建“AI裁判团”做最终决策
选3个表现最好的模型(如Llama 4 Scout、Mixtral 8x22B)组成“裁判团”,只有当它们都同意某个判断时,才自动采纳结果,否则移交人工,就像法庭上需要多数法官一致同意才能定罪。
五、总结:AI让科研软件管理“更聪明、更高效”
- 成果总结:LLMs能有效解决软件元数据身份混乱问题,开源模型性价比高,“共识代理”机制在保证准确率的同时大幅提升自动化率,为OpenEBench等平台管理4.5万条软件记录提供了可行方案。
- 局限与未来:目前模型对“信息不足”的案例判断能力弱(全判错),未来计划优化提示词、增加多标注员协作,甚至用人类标注的“错题”进一步训练模型。
相关文章:
[论文阅读] 人工智能 | 用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案
用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案 论文信息 作者: Eva Martn del Pico, Josep Llus Gelp, Salvador Capella-Gutirrez 标题: Identity resolution of software metadata using Large Language Models 年份: 2025 来源: arX…...
gorm多租户插件的使用
一、关于gorm多租户插件的使用 1、安装依赖 go get -u github.com/kuangshp/gorm-tenant2、创建一个mysql数据表 DROP TABLE IF EXISTS user; CREATE TABLE user (id int(11) NOT NULL AUTO_INCREMENT primary key COMMENT 主键id,name varchar(50) not null comment 名称,ten…...

Playwright 测试框架 - Java
🚀【Playwright + Java 实战教程】从零到一掌握自动化测试利器! 🔧 本文专为 Java 开发者量身打造,通过详尽示例带你快速掌握 Playwright 自动化测试。涵盖基础操作、表单交互、测试框架集成、高阶功能及常见实战技巧,适用于企业 UI 测试与 CI/CD 场景。 🛠️ 一、环境…...

力扣100题之128. 最长连续序列
方法1 使用了hash 方法思路 使用哈希集合:首先将数组中的所有数字存入一个哈希集合中,这样可以在 O(1) 时间内检查某个数字是否存在。 寻找连续序列:遍历数组中的每一个数字,对于每一个数字, 检查它是否是某个连续序列…...

算法打卡12天
19.链表相交 (力扣面试题 02.07. 链表相交) 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 图示两个链表在节点 c1 开始相交**:** 题目数据…...
OpenCV C++ 学习笔记(四):图像/视频的输入输出(highgui模块 高层GUI和媒体I/O)
文章目录 图片读取创建窗口图片显示图片保存视频输入输出 图片读取 cv::Mat imread( const String& filename, int flags IMREAD_COLOR );enum ImreadModes {IMREAD_UNCHANGED -1, //!< If set, return the loaded image as is (with alpha channel, othe…...
我的创作纪念日——聊聊我想成为一个创作者的动机
2025年6月4日,是我在CSDN写下第一篇技术博客的第1024天。 1024,这个数字对于程序员来说意义非凡,它不仅是内存单位的基础,更是我们这群“码农”的节日符号。而对我来说,它更像是一段旅程的里程碑:从一个曾想…...

蓝桥杯国赛训练 day1 Java大学B组
目录 k倍区间 舞狮 交换瓶子 k倍区间 取模后算组合数就行 import java.util.HashMap; import java.util.Map; import java.util.Scanner;public class Main {static Scanner sc new Scanner(System.in);public static void main(String[] args) {solve();}public static vo…...

PyTorch——非线性激活(5)
非线性激活函数的作用是让神经网络能够理解更复杂的模式和规律。如果没有非线性激活函数,神经网络就只能进行简单的加法和乘法运算,没法处理复杂的问题。 非线性变化的目的就是给我们的网络当中引入一些非线性特征 Relu 激活函数 Relu处理图像 # 导入必…...

OPenCV CUDA模块目标检测----- HOG 特征提取和目标检测类cv::cuda::HOG
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::cuda::HOG 是 OpenCV 的 CUDA 模块中对 HOG 特征提取和目标检测 提供的 GPU 实现。它与 CPU 版本的 cv::HOGDescriptor 类似,但利…...

MATLAB读取文件内容:Excel、CSV和TXT文件解析
MATLAB读取文件内容:Excel、CSV和TXT文件解析 MATLAB 是一款强大的数学与工程计算工具,广泛应用于数据分析、模型构建和图像处理等领域。在处理实际问题时,我们常常需要从文件中读取数据进行分析。本文将介绍如何使用 MATLAB 读取常见的文件…...

Spring MVC 之 异常处理
使用Spring MVC可以很灵活地完成数据的绑定和响应,极大的简化了Java Web的开发。但Spring MVC提供的便利不仅仅如此,使用Spring MVC还可以很便捷地完成项目中的异常处理、自定义拦截器以及文件上传和下载等高级功能。本章将对Spring MVC提供的这些高级功…...
缓存控制HTTP标头设置为“无缓存、无存储、必须重新验证”
文章目录 说明示例核心响应头设置实现原理代码实现1. 原生 Node.js (使用 http 模块)2. Express 框架3. 针对特定路由设置 (Express) 验证方法(使用 cURL)关键注意事项 说明 日期:2025年6月4日。 对于安全内容,请确保缓存控制HT…...

ubuntu24.04 使用apt指令只下载不安装软件
比如我想下载net-tools工具包及其依赖包可以如下指令 apt --download-only install net-tools 自动下载的软件包在/var/cache/apt/archives/目录下...
macOS 上使用 Homebrew 安装redis-cli
在 macOS 上使用 Homebrew 安装 redis-cli(Redis 命令行工具)非常简单,以下是详细步骤: 1. 安装 Redis(包含 redis-cli) 运行以下命令安装 Redis: brew install redis这会安装完整的 Redis 服…...

计算机网络安全问答数据集(1788条) ,AI智能体知识库收集! AI大模型训练数据!
继续收集数据集,话不多说,见下文! 今天分享一个计算机网络安全问答数据集(1788条),适用于AI大模型训练、智能体知识库构建、安全教育系统开发等多种场景! 一、数据特点 结构清晰:共计1788条&…...

WinCC学习系列-高阶应用(WinCC REST通信)
WinCC作为一个经典SCADA系统,它是OT与IT数据无缝集成桥梁,自WinCC7.5版本开始,可以直接提供Rest服务用于其它系统数据访问和操作。 WinCC REST 服务允许外部应用程序访问 WinCC 数据。 外部应用程序可以通过 REST 接口读取和写入 WinCC 组态…...
八、Python模块、包
目录 1. 模块 1.1 什么是模块? 1.2 创建模块 1.3 导入模块 1.4 模块的命名空间 1.5 模块的搜索路径 1.6 模块的重新加载 2. 包 2.1 什么是包? 2.2 创建包 2.3 导入包中的模块 2.4 包的层次结构 3. 模块和包的管理 3.1 安装模块 3.2 卸载模…...

使用交叉编译工具提示stubs-32.h:7:11: fatal error: gnu/stubs-soft.h: 没有那个文件或目录的解决办法
0 前言 使用ST官方SDK提供的交叉编译工具、cmake生成Makefile,使用make命令生成可执行文件提示fatal error: gnu/stubs-soft.h: 没有那个文件或目录的解决办法,如下所示: 根据这一错误提示,按照网上的解决方案逐一尝试均以失败告…...

macOS 连接 Docker 运行 postgres,使用navicat添加并关联数据库
下载 docker注册一个账号,登录 Docker创建 docke r文件 mkdir -p ~/.docker && touch ~/.docker/daemon.json写入配置(全量替换) {"builder": {"gc": {"defaultKeepStorage": "20GB",&quo…...

指针的使用——基本数据类型、数组、结构体
1 引言 对于学习指针要弄清楚如下问题基本可以应付大部分的场景: ① 指针是什么? ② 指针的类型是什么? ③ 指针指向的类型是什么? ④ 指针指向了哪里? 2 如何使用指针 任何东西的学习最好可以总结成一种通用化的…...

TK海外抢单源码/指定卡单
抢单源码,有指定派单,打针,这套二改过充值跳转客服 前端vue 后端php 两端分离 可二开 可以指定卡第几单,金额多少, 前后端开源 PHP7.2 MySQL5.6 前端要www.域名,后端要admin.域名 前端直接静态 伪静…...
Docker MCP 目录和工具包简介:使用 MCP 为 AI 代理提供支持的简单安全方法
目录 Model Context Protocol 势头强劲 — 还需要改进哪些?发现正确的、官方的和/或值得信赖的工具是很困难的复杂的安装和分发身份验证和权限不足Docker 如何帮助解决这些挑战在安全、隔离的容器中轻松发现和运行 MCP 服务器一键式 MCP 客户端集成,内置安全认证企业就绪的 M…...

【Linux】Linux 环境变量
参考博客:https://blog.csdn.net/sjsjnsjnn/article/details/125533127 一、环境变量 1.1 基本概念 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数如:我们在编写C/C代码的时候,在链接的时候&am…...

OpenCV在图像上绘制文字示例
OpenCV计算机视觉开发实践:基于Qt C - 商品搜索 - 京东 OpenCV中除了提供绘制各种图形的函数外,还提供了一个特殊的绘制函数,用于在图像上绘制文字。这个函数是putText(),它是命名空间cv中的函数,其声明如下ÿ…...
Java 抗量子算法:构建后量子时代的安全基石
一、量子计算带来的加密挑战 在传统加密体系中,RSA、ECC 等公钥算法依赖大数分解和离散对数问题的难解性。然而,量子计算机的 Shor 算法可在多项式时间内破解这些算法,使现有加密体系面临颠覆性威胁。例如,2048 位 RSA 密钥的破解…...
Kubernetes 集群到 Jumpserver
以下是使用 ServiceAccount Token(令牌) 连接 Kubernetes 集群到 Jumpserver 的 详细分步指南,包括权限配置、Token 获取和常见问题排查。 1. 创建 ServiceAccount 并分配权限 1.1 创建 ServiceAccount 在 Kubernetes 集群中创建一个专用于…...
Android7 Input(十)View 处理Input事件pipeline
概述: 本文主要描述View对InputEvent事件pipeline处理过程。 本文涉及的源码路径 frameworks/base/core/java/android/view/ViewRootImpl.java InputEvent事件处理 View处理input事件是调用doProcessInputEvents方法,如下所示: void doProcessInputEvents() {//…...
图像数据如何表示为概率单纯形
目录 图像数据灰度图像彩色图像概率单纯形条件应用场景 图像数据 图像数据通常由像素值组成,这些像素值可以是灰度值(对于黑白图像)或RGB值(对于彩色图像)。每个像素的值通常在0到255之间。为了将图像数据表示为概率单…...
(11)Service Mesh架构下Java应用实现零信任安全模型
Service Mesh架构下Java应用实现零信任安全模型 📌 TL;DR: 本文详细介绍如何在Service Mesh架构中实现零信任安全模型,包括身份认证、授权控制、加密通信和持续监控四大核心技术,以及与Istio、Envoy等组件的集成方案。 目录 零信任安全模型概述关键技术实现最佳实践Service…...