如何让大语言模型更好地理解科学文献?
论文地址:https://arxiv.org/pdf/2408.15545
引言
科学文献的理解对于提取目标信息和获取洞察至关重要,这显著推动了科学发现。尽管大语言模型(LLMs)在自然语言处理方面取得了显著成功,但在科学文献理解方面仍面临挑战,主要由于缺乏科学知识和对特定科学任务的不熟悉。为了开发专门用于科学文献理解的LLM,我们提出了一种混合策略,结合持续预训练(CPT)和监督微调(SFT),以同时注入科学领域知识和增强特定任务的指令遵循能力。
1. 持续预训练(CPT)阶段
1.1 格式与语法校正
在从PDF文档中提取文本时,常常会引入许多格式和语法错误。为了解决这一问题,我们使用Llama3-8B-Instruct模型来校正这些错误。以下是一个校正前后的示例:
校正前的文本:
Highly p e n e t r a t i n g radiation, such as $\gamma$ -rays or fast electorns, deposits ener gy
throughout the solid t a r g e t material. Gas production occurs w i t h i n the solid phase and must d i f f u s e to the surface to be observed.
校正后的文本:
Highly penetrating radiation, such as $\gamma$ -rays or fast electrons, deposits energy throughout the solid target material. Gas production occurs within the solid phase and must diffuse to the surface to be observed.

1.2 CPT质量过滤
为了确保训练语料的高质量,我们使用Llama3-70B-Instruct模型对50k个样本进行评分,并根据评分结果过滤掉质量较低的25%数据。以下是评分分布图:

2. 监督微调(SFT)阶段
2.1 指令生成
为了生成多样化的科学指令,我们设计了一个三步流程:
- 领域关键词概率表:收集高影响力论文并统计词频,生成领域关键词概率表。
- 科学任务列表:编译一个包含各种科学任务的任务列表。
- 指令生成:根据关键词和任务描述生成科学上下文和相应的问答对。
以下是一个生成表格提取任务的示例:
生成表格提取任务的提示:
I need synthetic training data for training a machine learning model that extracts tables from text correctly. The data should be formatted in JSON, with each entry containing ”text” and ”answer” attributes. You should generate a paragraph that includes the keywords: $\{\{\mathrm{keywords}\}\}$ .
The ”text” part must contain enough information for the table to be extracted! In ”text” part, You must you include a table description in latex format.
生成的示例:
{
”text”: ”In recent studies regarding material science, the crmatrix has shown significant importance in understanding fracture behaviors. The following Table 1 presents a schematic illustration of the enthalpy changes observed during the different fracture phases.”,
”answer”: ”Material,Initial Enthalpy (kJ/mol),Final Enthalpy (kJ/mol),Fracture Phase
Material A,25.4,47.8,Brittle
Material B,22.3,45.0,Ductile
Material C,28.9,50.2,Semi-brittle”
}
2.2 指令质量控制
为了确保生成指令的质量,我们采用启发式去重和基于LLM的过滤方法。以下是评估示例:

3. 实验结果
3.1 基准模型性能
SciLitLLM在科学文献理解任务上表现优异,7B和14B版本的模型在SciAssess和SciRIFF基准测试中均取得了领先的成绩。具体来说,SciLitLLM-7B在SciAssess上比第二好的模型高出4.0%,在SciRIFF上高出10.1%。
3.2 消融研究
我们进行了消融实验来验证CPT阶段、SFT数据配方和指令质量过滤的有效性。结果表明,CPT阶段对提高科学文献理解能力至关重要,而SFT阶段使用SciLitIns数据集也能显著提升模型性能。

4. 结论与未来工作
本文介绍了SciLitLLM,一个专门用于科学文献理解的模型。通过CPT和SFT的结合,我们成功地提升了模型在科学领域的知识基础和指令遵循能力。未来的工作将致力于扩展训练数据的多样性和质量,并探索更高效的方法进行领域特定知识注入和高品质指令生成。
参考文献
- Cai, H., Cai, X., Chang, J., Li, S., Yao, L., Wang, C., … & Ke, G. (2024). Sciassess: Benchmarking LLM proficiency in scientific literature analysis. arXiv preprint arXiv:2403.01976.
- Wadden, D., Shi, K., Morrison, J., Naik, A., Singh, S., Barzilay, N., … & Cohan, A. (2024). Sciriff: A resource to enhance language model instruction-following over scientific literature. arXiv preprint arXiv:2406.07835.
希望这篇文章对你有所帮助!如果你有任何问题或建议,欢迎在评论区留言。
相关文章:
如何让大语言模型更好地理解科学文献?
论文地址:https://arxiv.org/pdf/2408.15545 引言 科学文献的理解对于提取目标信息和获取洞察至关重要,这显著推动了科学发现。尽管大语言模型(LLMs)在自然语言处理方面取得了显著成功,但在科学文献理解方面仍面临挑战…...
anaconda安装和环境配置
文章目录 一、Anaconda下载1.从官网直接下载:2.从镜像站中下载: 二、Anaconda安装三、检测是否有Anaconda配置anaconda环境 四、 Anaconda创建多个python环境(方便管理项目环境)1.查看conda有哪些环境2.创建python3.6的环境3.激活…...
Python基础学习(五)文件和异常
文件操作, 使用代码 来读写文件 1, 可以将数据保存到文件中, 2, 自动化, 测试数据在文件中保存的, 从文件中读取测试数据,进行自动化代码的执行 1.文件 文件: 可以存储在长期存储设备(硬盘, U盘)上的一段数据即为文件 1, 计算机只认识 二进制数据(0 和 1) 2, 所有的文件在计算…...
Mono里运行C#脚本29—mono_trampolines_init
一、概念解释 在计算机编程中,trampoline 通常是一段代码,它起到一个中间跳转的作用。它就像一个跳板,程序可以先跳转到这个跳板上,然后再从跳板跳转到最终的目的地。这种技术在许多不同的场景中都有应用,以下是一些主要方面: 函数调用方面: 当涉及到不同执行环境或不…...
从语音识别到图像识别:AI如何“看”和“听”
引言 随着人工智能技术的不断进步,AI的“听”和“看”能力正变得越来越强大。从语音识别到图像识别,AI不仅能够通过声音与我们互动,还能通过视觉理解和分析周围的世界。这些技术不仅改变了我们与机器的交互方式,也在各行各业中带…...
vue3+ts+uniapp 微信小程序(第一篇)—— 微信小程序定位授权,位置信息权限授权
文章目录 简介一、先看效果1.1 授权定位前,先弹出隐私协议弹框1.2 上述弹框点击同意,得到如下弹框1.3 点击三个点,然后点设置 1.4 在1.2步骤下,无论同意或者拒绝 二、manifest.json 文件配置三、微信公众平台配置3.1 登录进入微信…...
回归算法、聚类算法、决策树、随机森林、神经网络
这也太全了!回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机等十大机器学习算法一口气学完!_哔哩哔哩_bilibili 【线性回归、代价函数、损失函数】动画讲解_哔哩哔哩_bilibili 14分钟详解所有机器学习算法:…...
[Qt]系统相关-文件操作-QFile、QFileInfo类以及相关操作函数
目录 一、Qt文件系统 1.Qt文件系统的介绍 2.Qt文件类 二、Qt文件的操作 1.文件的打开 2.文件的读写操作 3.关闭操作 4.接口使用案例 5.获取文件的相关属性 三、文件的分类 1.文本文件 2.二进制文件 3.二者的区别 一、Qt文件系统 1.Qt文件系统的介绍 文件操作是所…...
C#高级:用Csharp操作鼠标和键盘
一、winform 1.实时获取鼠标位置 public Form1() {InitializeComponent();InitialTime(); }private void InitialTime() {// 初始化 Timer 控件var timer new System.Windows.Forms.Timer();timer.Interval 100; // 设置为 100 毫秒,即每 0.1 秒更新一次timer.…...
Mac 使用 GVM 管理多版本 Go 环境
使用 GVM 管理多版本 Go 环境 在本文中,我们将使用 gvm(Go Version Manager)工具管理本地多个 Go 语言版本。gvm 功能类似于 Python 的 Anaconda,可以方便地切换不同版本的 Go 环境,非常适合需要多版本开发与测试的场…...
25届合肥工业大学自动化考研复试攻略
本文内容,全部选自联盟自动化考研联盟企业店的:《合肥工业大学控制综合笔试篇》。后续会持续更新更多内容,记得关注哦~ 目录 Part1:复试指南具体内容 Part2:复试复习相关介绍 Part1:复试指南具体内容 1…...
【24】Word:小郑-准考证❗
目录 题目 准考证.docx 邮件合并-指定考生生成准考证 Word.docx 表格内容居中表格整体相较于页面居中 考试时一定要做一问保存一问❗ 题目 准考证.docx 插入→表格→将文本转换成表格→✔制表符→确定选中第一列→单击右键→在第一列的右侧插入列→布局→合并单元格&#…...
前瞻2024:前沿技术的全景洞察与深度剖析
在当今时代,前沿技术以前所未有的速度发展,深刻地改变着我们的生活、工作和社会的各个层面。从人工智能的迅猛发展到量子计算的逐步突破,从生物技术的不断创新到新能源技术的广泛应用,这些前沿技术正成为推动社会进步和经济发展的…...
告别手动编辑:如何用Python快速创建Ansible hosts文件?
在自动化运维领域,Ansible是一款非常强大的工具,它可以帮助我们管理和配置大量的服务器。为了让Ansible能够有效地管理这些服务器,我们需要一个hosts清单文件,该文件定义了Ansible要管理的目标主机。在实际应用中,我们…...
ESP32云开发二( http + led + lcd)
文章目录 前言先上效果图platformio.iniwokwi.tomldiagram.json源代码编译编译成功上传云端完结撒花⭐⭐⭐⭐⭐ 前言 阅读此篇前建议先看 此片熟悉下wokwi https://blog.csdn.net/qq_20330595/article/details/144289986 先上效果图 Column 1Column 2 platformio.ini wokwi…...
Java 基于微信小程序的原创音乐小程序设计与实现(附源码,部署,文档)
大家好,我是stormjun,今天为大家带来的是Java实战项目-基于微信小程序的原创音乐小程序设计与实现。该系统采用 Java 语言 开发,MySql 作为数据库,系统功能完善 ,实用性强 ,可供大学生实战项目参考使用。 博…...
JavaWeb开发(十五)实战-生鲜后台管理系统(二)注册、登录、记住密码
1. 生鲜后台管理系统-注册功能 1.1. 注册功能 (1)创建注册RegisterServlet,接收form表单中的参数。 (2)service创建一个userService处理业务逻辑。 (3)RegisterServlet将参数传递给ser…...
在stm32中C语言编写的程序中,一个整形数据是怎么存储的,高位在前还是低位在前
目录 举个例子 如何验证 小结 在 STM32(基于 ARM Cortex-M 架构)的系统中,默认是小端(Little Endian) 存储方式。也就是说,对于一个整型(例如 32 位 int),它的最低有效…...
Redis系列之底层数据结构字典Dict
Redis系列之底层数据结构字典Dict Dict数据结构 Dict是Redis数据结构中使用最为频繁的复合型数据结构,本质上是一个哈希表 查看redis6.0版本的源码,链接:https://github.com/redis/redis/blob/6.0/src/dict.h 哈希表的结构定义࿱…...
CSS 溢出问题及解决方案:实用案例与技巧
在网页开发中,CSS 的布局和样式起着至关重要的作用,但经常会遇到一个棘手的问题——溢出问题。溢出是指元素内的内容超出了其设定的容器大小,这不仅会影响页面的美观,还可能干扰用户体验。本文将详细探讨 CSS 溢出问题的案例&…...
Agentic AI 深度解析:当人工智能学会“动手”
从“回答问题”到“完成任务”,Agentic AI 正在重新定义人工智能的边界。它不是“更大的聊天机器人”,而是能够自主规划、调用工具、执行多步任务并持续迭代的智能体系统。一、什么是 Agentic AI?——重新定义“智能” Agentic AI(…...
光伏三相并网:集成MPPT与SPWM调制的高效逆变系统
光伏三相并网: 1.光伏10kwMPPT控制两级式并网逆变器(boost三相桥式逆变) 2.坐标变换锁相环dq功率控制解耦控制电流内环电压外环控制spwm调制 3.LCL滤波 仿真结果: 1.逆变输出与三项380V电网同频同相 2.直流母线电压800V稳定 3.d轴…...
PowerToys MeasureTool:让屏幕测量变得如此简单,设计师必备的免费神器
PowerToys MeasureTool:让屏幕测量变得如此简单,设计师必备的免费神器 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/Gi…...
Cursor Free VIP开源工具:Cursor功能扩展完整技术指南
Cursor Free VIP开源工具:Cursor功能扩展完整技术指南 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your tri…...
宝可梦存档管理全世代兼容指南:从备份到跨世代转移的完整解决方案
宝可梦存档管理全世代兼容指南:从备份到跨世代转移的完整解决方案 【免费下载链接】PKSM Gen I to GenVIII save manager. 项目地址: https://gitcode.com/gh_mirrors/pk/PKSM 宝可梦训练师们常常面临存档丢失、跨世代宝可梦转移困难等问题。本文将介绍一款名…...
我不是狐狸,我是那Harness Engineering涯
Julia(julialang.org)由Stefan Karpinski、Jeff Bezanson等在2009年创建,目标是融合Python的易用性、C的高性能、R的统计能力、Matlab的科学计算生态。 其核心设计哲学是: 高性能:编译型语言(JIT࿰…...
打卡信奥刷题(3085)用C++实现信奥题 P7095 [yLOI2020] 不离
P7095 [yLOI2020] 不离 题目背景乱玄黄时序,探风林实虚。 我要你共我奇谈怪趣。 任日月斑斓,待春秋兴残。 我要我们有聚无散。——银临《不离》 题目描述 这道题目来自 zxy 哔哔,咕咕让哔哔选一首歌作为题目名,但是哔哔说没有想好…...
使用小龙虾来操作猿编程的遥控车怕
一、什么是 Q 饱和运算? 1. 核心痛点:普通运算的 “数值回绕” 普通算术运算(如 ADD/SUB)溢出时,数值会按补码规则 “回绕”,导致结果完全错误: 示例:int8_t 类型最大值 127 1 → 结…...
猫抓浏览器扩展:终极网页资源嗅探与视频下载解决方案
猫抓浏览器扩展:终极网页资源嗅探与视频下载解决方案 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到网页上的精彩视频无…...
CPV10-GE-DN3-8控制阀端子
CPV10-GE-DN3-8控制阀端子是一款应用于气动控制系统中的关键连接与分配单元,主要用于阀岛系统中的信号与气路接口管理,具备结构紧凑、连接可靠等特点,广泛应用于自动化生产线及工业控制领域。模块化设计,便于系统扩展与组合使用接…...
