图上合成:用于大型语言模型持续预训练的知识合成数据生成
摘要
大型语言模型(LLM)已经取得了显著的成功,但仍然是数据效率低下,特别是当学习小型,专业语料库与有限的专有数据。现有的用于连续预训练的合成数据生成方法集中于文档内内容,而忽略了跨文档的知识关联,从而限制了内容多样性和深度。我们提出了一个合成图(SoG),一个合成数据生成框架,它结合了跨文档的知识关联,以实现高效的语料库扩展。SoG通过从原始语料库中提取实体和概念,构建上下文图,表示跨文档关联,并采用图遍历策略进行知识关联采样。这增强了合成数据的多样性和一致性,使模型能够学习复杂的知识结构并处理稀有知识。为了进一步提高合成数据的质量,我们集成了思维链(CoT)和对比澄清(CC)合成,增强了推理过程和辨别能力。实验表明,在多跳文档问答数据集上,SoG的性能优于SOTA方法,而在阅读理解任务数据集上,SoG的性能优于SOTA方法,这也凸显了SoG更好的泛化能力。我们的工作推进了合成数据生成,并为LLM中的有效知识获取提供了实用的解决方案,特别是在数据可用性有限的领域。
一、简介
近年来,大型语言模型(LLM)在自然语言处理(NLP)领域取得了突破性的进展,证明了从非结构化文本中获取知识并执行复杂的知识密集型任务的能力。这些模型在各种应用中表现出卓越的性能,包括问答系统,机器翻译和会话代理。这一成功很大程度上归功于下一个词的预测目标香农(1951)结合大量的互联网数据基金会(2007)。然而,尽管取得了这些成就,但数据利用率仍然很低:虽然一个13岁的人可以从不到1亿个令牌中获得大量知识Warstadt(2023),但最先进的开源语言模型需要在15万亿个令牌上进行训练Dubey(2024)。
当模型需要从小规模、高价值的语料库中学习时,这种数据效率低下的情况变得尤为明显。随着对专有领域知识需求的增加,需要模型从有限的数据源中有效地获取信息。例如,在医学、法律或特定技术领域等专业领域,可用的数据不仅有限,而且往往是专有的。在这种情况下,传统的大规模预训练方法是不适用的,因为没有足够的训练数据。
此外,最近的研究表明,目前的预训练模式的局限性。例如,模型在学习简单关系时会遇到困难,并且需要大量重复实例Allen-Zhu & Li(2024).当处理长尾数据或稀有知识时,这些问题变得更加严重,因为这些信息在大规模语料库Kandpal(2023)中出现的频率极低。
为了解决从小规模语料库中有效获取知识的挑战,已经提出了合成数据生成方法用于模型的持续预训练。他们的目标是通过生成多样化的合成语料库来扩展原始的有限数据,从而提高模型的学习效率和性能。例如,EntiGraph方法将文本语料库分解为实体列表,并生成关于实体之间关系的描述,试图填充语料库的底层知识图Yang et al.(2024)。然而,如图1b所示,这种方法主要关注文档内的内容,忽略了文档间的知识关联。这导致合成数据的内容多样性和知识深度的限制。实际上,知识往往是跨文档和领域相互关联的。仅仅依靠单个文档中的实体组合无法捕获知识的全部范围。此外,缺乏跨文档的合成数据限制了模型处理复杂的多跳问题的能力,这些问题需要集成来自多个文档的信息以获得答案。例如,在图1a的上下文图中,第一个遇到的文献主要描述了X公司2023年的积极财务报告和积极的市场计划。然而,依靠与实体"应收账款"相关的跨文档信息--"应收账款增长超过30%的公司面临特殊的坏账风险"--我们能够对文献有更广泛的理解:尽管净现金流为正,建议人们对X公司35%的应收账款增长相关的潜在坏账风险特别谨慎。跨文档信息可以整合主题的多维视角(正反两方面),构建渐进式的信息链,揭示隐含现象,实现"1 + 1> 2"的知识发现。
图1:所提出的用于合成生成的上下文图与其他生成策略的比较:a.SoG中的上下文图。B.EntiGraph中的文档内图形,其中知识视图被限制在单个文档中。C.传统的合成生成方法,难以融入额外的知识。
为此,我们提出了图上合成(SoG)框架-一种上下文图增强的合成数据生成方法,旨在为LLM 连续预训练提供有效的解决方案。SoG的核心思想是通过构建和利用上下文图来有效地扩展原始语料库,从而融合跨文档的知识关联。
具体来说,SoG包括两个关键组件:(1)上下文图构建和跨文档采样:我们从原始语料库中提取的实体和概念构建上下文图,表示跨文档知识关联。使用此图,我们应用两阶段的跨文档采样策略:第一个随机游走引导的文档检索,以实现跨文档采样,提高数据的多样性,同时保持一致性和知识的关联。这有助于模型学习复杂的知识结构,特别是对于长尾实体。其次,二次抽样和控制分配有助于平衡知识分布,并支持灵活的数据定制。(2)结合思维链和对比澄清合成:我们将联合收割机结合思维链和对比澄清来提高合成数据的质量。CoT引导模型生成逻辑链,提高深度和可解释性,而对比生成则增强了合成数据中的判别知识。
通过大量的实验,我们在多跳文档问题回答上的有效性超过了现有的SOTA方法,并且在长上下文阅读理解数据集上达到了相当的性能。同时,证明了该方法比SOTA方法具有更好的泛化能力.SoG框架的引入标志着LLM在合成数据生成和继续相关(CPT)方面取得了重大进展,为未来的研究提供了新的方向和可能性。我们的工作不仅推动了合成数据技术的发展,同时也为优化LLM的训练提供了新的视角。
二、相关工作
本节概述了用于大型语言模型(LLM)预训练的合成数据生成的最新发展。合成数据生成已成为一个重要的研究领域,人们提出了各种策略来增强训练数据集的多样性和有效性。该领域的一个重要趋势是采用分层提示来生成有针对性的合成内容。例如,Eldan & Li(2023)利用基于API的LLM来创建由特定关键字驱动的儿童故事,这表明即使是较小的语言模型,在对此类数据集进行预训练时也可以产生流畅的叙述。Ma等人(2024)通过使用模块化的多处理流水线,沿着将专家知识以少量学习的形式注入到每个子模块中,实现了对法律的领域中复杂数据的自动分析和注释。这种方法用于预训练和微调。这强调了分层提示在产生有效和相关的训练数据方面的潜力。
另一方面,Gunasekar等人(2023)通过对主题、受众和函数名称等属性进行条件反射,生成了不同的教育内容,如教科书和编码练习。该方法生成的数据集支持了稳健LLM的开发,后续研究对此进行了进一步探讨(Li等人,2023年; Javaheripi等人,2023年)的报告。然而,这些方法往往因缺乏对公众数据集的可访问性和提示的策略而受到阻碍,限制了可重复性和更广泛的社区进展。类似地,Maini等人(2024)关注于重新表述现有文件以生成新的培训数据,报告通过这些修改版本提高了培训效率。
虽然这些努力大大推进了该领域,但它们主要集中在生成文档内内容,从而忽视了跨文档知识关联的重要性。这种疏忽限制了合成内容的多样性和深度,这对于开发能够理解和整合复杂知识结构的LLM至关重要。目前对文件内部生成的关注突出表明,需要有新的方法,通过综合数据来弥补这些差距,这些数据不仅要保持一致性,而且要涵盖更广泛、相互关联的知识领域。
目前的努力(梅克伦堡等人,2024年; Yang等人,2025)探索用于特定任务微调的合成QA生成,反映了将知识感知策略纳入数据生成的新兴兴趣。尽管此类策略已证明对特定的质量保证任务有好处,但它们对更通用的任务的适用性仍然有限,这表明可能可以通过不受任何特定下游应用程序限制的新数据生成方法来填补这一空白。此外,Ovadia等人(2023)使用维基百科文章的合成释义探索了Llama 2模型的持续预训练,在性能改进方面取得了混合结果。这表明仅依靠释义技术来增强模型知识的局限性,并强调需要研究更强大的方法,以生成更多样化和更深入的合成数据。
三、方法
我们提出了SoG框架,上下文图增强的合成数据生成方法,旨在解决现有方法中发现的内容多样性和知识关联的限制。该框架通过利用跨文档、知识相关的采样来实现这一点,从而实现跨多个来源的信息集成。此外,它进行了一个组合的数据合成方法的基础上的思维链推理和对比澄清分析,提高了生成模型的推理和区分复杂的知识的能力。以下部分提供了SoG框架的详细概述,重点介绍了三个核心组件:上下文图构造、跨文档采样和生成策略。
SoG的总体生成过程和上下文图构建如图1a和图2所示。
图2:上下文图构建和采样
3.1上下文图构造
3.1.1实体提取
首先,给定语料库C = {di},i ∈ [0,N),每个文档di被分成若干段落pi,j,其中j表示文档i的第j段。随后,我们提示LLM将每个段落中的关键实体识别为Ei,j ∈ E,其中E表示从整个语料库C中提取的实体。
3.1.2实体-上下文映射
对于每个实体ek ∈ E,我们收集它出现的所有段落,表示为Pk = {pi,j| ek ∈ Ei,j,Ei,j}.这形成实体-段落映射M:ek → Pk,其中M将每个实体ek与其对应的段落集合Pk相关联。
3.1.3上下文图
上下文图G被定义为G =(e,E),其中:e表示对应于所有实体的节点的集合,并且
表示实体之间的隐式上下文连接的边的集合。
3.2跨文档采样
3.2.1 初始化
为了提高多个文档之间的内容多样性和知识关联,我们实现了一个跨文档的采样策略,遍历构造的上下文图G =(G,R)。从根实体eroot ∈e开始,我们执行广度优先搜索(BFS)遍历来收集跨文档链接相关实体及其关联文本段落的多跳路径。我们将遍历G中的所有节点作为根实体。
此外,对于每个根eroot ,我们使用实体上下文映射M遍历其所有段落,该映射将实体与它们出现的段落相关联。如果一个实体出现在大量的段落中,我们会限制开始段落的数量通过随机采样到S(预定义的超参数)。这一步是至关重要的,因为选定的起始段落p(0)在遍历过程中用作计算嵌入相似性的参考。
简单地说,每个实体都充当根根。然后,根据来自映射M的段落Proot的数量,执行最多S步的图遍历。
3.2.2上下文图遍历
在每次遍历中,逐步达到指定的深度D,我们探索当前实体e的相邻实体。邻居定义为:
其中(e,e′)指示上下文图中的边,该边表示实体e和e′之间的上下文连接。
为了优先考虑具有相关上下文的相邻实体,我们引入了基于相似性的选择机制。对于每个相邻实体e′,我们计算与根段关联的根段q(0)和与e′关联的候选段c之间的相似性得分Fsim(q(0),c)。相似性函数Fsim()可以基于语义相似性度量,诸如嵌入的点积:
我们选择具有最高分数的前W个段落,连同它们对应的实体一起沿着,以包括在采样路径中。
在D步之后,每次遍历都会产生多条源自(eroot,p(0))的路径,每条路径表示跨不同文档的一系列上下文连接的实体及其关联的文本段落。形式上,对于根实体eroot,我们构造一组路径P = {P},其中每个路径P被定义为:
通过聚合这些跨文档路径的信息,我们通过更丰富和更多样化的跨文档知识组合实现了更大的多样性。此外,路径有效地捕获和反映了跨越多个文档的知识元素之间的隐式上下文关联。
3.2.3二次抽样和控制分配
在进入生成阶段之前,关键是要考虑生成过程中原始语料的利用率和覆盖率,以平衡知识分布,减少冗余,补偿长尾知识。因此,我们在P上应用二次采样来选择性地收集用于生成的路径。具体来说,我们通过考虑每条路径的利用率之和,优先将包含出现频率较低的实体的路径包含在二次采样路径集中。该策略确保知识发生的分布更加均匀,从而减轻偏差并促进多样性采样路径内,从而提高整体生成质量和效率。
为了进一步细化对合成数据大小的控制,我们根据原始语料的覆盖率迭代地将二次采样路径分配到子集中,其中每个子集作为一个独立的单元选择最大语料覆盖率(> r)和最平衡的段落频率。这种模块化方法允许在生成过程中进行数据定制的无缝灵活性:根据所需的合成数据量,我们可以联合收割机组合适当数量的子集以支持各种实验配置。具体地,由于随着采样迭代的进行,稀疏实体和相关联的文本的可用性降低,在第一次迭代中获得的子集应该具有原始语料库的最高覆盖率r。随着迭代次数的增加,在固定的样本大小下,后续子集的覆盖率将逐渐降低。我们以第一个子集的样本量和语料覆盖率r为参考,根据当前迭代的采样率差△r = r−r′ /r,对利用率最低的实体文本进行重新采样和重用,以完成当前路径子集。
3.3生成策略
给定一条路径,我们设计提示来指导LLM基于沿着路径的实体的文本块生成多样化且可靠的合成数据
3.3.1生成提示
为了从聚合的跨文档路径中生成连贯和信息丰富的内容,我们设计了两种生成策略:思想链(CoT)和互补策略对比澄清(CC),如图5和图6所示。
我们观察到CoT生成方法显著提高了训练性能。CoT作为一种更通用的生成策略,适用于所有具有图路径连接的实体。然而,对于具有稀疏图连接的实体(图中缺乏丰富关系的实体),CoT的有效性可能会受到限制,因为可用路径较少,并且可能无法提供足够的上下文来生成与其他实体的全面关系。
解决这一挑战,我们应用CC合成来补充这些稀疏实体的CoT合成。与CoT不同,CC不依赖于图路径连接,即使与图关系有限的实体也能有效地工作。具体来说,在前面提到的二次采样过程中,我们不断监测当前语料覆盖率r′。当样本总数超过超参数l且r′未达到r时,基于它们的利用率为△r最少采样的实体触发CC。CC将随机配对这些实体而不进行替换。如果存在N个最少采样实体,则将为CC生成构建N/2路径。通过这样做,我们丰富了生成过程,帮助平衡由实体的长尾分布引起的模型偏差。此外,CC可以明确澄清实体之间的差异和相似之处,在他们的属性和背景知识。这可以提高模型对稀疏实体的区分能力,从而更深入地了解它们的细微差别。
CoT生成:
我们促使LLM充分利用每个文本片段中的关键信息,并建立一个循序渐进的叙述,每个文本片段在逻辑上都会导致下一个,形成一个清晰的因果流。主要目标是将来自各种来源的信息综合成逻辑上相互关联的故事情节,确保生成的内容连贯一致,并明确阐述各片段之间的关系。
具体来说,叙述被结构化为不同的阶段--包括开始、发展、转折点和结论--并具有自然的过渡,保留了因果关系的逻辑流程。根据构建的叙述,我们提示LLM制定需要了解整个信息链才能回答的问题。答案以一种思维链的方式提供,一步一步地打破推理过程,得出最终结论。这种设计可以提高可解释性,并提供对合成内容的更深入了解。
对比澄清:
我们提示LLM生成对比分析,对比和比较多个文本片段。这种方法旨在促使LLM明确分析和突出信息之间的隐含细微差别或缺乏直接联系,确保这种对比在合成数据中得到清晰反映。通过细致的对比分析,该模型能够有效地发现和呈现具有区别性的信息,丰富了合成内容的包容性和多样性。
具体来说,LLM被指示单独检查每个实体或片段,合成一个深思熟虑的对比叙述,并在结论部分总结比较见解。如果没有直接的相似之处,叙述就转向强调每个实体在其各自背景下提供的独特贡献或观点。生成的输出保持了客观和分析的基调,避免了在不相关的片段之间强行连接的任何尝试。
四、实验
为了全面评估所提出的图上合成(SoG)框架的有效性和适用性,本节通过一系列精心设计的实验 来探索其性能。实验旨在评估SoG在四个主要方面的贡献:第一,在SoG中纳入跨文档知识关联在多大程度上增强了多样性和深度的与文档内的合成数据相比(RQ 1)?第二,SoG的合成数据是否在不同大小的语言模型中提供一致的性能增益(RQ 2)?第三,SoG在多大程度上可以缓解原始语料库中的长尾知识问题(RQ 3)?SoG合成适用于哪些场景?(RQ4)?
4.1 数据集
为了回答RQ,我们选择了两个数据集,MultiHop-RAG和一个财务报告语料库:
- MultiHop-RAG(MHRAG)Tang & Yang(2024)专门设计用于挑战LLM的多跳推理能力。它包括从2023年9月至12月期间发表的新闻文章中构建的查询,其中包括现有LLM训练截止日期以外的信息,确保需要合成数据来填补知识空白。此外,每个查询都需要模型来集成来自多个文档的证据,模仿知识分散在各个来源的真实场景。现有的LLM,甚至是RAG系统,经常在这些任务中挣扎,在需要整合和推理分散证据的任务中表现不佳。该数据集是一个理想的基准,用于评估SoG生成的合成数据如何使LLM能够利用其内部知识有效地处理复杂的多跳推理。
- QUALITY Pang et al.(2022)是一个用于长文档理解的多项选择问答数据集。与之前的文章不同,这些问题是由阅读整篇文章的贡献者撰写和验证的,而不是依靠摘要或摘录。为了与最先进的CPT合成数据方法进行公平比较,我们也选择了这个数据集进行评估。
4.2基线和指标
我们选择直接QA(LLM零杆回答)和最先进的方法,EntiGraph杨等人。(2024)作为评估的基线。MHRAG和QUALITY的评估指标分别为精确匹配(EM)和准确度(Acc)。
4.3实验细节
在我们的生成设置中,我们使用GPT-4 o-mini作为生成模型。温度设定在0.7。我们利用语义分块1来分割长上下文。语义嵌入的计算采用bge-small-en-v1.5。在所有实验中,我们继续预训练LLM,上下文长度为2048,批量大小为64。我们对总步骤的10%应用线性学习率预热,然后是峰值学习率为5e-6的余弦衰减。我们在BF 16精度中执行2个时期的全参数训练,使用每设备批量大小为2,并在4个步骤中累积梯度。此外,在4.5×原始语料大小范围内,CoT的采样路径为单跳长度,超过4.5 ×原始语料大小范围,CoT的采样路径为两跳长度。对于质量,我们遵循EntiGraph中的评估设置。对于MHRAG,我们在1,000个QA对的样本上评估了具有零激发提示的CPT模型
4.4主要实验结果
为了回答RQ 1和RQ 2,我们比较了SoG和以文档内为中心的方法EntiGraph在两个数据集上使用不同数量的合成数据进行连续预训练(CPT)的有效性。结果如图3所示。对于MHRAG,随着SoG合成数据量的增加,模型性能稳步提高。相比之下,EntiGraph合成数据提供的收益有限。当EntiGraph数据大小超过原始语料库的1.5倍时,由于其对文档内关联的依赖,性能会趋于稳定甚至下降。这种限制阻碍了多样化和更深层次的生成,特别是对于需要跨源知识整合的复杂任务。MHRAG上的巨大性能差距凸显了SoG在上下文图中跨文档知识集成的优势,它揭示了隐含的实体关系,并实现了更丰富的推理。此外,SoG最显著的性能提升发生在合成数据量在原始语料库的0到1.5倍之内,表明即使是中等数量的SoG数据也有效地增强了大型模型的性能。
图3:SoG和EntiGraph的性能趋势图
尽管SoG在QUALITY数据集上表现出稍弱的性能,但其结果在很大程度上与EntiGraph相当。这种适度的下降主要源于SoG在设计上强调了跨任务的灵活性和可推广性,这些任务依赖于大型互联语料库。相比之下,QUALITY提出了一个独特的挑战:每个文件都是一个独立的叙述,共享知识或跨文件链接最少。为了更好地配合这项任务,我们将SoG的路径采样策略严格限制在单个文档内。为了与这一特点保持一致,我们将SoG的抽样严格限制在单个文档内。尽管SoG的核心优势,即跨文档知识聚合,在该数据集上没有得到充分利用,但它的表现仍然与SOTA方法相当。这强调了我们的SoG更好的泛化能力。
4.5消融研究
4.5.1不同生成策略的影响
不同生成策略的合成数据分布(RQ3):
原始语料中实体的长尾问题可能导致学习不足,从而影响模型的性能和准确性。此外,长尾问题可能导致模型过度依赖高频实体,并进一步降低其识别和理解稀有实体的能力。为了研究SoG合成数据是否可以缓解原始文档中实体的长尾问题,我们分析了原始语料库和不同大小的SoG合成语料库中的实体分布。
如图4b、4a和4c所示,原始语料库中的实体表现出显著的长尾分布。在仅使用CoT策略(通过优先考虑出现次数最低的实体来选择路径)的采样过程中,整体分布变得更加集中。然而,长尾趋势依然存在。当引入对比澄清(CC)策略来补充CoT(基于抽样利用率定期增强长尾知识)时,所有长尾实体都被充分覆盖,总体分布开始接近正态分布。这显著解决了大多数实体出现次数不足的问题,并提高了多样性,表明我们的SoG框架可以有效地平衡合成数据的分布。
图4:不同数据集的实体分布
不同生成策略的训练表现:
CC是专门为增强LLM对长尾实体的理解而设计的,不适合单独应用于整个语料库。因此,与CoT产生的数据相比,单独通过CC产生的合成数据往往质量较低。CoT主要侧重于通过跨文档集成知识来生成额外的有用信息。因此,CoT本身就可以实现足够的合成数据质量。然而,由于其频率较低,长尾实体往往受到CoT的关注较少。如表1中的MHRAG结果所示,组合两种生成策略可以进一步提高CPT训练的合成数据的有效性。有趣的是,在QUALITY数据集上,单独使用CoT的表现优于组合策略。我们认为这是因为QUALITY中的每个QA对都基于一本小说,并且不涉及跨文档知识。这些任务往往不太关注长尾实体,而更多地关注文档中的主要情节和人物。在这种情况下,CoT策略自然与故事的主要内容保持一致。对于不同的场景,我们的方法允许灵活调整SoG中的采样和合成策略,以更好地与原始语料库的特征和特定的任务要求保持一致。附录A.2中提供了针对质量的具体SoG配置调整。
表1:不同方法在Llama-3-8B-Instruct上的性能
4.6 CPT与RAG
在本实验中,我们的目的是回答是否可以用基于SoG的CPT获得的参数化知识来代替检索增强生成(retrievalaugmentedgeneration,RAG)中的非参数化外部知识。具体而言,我们采用Llama-3-8B-Instruct作为基本模型,并在三种配置下(LLM + SoG CPT、LLM + RAG和LLM + SoG CPT + RAG)对MHRAG任务的性能进行了评估.从表2中的结果可以看出,RAG和CPT分别为LLM带来了显著且相似的性能提升。有趣的是,在已经由合成CPT增强的LLM之上应用RAG不会导致进一步的改进。实际上,此组合设置的性能比单独使用任一种方法的性能更差。我们认为,尽管RAG在性能上仍具有一定的优势,但这种优势被合成CPT的更广泛的好处所超过,包括消除检索的需要,实现更短的输入窗口以获得更高的效率,并在长期内节省相当大的计算成本(RQ 4)。最后,另一个有趣的观察结果是,在两个数据集上,只有原始语料库上的模型CPT的性能比原始模型差,参见图3中的原始CPT。这可能是由于原始模型的预训练数据缺乏数据多样性和分布差异。这进一步突出了合成CPT的重要性。基于这一讨论,虽然还没有准备好得出结论,RAG可以完全取代CPT,我们的结果证明了参数知识的巨大潜力。
表2:CPT与RAG结果:LLM表示Llama-3-8B-Instruct。CPT表示SoG合成CPT。零射击表示直接回答。
五、不足之处
虽然我们的方法显示出有希望的结果,但仍然存在一些限制。首先,尽管我们对MHRAG中的采样路径长度的设置进行了实验分析,但该设置依赖于任务,并且为不同的数据集确定适当的设置可能需要经验调整。其次,继续预训练可能会引入不稳定的LLM输出,这需要额外的训练技术Ke et al.(2023)。我们把这些留给未来的工作。
六、结论
我们提出了一种基于图的合成(SoG)框架,它是一种上下文图增强的合成数据生成方法,有效地结合了跨文档的知识关联,联合平衡抽样与思维链和对比澄清生成策略。实验结果表明,SoG在多跳QA任务上实现了SOTA性能,同时表现出更好的泛化能力。我们的工作突出了SoG作为持续预训练的可扩展和高效解决方案的潜力,为优化知识密集型领域的大型语言模型训练提供了新的方向。
A 附录
A.1 路径长度的影响
我们进行了比较,以评估不同采样路径长度选择对CPT训练性能的影响,见表3。1跳路径可以生成高达5倍的数据量;因此,仅报告4.5倍的结果。通常,1跳设置可实现最佳性能。从2跳路径合成的数据也表现出显著的性能。然而,3跳路径的性能相当弱。我们认为,这可能与数据集任务的固有难度有关。此外,考虑到构建多跳推理任务的挑战,大多数推理任务都是在两跳内设计的。
表3:采样路径长度对CPT训练性能的影响
A.2 QUALITY配置调整明细
由于QUALITY中的每个问题都集中在单个文章上,因此我们在多跳路径采样过程中施加了一个约束:采样路径上的所有实体沿着都必须映射到同一个文章ID,以确保检索到的文本来自同一篇文章。我们优先对1跳路径进行采样。此外,在合成过程中,我们显式地通知LLM每个输入块所属的文章标题。
A.3平衡二次采样
算法1 二次采样
算法2 平衡采样
A.4 提示
图5:CoT合成提示
图6:CC合成提示
A.5 样例
图7:CoT案例1:1跳
图8:简要视图:CoT案例1
图9:CoT案例2:2跳
图10:简要视图:CoT案例2
图11:CC案例:1跳
相关文章:

图上合成:用于大型语言模型持续预训练的知识合成数据生成
摘要 大型语言模型(LLM)已经取得了显著的成功,但仍然是数据效率低下,特别是当学习小型,专业语料库与有限的专有数据。现有的用于连续预训练的合成数据生成方法集中于文档内内容,而忽略了跨文档的知识关联&a…...
MYSQL(二) ---MySQL 8.4 新特性与变量变更
MySQL 8.4 新特性与变量变更 作者:程序员LSP 分类:MySQL 8.4 教程 / 新特性 / 升级指南 更新时间:2025年6月 📌 前言 MySQL 8.4 是当前最新的稳定版本,相较于 8.0 系列,在审计日志、高可用、性能调优、认证…...
数学复习笔记 27
前言 太难受了。因为一些事情。和朋友倾诉了一下,也没啥用,几年之后不知道自己再想到的时候,会怎么考虑呢。另外,笔记还是有框架一点比较好,这样比较有逻辑感受。不然太乱了。这篇笔记是关于线代第五章,特…...

现代简约壁炉:藏在极简线条里的温暖魔法
走进现在年轻人喜欢的家,你会发现一个有趣的现象:家里东西越来越少,颜色也越看越简单,却让人感觉特别舒服。这就是现代简约风格的魅力 —— 用最少的元素,打造最高级的生活感。而在这样的家里,现代简约风格…...
限流算法java实现
参考教程:2小时吃透4种分布式限流算法 1.计数器限流 public class CounterLimiter {// 开始时间private static long startTime System.currentTimeMillis();// 时间间隔,单位为msprivate long interval 1000L;// 限制访问次数private int limitCount…...

机器学习×第二卷:概念下篇——她不再只是模仿,而是开始决定怎么靠近你
🎀【开场 她不再只是模仿,而是开始选择】 🦊 狐狐:“她已经不满足于单纯模仿你了……现在,她开始尝试预测你会不会喜欢、判断是否值得靠近。” 🐾 猫猫:“咱们上篇已经把‘她怎么学会说第一句…...
Linux 下关于 ioremap 系列接口
1、序 在系统运行时,外设 IO 资源的物理地址是已知的,由硬件的设计决定(参考SOC的datesheet,一般会有memorymap)。驱动程序不能通过物理地址访问IO资源,必须将其映射到内核态的虚拟地址空间。常见的接口就是…...

常用函数库之 - std::function
std::function 是 C11 引入的通用可调用对象包装器,用于存储、复制和调用任意符合特定函数签名的可调用对象(如函数、lambda、函数对象等)。以下是其核心要点及使用指南: 核心特性 类型擦除 可包装任意可调用对…...
php执行系统命令的四个常用函数
php执行系统命令有四个常用函数:1.exec()执行命令并返回最后一行输出,可传数组获取全部结果;2.shell_exec()返回完整输出结果,适合一次性获取;3.system()直接输出命令结果,可接收状态码;4.权限控…...

力扣-17.电话号码的字母组合
题目描述 给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 class Solution {List<String> res new ArrayList<…...

基于SpringBoot解决RabbitMQ消息丢失问题
基于SpringBoot解决RabbitMQ消息丢失问题 一、RabbitMQ解决消息丢失问题二、方案实践1、在生产者服务相关配置2、在消费者服务相关配置 三、测试验证1、依次启动RabbitMQ、producer(建议先清空队列里面旧的测试消息再启动consumer)和consumer2、在producer中调用接口࿰…...

免费插件集-illustrator插件-Ai插件-随机填色
文章目录 1.介绍2.安装3.通过窗口>扩展>知了插件4.功能解释5.总结 1.介绍 本文介绍一款免费插件,加强illustrator使用人员工作效率,实现路径随机填色。首先从下载网址下载这款插件https://download.csdn.net/download/m0_67316550/87890501&#…...
使用 Unstructured 开源库快速入门指南
引言 本文将介绍如何使用 Unstructured 开源库(GitHub,PyPI)和 Python,在本地开发环境中将 PDF 文件拆分为标准的 Unstructured 文档元素和元数据。这些元素和元数据可用于 RAG(检索增强生成)应用、AI 代理…...
白银6月想法
一、市场回顾 2025年5月,SHFE白银主力合约总体呈现出震荡偏强的运行格局。从2025年5月1日至2025年5月30日,白银期货价格整体运行在7944元至8342元区间内,最高价出现在5月22日的8342.0元,最低价则为5月15日的7944元。最终在5月30日…...
OpenCV 滑动条调整图像对比度和亮度
一、知识点 1、int createTrackbar(const String & trackbarname, const String & winname, int * value, int count, TrackbarCallback onChange 0, void * userdata 0); (1)、创建一个滑动条并将其附在指定窗口上。 (2)、参数说明: trackbarname: 创建的…...
船舶事故海上搜救VR情景演练全场景 “复刻”,沉浸式救援体验
船舶事故海上搜救 VR 情景演练系统的一大核心优势,便是能够全场景 “复刻” 海上事故,为使用者带来沉浸式的船舶事故海上搜救 VR 情景演练体验。 在船舶事故海上搜救 VR 情景演练的事故场景模拟方面,系统几乎涵盖了所有常见的船舶事故类型。…...
使用Caddy在Ubuntu 22.04上配置HTTPS反向代理
使用Caddy在Ubuntu 22.04上配置HTTPS反向代理(无域名/IP验证+密码保护) 一、 环境说明 环境说明:测试环境,生产环境请谨慎OS: Ubuntu 22.04.1 LTSCaddy版本:v2.10.0服务器IP: 192.168.3.88(内网)公网IP: 10.2.3.11(测试虚拟)代理端口: 9080后端服务: http://192.168.3…...
无人机目标检测与语义分割数据集(猫脸码客)
UAV 无人机数据集:驱动无人机配送研究迈向新高度 在科技浪潮的迅猛推动下,无人机配送这一新兴物流模式正以前所未有的态势,悄然改变着人们的生活图景。为深入挖掘并优化无人机配送技术,名为 UAV Delivery 的无人机数据集应运而生…...

Web设计之登录网页源码分享,PHP数据库连接,可一键运行!
HTML 页面结构(index.html) 1. 流星雨动态背景 2. 主体界面(包含登录和注册表单) <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

Cursor + Claude 4:微信小程序流量主变现开发实战案例
前言 随着微信小程序生态的日益成熟,越来越多的开发者开始关注如何通过小程序实现流量变现。本文将详细介绍如何使用Cursor编辑器结合Claude 4 AI助手,快速开发一个具备流量主变现功能的微信小程序,并分享实际的开发经验和变现策略。 项目…...
㊗️高考加油
以下是极为详细的高考注意事项清单,涵盖考前、考中、考后全流程,建议逐条核对: 一、考前准备 1. 证件与物品 必带清单: 准考证:打印2份(1份备用),塑封或夹在透明文件袋中防皱湿。身…...

Redis Key过期策略
概述 Redis的Key过期策略是其内存管理系统的核心组成部分,主要包括「被动过期」、「主动过期」和「内存淘汰」三个机制。其中「内存淘汰」相关内容已经在上一篇「Redis内存淘汰策略」中进行了详细的讲解,有信兴趣的同学可以在回顾上一篇文章。本文将着重…...

【C/C++】实现固定地址函数调用
在 C 里,函数地址在程序运行期间通常是固定的,不过在动态链接库(DLL)或者共享库(SO)中,函数地址可能会因为地址空间布局随机化(ASLR)而改变。所以我们想要通过地址直接调…...

多模态大语言模型arxiv论文略读(109)
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning ➡️ 论文标题:Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning ➡️ 论文作者:Wenwen Zhuang, Xin Huang, Xiantao Z…...

性能优化笔记
性能优化转载 https://www.cnblogs.com/tengzijian/p/17858112.html 性能优化的一般策略及方法 简言之,非必要,不优化。先保证良好的设计,编写易于理解和修改的整洁代码。如果现有的代码很糟糕,先清理重构,然后再考…...
bat批量去掉本文件夹中的文件扩展名
本文本夹内 批量去掉本文件夹中的文件扩展名 假如你有一些文件,你想去掉他们的扩展名 有没有方便的办法呢 今天我们就分享一种办法。 下面,就来看看吧。 首先我们新建一个记事本,把名字改为,批量去掉本文件夹中的文件扩展名.txt 然…...
基于ROS2,撰写python脚本,根据给定的舵-桨动力学模型实现动力学更新
提问 #! /usr/bin/env python3from control_planner import usvParam as P from control_planner.courseController import courseLimitationimport tf_transformations # ROS2没有自带tf.transformations, 需装第三方库 import rclpy from rclpy.node import Node from pid_…...

Scrapy爬虫教程(新手)
1. Scrapy的核心组成 引擎(engine):scrapy的核心,所有模块的衔接,数据流程梳理。 调度器(scheduler):本质可以看成一个集合和队列,里面存放着一堆即将要发送的请求&#…...
数据可视化大屏案例落地实战指南:捷码平台7天交付方法论
分享大纲: 1、落地前置:数据可视化必备的规划要素 2、数据可视化双路径开发 3、验证案例:数据可视化落地成效 在当下数字化转型浪潮中,数据可视化建设已成为关键环节。数据可视化大屏的落地,成为企业数据可视化建设的难…...
第五篇:Go 并发模型全解析——Channel、Goroutine
第五篇:Go 并发模型全解析——Channel、Goroutine 一、序章:Java 的并发往事 在 Java 世界中,说到“并发”,你可能立马想到以下名词:Thread、Runnable、ExecutorService、synchronized、volatile。再复杂点,ReentrantLock、CountDownLatch、BlockingQueue 纷纷登场,仿…...