当前位置：首页 > article >正文

图上合成：用于大型语言模型持续预训练的知识合成数据生成

article 2025/11/4 21:39:25

摘要

大型语言模型（LLM）已经取得了显著的成功，但仍然是数据效率低下，特别是当学习小型，专业语料库与有限的专有数据。现有的用于连续预训练的合成数据生成方法集中于文档内内容，而忽略了跨文档的知识关联，从而限制了内容多样性和深度。我们提出了一个合成图（SoG），一个合成数据生成框架，它结合了跨文档的知识关联，以实现高效的语料库扩展。SoG通过从原始语料库中提取实体和概念，构建上下文图，表示跨文档关联，并采用图遍历策略进行知识关联采样。这增强了合成数据的多样性和一致性，使模型能够学习复杂的知识结构并处理稀有知识。为了进一步提高合成数据的质量，我们集成了思维链（CoT）和对比澄清（CC）合成，增强了推理过程和辨别能力。实验表明，在多跳文档问答数据集上，SoG的性能优于SOTA方法，而在阅读理解任务数据集上，SoG的性能优于SOTA方法，这也凸显了SoG更好的泛化能力。我们的工作推进了合成数据生成，并为LLM中的有效知识获取提供了实用的解决方案，特别是在数据可用性有限的领域。

一、简介

近年来，大型语言模型（LLM）在自然语言处理（NLP）领域取得了突破性的进展，证明了从非结构化文本中获取知识并执行复杂的知识密集型任务的能力。这些模型在各种应用中表现出卓越的性能，包括问答系统，机器翻译和会话代理。这一成功很大程度上归功于下一个词的预测目标香农（1951）结合大量的互联网数据基金会（2007）。然而，尽管取得了这些成就，但数据利用率仍然很低：虽然一个13岁的人可以从不到1亿个令牌中获得大量知识Warstadt（2023），但最先进的开源语言模型需要在15万亿个令牌上进行训练Dubey（2024）。

当模型需要从小规模、高价值的语料库中学习时，这种数据效率低下的情况变得尤为明显。随着对专有领域知识需求的增加，需要模型从有限的数据源中有效地获取信息。例如，在医学、法律或特定技术领域等专业领域，可用的数据不仅有限，而且往往是专有的。在这种情况下，传统的大规模预训练方法是不适用的，因为没有足够的训练数据。

此外，最近的研究表明，目前的预训练模式的局限性。例如，模型在学习简单关系时会遇到困难，并且需要大量重复实例Allen-Zhu & Li（2024）.当处理长尾数据或稀有知识时，这些问题变得更加严重，因为这些信息在大规模语料库Kandpal（2023）中出现的频率极低。

为了解决从小规模语料库中有效获取知识的挑战，已经提出了合成数据生成方法用于模型的持续预训练。他们的目标是通过生成多样化的合成语料库来扩展原始的有限数据，从而提高模型的学习效率和性能。例如，EntiGraph方法将文本语料库分解为实体列表，并生成关于实体之间关系的描述，试图填充语料库的底层知识图Yang et al.（2024）。然而，如图1b所示，这种方法主要关注文档内的内容，忽略了文档间的知识关联。这导致合成数据的内容多样性和知识深度的限制。实际上，知识往往是跨文档和领域相互关联的。仅仅依靠单个文档中的实体组合无法捕获知识的全部范围。此外，缺乏跨文档的合成数据限制了模型处理复杂的多跳问题的能力，这些问题需要集成来自多个文档的信息以获得答案。例如，在图1a的上下文图中，第一个遇到的文献主要描述了X公司2023年的积极财务报告和积极的市场计划。然而，依靠与实体"应收账款"相关的跨文档信息--"应收账款增长超过30%的公司面临特殊的坏账风险"--我们能够对文献有更广泛的理解：尽管净现金流为正，建议人们对X公司35%的应收账款增长相关的潜在坏账风险特别谨慎。跨文档信息可以整合主题的多维视角（正反两方面），构建渐进式的信息链，揭示隐含现象，实现"1 + 1> 2"的知识发现。

图1：所提出的用于合成生成的上下文图与其他生成策略的比较：a.SoG中的上下文图。B.EntiGraph中的文档内图形，其中知识视图被限制在单个文档中。C.传统的合成生成方法，难以融入额外的知识。

为此，我们提出了图上合成（SoG）框架-一种上下文图增强的合成数据生成方法，旨在为LLM 连续预训练提供有效的解决方案。SoG的核心思想是通过构建和利用上下文图来有效地扩展原始语料库，从而融合跨文档的知识关联。

具体来说，SoG包括两个关键组件：（1）上下文图构建和跨文档采样：我们从原始语料库中提取的实体和概念构建上下文图，表示跨文档知识关联。使用此图，我们应用两阶段的跨文档采样策略：第一个随机游走引导的文档检索，以实现跨文档采样，提高数据的多样性，同时保持一致性和知识的关联。这有助于模型学习复杂的知识结构，特别是对于长尾实体。其次，二次抽样和控制分配有助于平衡知识分布，并支持灵活的数据定制。（2）结合思维链和对比澄清合成：我们将联合收割机结合思维链和对比澄清来提高合成数据的质量。CoT引导模型生成逻辑链，提高深度和可解释性，而对比生成则增强了合成数据中的判别知识。

通过大量的实验，我们在多跳文档问题回答上的有效性超过了现有的SOTA方法，并且在长上下文阅读理解数据集上达到了相当的性能。同时，证明了该方法比SOTA方法具有更好的泛化能力.SoG框架的引入标志着LLM在合成数据生成和继续相关（CPT）方面取得了重大进展，为未来的研究提供了新的方向和可能性。我们的工作不仅推动了合成数据技术的发展，同时也为优化LLM的训练提供了新的视角。

二、相关工作

本节概述了用于大型语言模型（LLM）预训练的合成数据生成的最新发展。合成数据生成已成为一个重要的研究领域，人们提出了各种策略来增强训练数据集的多样性和有效性。该领域的一个重要趋势是采用分层提示来生成有针对性的合成内容。例如，Eldan & Li（2023）利用基于API的LLM来创建由特定关键字驱动的儿童故事，这表明即使是较小的语言模型，在对此类数据集进行预训练时也可以产生流畅的叙述。Ma等人（2024）通过使用模块化的多处理流水线，沿着将专家知识以少量学习的形式注入到每个子模块中，实现了对法律的领域中复杂数据的自动分析和注释。这种方法用于预训练和微调。这强调了分层提示在产生有效和相关的训练数据方面的潜力。

另一方面，Gunasekar等人（2023）通过对主题、受众和函数名称等属性进行条件反射，生成了不同的教育内容，如教科书和编码练习。该方法生成的数据集支持了稳健LLM的开发，后续研究对此进行了进一步探讨（Li等人，2023年; Javaheripi等人，2023年）的报告。然而，这些方法往往因缺乏对公众数据集的可访问性和提示的策略而受到阻碍，限制了可重复性和更广泛的社区进展。类似地，Maini等人（2024）关注于重新表述现有文件以生成新的培训数据，报告通过这些修改版本提高了培训效率。

虽然这些努力大大推进了该领域，但它们主要集中在生成文档内内容，从而忽视了跨文档知识关联的重要性。这种疏忽限制了合成内容的多样性和深度，这对于开发能够理解和整合复杂知识结构的LLM至关重要。目前对文件内部生成的关注突出表明，需要有新的方法，通过综合数据来弥补这些差距，这些数据不仅要保持一致性，而且要涵盖更广泛、相互关联的知识领域。

目前的努力（梅克伦堡等人，2024年; Yang等人，2025）探索用于特定任务微调的合成QA生成，反映了将知识感知策略纳入数据生成的新兴兴趣。尽管此类策略已证明对特定的质量保证任务有好处，但它们对更通用的任务的适用性仍然有限，这表明可能可以通过不受任何特定下游应用程序限制的新数据生成方法来填补这一空白。此外，Ovadia等人（2023）使用维基百科文章的合成释义探索了Llama 2模型的持续预训练，在性能改进方面取得了混合结果。这表明仅依靠释义技术来增强模型知识的局限性，并强调需要研究更强大的方法，以生成更多样化和更深入的合成数据。

三、方法

我们提出了SoG框架，上下文图增强的合成数据生成方法，旨在解决现有方法中发现的内容多样性和知识关联的限制。该框架通过利用跨文档、知识相关的采样来实现这一点，从而实现跨多个来源的信息集成。此外，它进行了一个组合的数据合成方法的基础上的思维链推理和对比澄清分析，提高了生成模型的推理和区分复杂的知识的能力。以下部分提供了SoG框架的详细概述，重点介绍了三个核心组件：上下文图构造、跨文档采样和生成策略。

SoG的总体生成过程和上下文图构建如图1a和图2所示。

图2：上下文图构建和采样

3.1上下文图构造

3.1.1实体提取

首先，给定语料库C = {di}，i ∈ [0，N），每个文档di被分成若干段落pi，j，其中j表示文档i的第j段。随后，我们提示LLM将每个段落中的关键实体识别为Ei，j ∈ E，其中E表示从整个语料库C中提取的实体。

3.1.2实体-上下文映射

对于每个实体ek ∈ E，我们收集它出现的所有段落，表示为Pk = {pi，j| ek ∈ Ei，j，Ei，j}.这形成实体-段落映射M：ek → Pk，其中M将每个实体ek与其对应的段落集合Pk相关联。

3.1.3上下文图

上下文图G被定义为G =（e，E），其中：e表示对应于所有实体的节点的集合，并且

表示实体之间的隐式上下文连接的边的集合。

3.2跨文档采样

3.2.1 初始化

为了提高多个文档之间的内容多样性和知识关联，我们实现了一个跨文档的采样策略，遍历构造的上下文图G =（G，R）。从根实体eroot ∈e开始，我们执行广度优先搜索（BFS）遍历来收集跨文档链接相关实体及其关联文本段落的多跳路径。我们将遍历G中的所有节点作为根实体。

此外，对于每个根eroot ，我们使用实体上下文映射M遍历其所有段落，该映射将实体与它们出现的段落相关联。如果一个实体出现在大量的段落中，我们会限制开始段落的数量通过随机采样到S（预定义的超参数）。这一步是至关重要的，因为选定的起始段落p（0）在遍历过程中用作计算嵌入相似性的参考。

简单地说，每个实体都充当根根。然后，根据来自映射M的段落Proot的数量，执行最多S步的图遍历。

3.2.2上下文图遍历

在每次遍历中，逐步达到指定的深度D，我们探索当前实体e的相邻实体。邻居定义为：

其中（e，e′）指示上下文图中的边，该边表示实体e和e′之间的上下文连接。

为了优先考虑具有相关上下文的相邻实体，我们引入了基于相似性的选择机制。对于每个相邻实体e′，我们计算与根段关联的根段q（0）和与e′关联的候选段c之间的相似性得分Fsim（q（0），c）。相似性函数Fsim（）可以基于语义相似性度量，诸如嵌入的点积：

我们选择具有最高分数的前W个段落，连同它们对应的实体一起沿着，以包括在采样路径中。

在D步之后，每次遍历都会产生多条源自（eroot，p（0））的路径，每条路径表示跨不同文档的一系列上下文连接的实体及其关联的文本段落。形式上，对于根实体eroot，我们构造一组路径P = {P}，其中每个路径P被定义为：

通过聚合这些跨文档路径的信息，我们通过更丰富和更多样化的跨文档知识组合实现了更大的多样性。此外，路径有效地捕获和反映了跨越多个文档的知识元素之间的隐式上下文关联。

3.2.3二次抽样和控制分配

在进入生成阶段之前，关键是要考虑生成过程中原始语料的利用率和覆盖率，以平衡知识分布，减少冗余，补偿长尾知识。因此，我们在P上应用二次采样来选择性地收集用于生成的路径。具体来说，我们通过考虑每条路径的利用率之和，优先将包含出现频率较低的实体的路径包含在二次采样路径集中。该策略确保知识发生的分布更加均匀，从而减轻偏差并促进多样性采样路径内，从而提高整体生成质量和效率。

为了进一步细化对合成数据大小的控制，我们根据原始语料的覆盖率迭代地将二次采样路径分配到子集中，其中每个子集作为一个独立的单元选择最大语料覆盖率（> r）和最平衡的段落频率。这种模块化方法允许在生成过程中进行数据定制的无缝灵活性：根据所需的合成数据量，我们可以联合收割机组合适当数量的子集以支持各种实验配置。具体地，由于随着采样迭代的进行，稀疏实体和相关联的文本的可用性降低，在第一次迭代中获得的子集应该具有原始语料库的最高覆盖率r。随着迭代次数的增加，在固定的样本大小下，后续子集的覆盖率将逐渐降低。我们以第一个子集的样本量和语料覆盖率r为参考，根据当前迭代的采样率差△r = r−r′ /r，对利用率最低的实体文本进行重新采样和重用，以完成当前路径子集。

3.3生成策略

给定一条路径，我们设计提示来指导LLM基于沿着路径的实体的文本块生成多样化且可靠的合成数据

3.3.1生成提示

为了从聚合的跨文档路径中生成连贯和信息丰富的内容，我们设计了两种生成策略：思想链（CoT）和互补策略对比澄清（CC），如图5和图6所示。

我们观察到CoT生成方法显著提高了训练性能。CoT作为一种更通用的生成策略，适用于所有具有图路径连接的实体。然而，对于具有稀疏图连接的实体（图中缺乏丰富关系的实体），CoT的有效性可能会受到限制，因为可用路径较少，并且可能无法提供足够的上下文来生成与其他实体的全面关系。

解决这一挑战，我们应用CC合成来补充这些稀疏实体的CoT合成。与CoT不同，CC不依赖于图路径连接，即使与图关系有限的实体也能有效地工作。具体来说，在前面提到的二次采样过程中，我们不断监测当前语料覆盖率r′。当样本总数超过超参数l且r′未达到r时，基于它们的利用率为△r最少采样的实体触发CC。CC将随机配对这些实体而不进行替换。如果存在N个最少采样实体，则将为CC生成构建N/2路径。通过这样做，我们丰富了生成过程，帮助平衡由实体的长尾分布引起的模型偏差。此外，CC可以明确澄清实体之间的差异和相似之处，在他们的属性和背景知识。这可以提高模型对稀疏实体的区分能力，从而更深入地了解它们的细微差别。

CoT生成：

我们促使LLM充分利用每个文本片段中的关键信息，并建立一个循序渐进的叙述，每个文本片段在逻辑上都会导致下一个，形成一个清晰的因果流。主要目标是将来自各种来源的信息综合成逻辑上相互关联的故事情节，确保生成的内容连贯一致，并明确阐述各片段之间的关系。

具体来说，叙述被结构化为不同的阶段--包括开始、发展、转折点和结论--并具有自然的过渡，保留了因果关系的逻辑流程。根据构建的叙述，我们提示LLM制定需要了解整个信息链才能回答的问题。答案以一种思维链的方式提供，一步一步地打破推理过程，得出最终结论。这种设计可以提高可解释性，并提供对合成内容的更深入了解。

对比澄清：

我们提示LLM生成对比分析，对比和比较多个文本片段。这种方法旨在促使LLM明确分析和突出信息之间的隐含细微差别或缺乏直接联系，确保这种对比在合成数据中得到清晰反映。通过细致的对比分析，该模型能够有效地发现和呈现具有区别性的信息，丰富了合成内容的包容性和多样性。

具体来说，LLM被指示单独检查每个实体或片段，合成一个深思熟虑的对比叙述，并在结论部分总结比较见解。如果没有直接的相似之处，叙述就转向强调每个实体在其各自背景下提供的独特贡献或观点。生成的输出保持了客观和分析的基调，避免了在不相关的片段之间强行连接的任何尝试。

四、实验

为了全面评估所提出的图上合成（SoG）框架的有效性和适用性，本节通过一系列精心设计的实验来探索其性能。实验旨在评估SoG在四个主要方面的贡献：第一，在SoG中纳入跨文档知识关联在多大程度上增强了多样性和深度的与文档内的合成数据相比（RQ 1）？第二，SoG的合成数据是否在不同大小的语言模型中提供一致的性能增益（RQ 2）？第三，SoG在多大程度上可以缓解原始语料库中的长尾知识问题（RQ 3）？SoG合成适用于哪些场景？(RQ4)?

4.1 数据集

为了回答RQ，我们选择了两个数据集，MultiHop-RAG和一个财务报告语料库：

MultiHop-RAG（MHRAG）Tang & Yang（2024）专门设计用于挑战LLM的多跳推理能力。它包括从2023年9月至12月期间发表的新闻文章中构建的查询，其中包括现有LLM训练截止日期以外的信息，确保需要合成数据来填补知识空白。此外，每个查询都需要模型来集成来自多个文档的证据，模仿知识分散在各个来源的真实场景。现有的LLM，甚至是RAG系统，经常在这些任务中挣扎，在需要整合和推理分散证据的任务中表现不佳。该数据集是一个理想的基准，用于评估SoG生成的合成数据如何使LLM能够利用其内部知识有效地处理复杂的多跳推理。
QUALITY Pang et al.（2022）是一个用于长文档理解的多项选择问答数据集。与之前的文章不同，这些问题是由阅读整篇文章的贡献者撰写和验证的，而不是依靠摘要或摘录。为了与最先进的CPT合成数据方法进行公平比较，我们也选择了这个数据集进行评估。

4.2基线和指标

我们选择直接QA（LLM零杆回答）和最先进的方法，EntiGraph杨等人。（2024）作为评估的基线。MHRAG和QUALITY的评估指标分别为精确匹配（EM）和准确度（Acc）。

4.3实验细节

在我们的生成设置中，我们使用GPT-4 o-mini作为生成模型。温度设定在0.7。我们利用语义分块1来分割长上下文。语义嵌入的计算采用bge-small-en-v1.5。在所有实验中，我们继续预训练LLM，上下文长度为2048，批量大小为64。我们对总步骤的10%应用线性学习率预热，然后是峰值学习率为5e-6的余弦衰减。我们在BF 16精度中执行2个时期的全参数训练，使用每设备批量大小为2，并在4个步骤中累积梯度。此外，在4.5×原始语料大小范围内，CoT的采样路径为单跳长度，超过4.5 ×原始语料大小范围，CoT的采样路径为两跳长度。对于质量，我们遵循EntiGraph中的评估设置。对于MHRAG，我们在1，000个QA对的样本上评估了具有零激发提示的CPT模型

4.4主要实验结果

为了回答RQ 1和RQ 2，我们比较了SoG和以文档内为中心的方法EntiGraph在两个数据集上使用不同数量的合成数据进行连续预训练（CPT）的有效性。结果如图3所示。对于MHRAG，随着SoG合成数据量的增加，模型性能稳步提高。相比之下，EntiGraph合成数据提供的收益有限。当EntiGraph数据大小超过原始语料库的1.5倍时，由于其对文档内关联的依赖，性能会趋于稳定甚至下降。这种限制阻碍了多样化和更深层次的生成，特别是对于需要跨源知识整合的复杂任务。MHRAG上的巨大性能差距凸显了SoG在上下文图中跨文档知识集成的优势，它揭示了隐含的实体关系，并实现了更丰富的推理。此外，SoG最显著的性能提升发生在合成数据量在原始语料库的0到1.5倍之内，表明即使是中等数量的SoG数据也有效地增强了大型模型的性能。

图3：SoG和EntiGraph的性能趋势图

尽管SoG在QUALITY数据集上表现出稍弱的性能，但其结果在很大程度上与EntiGraph相当。这种适度的下降主要源于SoG在设计上强调了跨任务的灵活性和可推广性，这些任务依赖于大型互联语料库。相比之下，QUALITY提出了一个独特的挑战：每个文件都是一个独立的叙述，共享知识或跨文件链接最少。为了更好地配合这项任务，我们将SoG的路径采样策略严格限制在单个文档内。为了与这一特点保持一致，我们将SoG的抽样严格限制在单个文档内。尽管SoG的核心优势，即跨文档知识聚合，在该数据集上没有得到充分利用，但它的表现仍然与SOTA方法相当。这强调了我们的SoG更好的泛化能力。

4.5消融研究

4.5.1不同生成策略的影响

不同生成策略的合成数据分布（RQ3）：

原始语料中实体的长尾问题可能导致学习不足，从而影响模型的性能和准确性。此外，长尾问题可能导致模型过度依赖高频实体，并进一步降低其识别和理解稀有实体的能力。为了研究SoG合成数据是否可以缓解原始文档中实体的长尾问题，我们分析了原始语料库和不同大小的SoG合成语料库中的实体分布。

如图4b、4a和4c所示，原始语料库中的实体表现出显著的长尾分布。在仅使用CoT策略（通过优先考虑出现次数最低的实体来选择路径）的采样过程中，整体分布变得更加集中。然而，长尾趋势依然存在。当引入对比澄清（CC）策略来补充CoT（基于抽样利用率定期增强长尾知识）时，所有长尾实体都被充分覆盖，总体分布开始接近正态分布。这显著解决了大多数实体出现次数不足的问题，并提高了多样性，表明我们的SoG框架可以有效地平衡合成数据的分布。

图4：不同数据集的实体分布

不同生成策略的训练表现：

CC是专门为增强LLM对长尾实体的理解而设计的，不适合单独应用于整个语料库。因此，与CoT产生的数据相比，单独通过CC产生的合成数据往往质量较低。CoT主要侧重于通过跨文档集成知识来生成额外的有用信息。因此，CoT本身就可以实现足够的合成数据质量。然而，由于其频率较低，长尾实体往往受到CoT的关注较少。如表1中的MHRAG结果所示，组合两种生成策略可以进一步提高CPT训练的合成数据的有效性。有趣的是，在QUALITY数据集上，单独使用CoT的表现优于组合策略。我们认为这是因为QUALITY中的每个QA对都基于一本小说，并且不涉及跨文档知识。这些任务往往不太关注长尾实体，而更多地关注文档中的主要情节和人物。在这种情况下，CoT策略自然与故事的主要内容保持一致。对于不同的场景，我们的方法允许灵活调整SoG中的采样和合成策略，以更好地与原始语料库的特征和特定的任务要求保持一致。附录A.2中提供了针对质量的具体SoG配置调整。

表1：不同方法在Llama-3-8B-Instruct上的性能

4.6 CPT与RAG

在本实验中，我们的目的是回答是否可以用基于SoG的CPT获得的参数化知识来代替检索增强生成（retrievalaugmentedgeneration，RAG）中的非参数化外部知识。具体而言，我们采用Llama-3-8B-Instruct作为基本模型，并在三种配置下（LLM + SoG CPT、LLM + RAG和LLM + SoG CPT + RAG）对MHRAG任务的性能进行了评估.从表2中的结果可以看出，RAG和CPT分别为LLM带来了显著且相似的性能提升。有趣的是，在已经由合成CPT增强的LLM之上应用RAG不会导致进一步的改进。实际上，此组合设置的性能比单独使用任一种方法的性能更差。我们认为，尽管RAG在性能上仍具有一定的优势，但这种优势被合成CPT的更广泛的好处所超过，包括消除检索的需要，实现更短的输入窗口以获得更高的效率，并在长期内节省相当大的计算成本（RQ 4）。最后，另一个有趣的观察结果是，在两个数据集上，只有原始语料库上的模型CPT的性能比原始模型差，参见图3中的原始CPT。这可能是由于原始模型的预训练数据缺乏数据多样性和分布差异。这进一步突出了合成CPT的重要性。基于这一讨论，虽然还没有准备好得出结论，RAG可以完全取代CPT，我们的结果证明了参数知识的巨大潜力。

表2：CPT与RAG结果：LLM表示Llama-3-8B-Instruct。CPT表示SoG合成CPT。零射击表示直接回答。

五、不足之处

虽然我们的方法显示出有希望的结果，但仍然存在一些限制。首先，尽管我们对MHRAG中的采样路径长度的设置进行了实验分析，但该设置依赖于任务，并且为不同的数据集确定适当的设置可能需要经验调整。其次，继续预训练可能会引入不稳定的LLM输出，这需要额外的训练技术Ke et al.（2023）。我们把这些留给未来的工作。

六、结论

我们提出了一种基于图的合成（SoG）框架，它是一种上下文图增强的合成数据生成方法，有效地结合了跨文档的知识关联，联合平衡抽样与思维链和对比澄清生成策略。实验结果表明，SoG在多跳QA任务上实现了SOTA性能，同时表现出更好的泛化能力。我们的工作突出了SoG作为持续预训练的可扩展和高效解决方案的潜力，为优化知识密集型领域的大型语言模型训练提供了新的方向。

A 附录

A.1 路径长度的影响

我们进行了比较，以评估不同采样路径长度选择对CPT训练性能的影响，见表3。1跳路径可以生成高达5倍的数据量;因此，仅报告4.5倍的结果。通常，1跳设置可实现最佳性能。从2跳路径合成的数据也表现出显著的性能。然而，3跳路径的性能相当弱。我们认为，这可能与数据集任务的固有难度有关。此外，考虑到构建多跳推理任务的挑战，大多数推理任务都是在两跳内设计的。

表3：采样路径长度对CPT训练性能的影响

A.2 QUALITY配置调整明细

由于QUALITY中的每个问题都集中在单个文章上，因此我们在多跳路径采样过程中施加了一个约束：采样路径上的所有实体沿着都必须映射到同一个文章ID，以确保检索到的文本来自同一篇文章。我们优先对1跳路径进行采样。此外，在合成过程中，我们显式地通知LLM每个输入块所属的文章标题。

摘要