当前位置：首页 > news >正文

Apache Lucene 7.0 - 索引文件格式

news 2026/5/19 13:47:09

Apache Lucene 7.0 - 索引文件格式

文章目录

Apache Lucene 7.0 - 索引文件格式
- 介绍
- 定义
- 反向索引
- 字段类型
- 段
- 文档数量
- 索引结构概述
- 文件命名
- 文件扩展名摘要
- 锁文件

原文地址

介绍

这个文档定义了在这个版本的Lucene中使用的索引文件格式。如果您使用的是不同版本的Lucene，请查询对应版本的文档。

本文档试图提供Apache Lucene文件格式的高级定义。

定义

Lucene的基本概念是索引、文档、字段和术语（分词后的检索词）。

索引包含一系列文档。

文档是一系列字段。

字段是一个命名的术语序列。
术语是一个字节序列。
两个不同字段中的相同字节序列被认为是不同的术语。因此，术语被表示为一对:命名字段的字符串和字段内的字节。

反向索引

索引存储有关术语的统计信息，以便使基于术语的搜索更有效。Lucene的索引属于被称为倒排索引的索引族。这是因为对于一个术语，它可以列出包含它的文档。这与文档列出术语的自然关系相反。

字段类型

在Lucene中，字段可以被存储，在这种情况下，它们的文本以一种非反向的方式逐字存储在索引中。倒置的字段称为索引。一个字段可以被存储和索引。

字段的文本可以被标记成要索引的术语，或者字段的文本可以按字面意思用作要索引的术语。大多数字段都是标记化的，但有时对某些标识符字段进行逐字索引是有用的。

有关Field的更多信息，请参阅Field java文档。

段

Lucene索引可以由多个子索引或段组成。每个段都是一个完全独立的索引，可以单独搜索。指数的演变:

为新添加的文档创建新的段。

合并现有段。
搜索可能涉及多个段和多个索引，每个索引可能由一组段组成。

文档数量

在内部，Lucene通过一个整数文档号来引用文档。添加到索引中的第一个文档编号为0，随后添加的每个文档的编号都比前一个文档大1。

注意文档的编号可能会改变，所以在Lucene之外存储这些编号时要小心。在以下情况下，数字可能会发生变化:

存储在每个段中的数字仅在该段内是唯一的，并且必须在将其用于更大的上下文中之前进行转换。标准技术是根据每个段中使用的数字范围为每个段分配一个值范围。要将文档号从段转换为外部值，需要添加段的基本文档号。为了将外部值转换回特定于段的值，段由外部值所在的范围标识，并减去段的基值。例如，可以组合两个5个文档段，使第一个段的基值为0，第二个段的基值为5。第二部分的文档3的外部值为8。

当文档被删除时，在编号中会产生空白。随着索引在合并过程中的演变，这些最终会被删除。在合并段时删除已删除的文档。因此，新合并的段在编号上没有间隙。

索引结构概述

每个段索引维护如下内容:

Segment info.它包含关于一个段的元数据，例如文档的数量，它使用的文件。
Field names. 它包含索引中使用的字段名称集。
Stored Field values. T对于每个文档，这包含一个属性值对列表，其中属性是字段名。它们用于存储关于文档的辅助信息，例如文档的标题、url或访问数据库的标识符。存储的字段集是在搜索时为每个命中返回的内容。这是由文档号输入的。
Term dictionary. 包含所有文档的所有索引字段中使用的所有术语的字典。字典还包含包含该术语的文档数量，以及指向该术语的频率和接近度数据的指针。
Term Frequency data. 对于字典中的每个术语，包含该术语的所有文档的编号，以及该术语在该文档中出现的频率，除非省略频率(IndexOptions.DOCS_ONLY)
Term Proximity data. 对于字典中的每个术语，表示该术语在每个文档中出现的位置。请注意，如果所有文档中的所有字段都省略位置数据，则不存在此方法。
Normalization factors. 对于每个文档中的每个字段，存储一个值，该值乘以该字段的命中分数。
Term Vectors. 对于每个文档中的每个字段，都可以存储术语向量（有时也称为文档向量）。术语向量由术语文本和术语频率组成。要在索引中添加术语向量，请参见 Field 构造函数
Per-document values.与存储值一样，这些值也是按文档编号键入的，但通常是为了快速访问而加载到主存储器中。存储值一般用于搜索结果的汇总，而每个文档值则适用于评分因子等。
Live documents. 可选文件，说明哪些文件是实时文件。
Point values. 可选的一对文件，记录维度索引字段，以实现快速数值范围过滤和大数值，如 BigInteger 和 BigDecimal（1D）以及地理形状交叉（2D、3D）。

文件命名

属于一个段的所有文件具有相同的名称，但扩展名不同。扩展名对应于下面描述的不同文件格式。当使用复合文件格式(小段的默认格式)时，这些文件(段信息文件、锁文件和删除文档文件除外)被折叠成一个.cfs文件(详细信息见下文)。

通常，索引中的所有段都存储在单个目录中，尽管这不是必需的。

文件名永远不会被重用。也就是说，当任何文件保存到目录时，它被赋予一个从未使用过的文件名。这是使用简单的生成方法实现的。例如，第一个片段文件是segments_1，然后是segments_2，等等。生成是一个以字母数字(基数36)形式表示的连续长整数。

文件扩展名摘要

下表总结了 Lucene 中文件的名称和扩展名：

Name	Extension	Brief Description
`Segments File`	segments_N	存储有关提交点的信息，N随着commit的次数增长而增长
Lock File	write.lock	写入锁文件，可防止多个 IndexWriters 向同一文件写入。
`Segment Info`	.si	记录对应段的元数据
`Compound File`	.cfs, .cfe	合并当前段内所有文件生产合并文件，.cfe扩展后缀的合并文件用于记录合并之前段对应的所有文件的元信息，.cfs扩展后缀的合并文件存储的是合并前段内所有文件的实际数据
`Fields`	.fnm	记录index对应所有字段的信息
`Field Index`	.fdx	doc通过docId来标识被存储在.fdt的文件中，方便快速的查询到docid对应的数据需要对doc数据做相关的索引位置记录
`Field Data`	.fdt	存储doc数据的文件，只有设置Field.Store.YES的field对应的数据才会被存储在该文件中
`Term Dictionary`	.tim	术语词典，记录术语信息
`Term Index`	.tip	term被记录存储在.tim中，当term数据很大时需要对term进行索引方便快速定位到对应的term
`Frequencies`	.doc	记录包含每个术语的文档列表以及频率
`Positions`	.pos	记录术语在索引中出现的位置
`Payloads`	.pay	记录额外的每个位置元数据信息，如字符偏移和用户有效载荷
`Norms`	.nvd, .nvm	nvd保存索引文档字段的加权因子的数据，搜索时计算相关性的一个系数，nvm保存索引文档字段加权因子的元数据
`Per-Document Values`	.dvd, .dvm	dvd保存索引文档的评分因子，也用于存储docValues类型的字段数据，即列存储（正向索引），dvm保存索引文档的评分因子的元数据
`Term Vector Index`	.tvx	将偏移量存入文件数据文件
`Term Vector Data`	.tvd	包含术语向量数据。
`Live Documents`	.liv	有关实时文件的信息
`Point values`	.dii, .dim	保存索引点（如果有）

锁文件

默认存储在索引目录中的写锁名为“write.lock”。如果锁目录与索引目录不同，那么写锁将被命名为“XXXX-write”。其中XXXX是从索引目录的完整路径派生的唯一前缀。当这个文件存在时，写程序当前正在修改索引(添加或删除文档)。这个锁文件确保一次只有一个写入器在修改索引。