当前位置：首页 > news >正文

说一说mongodb组合索引的匹配规则

news 2026/5/31 23:38:45

一、背景

有一张1000多万条记录的大表，需要做归档至历史表，出现了大量慢查询。
查询条件是

"classroomId": {$in: ["xxx", "xxx", ..... "xxx","xxx", "xxx" ] }

耗时近5秒，且是全表扫描

在这里插入图片描述
为什么没有使用到任何索引呢？

请看该集合创建的索引有哪些：

在这里插入图片描述
建立了两个组合索引userId_1_classroomId_1_isDelete_1和userId_1_classroomId_1,

但是二者的重复度极高。（可以删掉userId_1_classroomId_1_isDelete_1，再新建一个单索引classroomId_1）

二、组合索引

1、最左匹配原则

MongoDB 中组合索引遵循最左匹配原则，即在检索数据时从复合索引的最左边开始匹配。

举例来说，上文的组合索引userId_1_classroomId_1，对于查询条件 {“userId”: “xxx”, “classroomId”: “xxx”} 可以匹配该组合索引，因为查询条件包含了索引的最左前缀；而对于查询条件 {“classroomId”:“xxx”} 则无法匹配该组合索引。

但是对查询条件 {“userId”: “xxx”} 则可以匹配该组合索引。

所以，我们需要再新建一个单索引classroomId_1。

2、ESR规则

ESR（Equality, Sort, Range）规则是创建高效组合索引的一个重要原则

Equality（相等）：将需要精确匹配的字段放在索引的前面。这些字段用于过滤数据，减少需要扫描的文档数量。例如查询 db.xxx.find({“classroomId”: “GM03DI890”}) 中，classroomId 字段是精确匹配，应放在索引的前面。
Sort（排序）：排序操作应放在精确匹配字段之后。因为精确匹配可以减少需要排序的文档数量，且这样可以让 MongoDB 进行非阻塞排序。例如查询 db.xxx.find({“classroomId”: “GM03DI890”}).sort({createdOn: 1}) 中，createdOn 字段用于排序，应放在 classroomId 字段之后。
也就是说，组合索引的顺序应该是classroomId_1_createdOn_1
Range（范围）：范围查询字段应放在索引的最后面。范围查询会扫描一定范围内的数据，将其放在最后可以提高查询效率。例如查询 db.xxx.find({price: {$gte: 15000}}) 中，price 字段是范围查询，应放在索引的最后。

三、OR查询

如果是OR查询呢？

还是举如下例：

{"$or": [{"auth": 1},{"totalIds": {"$in": [1002482]}}]
}

应该分别对 auth 和 totalIds 字段创建单独的索引，而不是创建一个组合索引。

db.xxx.createIndex({"auth":1}, {"name":"auth_1","background":true})
db.xxx.createIndex({"totalIds":1}, {"name":"totalIds_1","background":true})

这是因为 MongoDB 在使用 or 查询时，如果每个子句都有自己的索引，那么 MongoDB 可以分别使用这些索引来执行查询，然后合并结果。这通常比创建一个包含所有字段的复合索引更有效。

1、区分度问题

区分度低的字段-- auth 字段的值只有两个（0 和 1），区分度很低。通常情况下，区分度低的字段单独建立索引的收益较小，因为索引的目的是快速定位数据，而区分度低的字段在索引中并不能有效减少需要扫描的数据量。

但我们还得考虑另外一个因素。

2、查询频率

如果 auth 字段在查询中非常频繁地被使用，即使区分度低，建立索引也可能带来一些性能提升。例如，如果大部分查询都包含 auth 字段，那么建立索引可以减少全表扫描的次数。

对于 or 查询，MongoDB 会分别使用每个子查询的索引，然后合并结果。

因此，为 auth 和 totalIds 分别建立单独的索引是合理的。这样可以确保每个子查询都能高效地使用索引。

四、执行计划

使用 explain 分析查询计划：

可以通过 explain 方法来分析查询计划，查看是否使用了索引以及索引的使用情况。

{"planSummary":"IXSCAN { totalIds: 1 }, IXSCAN { auth: 1 }"}

db.xxx.find({"$or":[{"auth":1},{"totalIds":{"$in":[636622]}}]}).explain("executionStats")

在这里插入图片描述

从执行计划可以看到，现在的OR查询能够使用到这两个单独索引。

五、总结

本文在OR查询中使用了分别创建两个单独索引来提高查询效率。

这里有一个问题，auth字段的区分度低，而totalIds字段的区分度高。

在索引及文档扫描的时候，整个查询的效率是取决于auth字段，尽管totalIds查询速度快。

在这里插入图片描述
上述OR查询语句，索引扫描行数以及文档扫描行数均为18000多。

在这里插入图片描述

从中也可以看出，区分度高和低，影响的检索效率高低。

改进：

从业务角度，考虑将auth查询与非auth查询分开来查询，这样就不会有OR查询场景
从数据库的角度，可以考虑分两张表，当要查询auth=0还是1的时候，从小表查询；如果没有auth查询，就可以使用totalIds字段，由于其区分度高，可以大大提高检索效率。

相关文章：

说一说mongodb组合索引的匹配规则

一、背景有一张1000多万条记录的大表，需要做归档至历史表，出现了大量慢查询。查询条件是 "classroomId": {$in: ["xxx", "xxx", ..... "xxx","xxx", "xxx" ] }耗时近5秒，且…...

编程日记 2025/1/14 10:52:58

Maven核心插件之maven-resources-plugin

前言 Maven 插件是 Maven 构建系统的重要组成部分，它们为 Maven 提供了丰富的功能和扩展能力，使得 Maven 不仅是一个构建工具，更是一个强大的项目管理平台。在 Maven 项目中，插件的使用通常通过配置 pom.xml 文件来完成。每个插件…...

编程日记 2025/1/14 10:49:51

C++ 鼠标轨迹算法 - 防止游戏检测

一.简介鼠标轨迹算法是一种模拟人类鼠标操作的程序，它能够模拟出自然而真实的鼠标移动路径。鼠标轨迹算法的底层实现采用C/C语言，原因在于C/C提供了高性能的执行能力和直接访问操作系统底层资源的能力。鼠标轨迹算法具有以下优势： 模拟…...

编程日记 2025/1/14 10:45:45

网络学习记录6

查找下一跳和流量如何通过，是网络路由的基本概念。下面我会尽量用通俗易懂的方式来解释这个过程。查找下一跳数据包的目的地：当一个数据包在网络中传输时，它的目标是一个特定的IP地址。路由表的作用：路由器有一个叫做路由表的东…...

编程日记 2025/1/14 10:44:43

【数学】概率论与数理统计（四）

文章目录 [toc] 分布函数分布函数性质离散型随机变量的分布函数连续型随机变量的分布函数示例1问题解答正态随机变量示例问题解答示例2问题（1）（2） 解答（1）（2） 随机变量函数的分布离…...

编程日记 2025/1/14 10:41:37

小结：华为交换机常用的操作指令

以下是华为交换机常用的操作指令总结，按功能分类说明： 1. 系统管理进入系统视图system-view返回用户视图quit保存配置save查看当前配置display current-configuration重启设备reboot2. 用户管理配置用户密码local-user <username> password ir…...

编程日记 2025/1/14 10:37:32

轻松学51单片机--基于普中科技开发板练习蓝桥杯及机器人大赛等（8-DS1302实时时钟）

1、DS1302 DS1302是一款实时时钟芯片，可以用于实时计时和日期显示等应用。它具有低功耗、精度高、芯片体积小等特点，非常适合嵌入式系统和小型电子设备中使用。 DS1302具有多个功能和特性，包括： 时钟功能：可以显示年…...

编程日记 2025/1/14 10:30:24

《Java核心技术II》并行流

并行流从集合中获取并行流：Stream paralleWords words.parallelStream(); parallel方法将任意顺序流转换为并行流：Stream paralleWords Stream.of(wordArray).parallel(); 以下是不好的示范，假设对字符串的所有短单词计数： …...

编程日记 2025/1/14 10:29:21

Vue 3前端与Python（Django）后端接口简单示例

项目后端（Django）前端（Vue 3） 后端（Django） 创建Django项目和应用： 确保你已经安装了Django。如果没有安装，可以使用以下命令安装： pip install django创建一个新的Dja…...

编程日记 2025/1/14 10:28:18

《拉依达的嵌入式\驱动面试宝典》—操作系统篇(二)

《拉依达的嵌入式\驱动面试宝典》—操作系统篇(二) 你好，我是拉依达。感谢所有阅读关注我的同学支持，目前博客累计阅读 27w，关注1.5w人。其中博客《最全Linux驱动开发全流程详细解析（持续更新）-CSDN博客》已经是 Linux驱动相关内容搜索的推荐首位，感谢大家支持。《拉…...

编程日记 2025/1/14 10:27:15

STM32和国民技术（N32）单片机串口中断接收数据及数据解析

一、串口配置根据单片机不同，串口IO口配置也不同，像STM32单片机，RX脚可以配置为复用输出，也可以配置为浮空输入模式。但是国民技术单片机（N32）的RX是不能配置为复用输出模式的，这样是收不到数…...

编程日记 2025/1/14 10:23:11

【人工智能】大语言模型的微调：让模型更贴近你的业务需求

大语言模型的微调：让模型更贴近你的业务需求随着大语言模型（LLM, Large Language Model）如 GPT-4、BERT 和 T5 等的广泛应用，模型的微调（Fine-tuning）技术成为实现领域专属任务的重要手段。通过微调&…...

编程日记 2025/1/14 10:19:06

大语言模型的稀疏性：提升效率与性能的新方向

大语言模型的稀疏性：提升效率与性能的新方向大语言模型（LLM, Large Language Model）随着参数规模的不断扩大，其性能得到了显著提升，但也带来了巨大的计算和存储开销。稀疏性（Sparsity）作为一种…...

编程日记 2025/1/14 10:18:04

Linux Bridge与Open vSwitch的工作原理及协作

在虚拟化和云计算环境中，Linux Bridge和Open vSwitch（OVS）都是用于构建虚拟网络的关键组件。它们提供了二层交换功能，并且能够将虚拟机或容器连接到物理网络中。然而，两者在实现细节和技术特性上有所不同，下…...

编程日记 2025/1/14 10:14:59

async++源码阅读——task模块

1、task_base.h 本人将自己的理解以注释的形式添加的代码中，方便需要的时候重新复习。该文件中用到的一些技术： 该文件中的类并没有使用virtual，而是自定义了需函数表，但是并没有放到每个对象的开始位置，而是通过指针…...

编程日记 2025/1/14 10:12:57

项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(五)

文章目录一、学生管理模块功能实现1、添加学生功能实现1.1 页面设计1.2 前端功能实现1.3 后端功能实现1.4 效果展示2、学生管理功能实现2.1 页面设计2.2 前端功能实现2.3 后端功能实现2.3.1 后端查询接口实现2.3.2 后端编辑接口实现2.3.3 后端删除接口实现2.4 效果展示二、代码…...

编程日记 2025/1/14 10:11:56

EF Core一对一和多对多

目录 EF Core一对一关系属性关系配置使用 EF Core多对多关系属性关系配置使用 EF Core一对一关系属性必须显式的在其中一个实体类中声明一个外键属性，可以在Order建立Delivery，也可以在Delivery建立OrderId class Order {public long…...

编程日记 2025/1/14 10:10:55

记一次sealos部署k8s集群之delete了第一台master如何恢复

记一次sealos部署k8s集群之delete了第一台master如何恢复一、背景描述使用sealos部署了一套K8S集群 master信息：172.27.100.1、172.27.100.2、172.27.100.3 node信息：172.27.100.4、172.27.100.5 sealos安装在172.27.100.1节点，根目录下/root/.sealos/文件还在！ [root…...

编程日记 2025/1/14 10:09:53

vue3+vite+ts集成第三方js

npm run dev可以正常运行和测试。但是npm run build会报错。要实现引入静态js，避免使用全局变量报错。 1. HTML 引入第三方 JS 在你的 HTML 文件中，通过 <script> 标签引入一个本地第三方 JS 文件，例如： <script sr…...

编程日记 2025/1/14 10:07:49

android framework.jar 在应用中使用

在开发APP中，有时会使用系统提供的framework.jar 来替代 android.jar, 在gradle中配置如下： 放置framework.jar 依赖配置 3 优先级配置 gradle.projectsEvaluated {tasks.withType(JavaCompile) {Set<File> fileSet options.bootstrapClasspat…...

编程日记 2025/1/14 10:05:45

PostgreSQL CASE语句深度解析：性能、类型与NULL安全实战指南

1. 为什么你必须真正吃透 PostgreSQL 的 CASE 语句——它远不止是 SQL 里的“if-else”翻译器在 PostgreSQL 实战中，我见过太多人把CASE当成一个语法糖：写几个WHEN...THEN，加个ELSE，再套个END，就以为搞定了。结果呢&am…...

编程新知 2026/5/26 4:54:25

四旋翼变形控制：RL与MPC在混合动力学中的对比

1. 四旋翼变形控制的技术挑战与解决方案四旋翼变形控制（Quadrotor Morpho-Transition）是当前机器人领域最具挑战性的前沿技术之一。这项技术使机器人能够在空中完成形态变换，实现从飞行模式到地面模式的平滑切换。想象一下，一架四…...

编程新知 2026/5/26 4:52:25

Buzz音频转录完全指南：3大核心功能+5个实战场景，快速掌握本地语音转文字技术

Buzz音频转录完全指南：3大核心功能5个实战场景，快速掌握本地语音转文字技术【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Tr…...

编程新知 2026/5/26 4:28:18

AMLP框架实战：基于MACE构建高精度机器学习势函数

1. 项目概述：当机器学习势函数遇上自动化管道在计算化学和材料科学领域，我们长久以来面临着一个核心矛盾：精度与效率的权衡。密度泛函理论（DFT）能提供接近实验的精度，但计算成本高昂，通常只能处…...

编程新知 2026/5/26 3:20:03

对称与负电源测试：动态直流电子负载的设计、原理与应用

1. 项目概述：对称与负电源的静态与动态直流负载在电子实验室里，测试一个电源的性能，尤其是它的动态响应能力，是件既基础又关键的事。我们常说的“直流电子负载”就是这个领域的核心工具。我之前设计并分享过一个用于正电源测试的静…...

编程新知 2026/5/26 2:09:22

OpenClaw用户如何快速接入Taotoken并开始Agent工作流

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 OpenClaw用户如何快速接入Taotoken并开始Agent工作流对于使用OpenClaw框架构建AI智能体的开发者而言，快速接入稳定、多…...

编程新知 2026/5/26 0:32:21

如何快速批量下载高质量歌词：ZonyLrcToolsX跨平台终极解决方案

如何快速批量下载高质量歌词：ZonyLrcToolsX跨平台终极解决方案【免费下载链接】ZonyLrcToolsX ZonyLrcToolsX 是一个能够方便地下载歌词的小软件。项目地址: https://gitcode.com/gh_mirrors/zo/ZonyLrcToolsX 还在为本地音乐库缺少歌词而烦恼吗&#xff1…...

编程新知 2026/5/25 23:20:56

深度解析网络设备权限管理工具：中兴光猫工厂模式与Telnet服务完整指南

深度解析网络设备权限管理工具：中兴光猫工厂模式与Telnet服务完整指南【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 在当今网络设备管理领域，获取设备完整控制…...

编程新知 2026/5/25 22:12:18

如何快速解锁中兴光猫权限：zteOnu工具完整使用指南

如何快速解锁中兴光猫权限：zteOnu工具完整使用指南【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫作为家庭网络的核心设备，其强大的硬件性能常常被默认…...

编程新知 2026/5/25 21:11:33

机器学习与深度学习在社交媒体心理健康检测中的权衡与选择

1. 项目概述：当AI遇见心灵，社交媒体心理健康检测的技术十字路口在社交媒体成为我们数字生活延伸的今天，海量的文本数据无意中记录着用户的情感波动与心理状态。作为一名长期混迹于数据科学和自然语言处理（NLP）一线的从…...

编程新知 2026/5/25 19:11:47