当前位置: 首页 > news >正文

MySQL同步到ES的方案选型

文章目录

  • 1. 同步双写
    • 优点
    • 缺点
    • 实现方式
  • 2. 异步双写
    • 优点
    • 缺点
    • 实现方式
  • 3. 另起应用 SQL 查询写入
    • 优点
    • 缺点
    • 实现方式
  • 4. Binlog 实时同步
    • 优点
    • 缺点
    • 实现方式
  • 5. 应用场景

本文参考:

  • https://www.bilibili.com/video/BV13hvZeaErr/?vd_source=b7e4d17fd13ffa91c4da6d37c08a6c7c

最近在重构某个老系统,其大部分查询逻辑都是做在 MySQL 存储层上的,当面临一些复杂的过滤逻辑以及分页逻辑时,都需要后端工程师根据前端传参做一些定制逻辑,后端项目上线发布的人力成本较大,并且大部分过滤逻辑都是在后端代码内部做的,代码可读性与复用性都不高。同时随着时间的迁移,数据库的数据量越来越多,核心首页接口的耗时碰到了瓶颈。为了项目未来的发展,于是决定将原项目重构,进行读写异构分离建设,写入 MySQL,查询走 ES。于是调研了一下 MySQL 数据写入 ES 的一些方式,简要分析各个方案的优缺点。

主要包含以下 4 种方案:

  1. 同步双写
  2. 异步双写
  3. 另起应用 SQL 查询写入
  4. Binlog 实时同步

1. 同步双写

数据写入 MySQL 的同时,通过编程逻辑将相同逻辑写入 ES

在这里插入图片描述

优点

  1. 实时性

    数据变更能直连写入 ES,近乎保证了 ES 的实时性

  2. 简单性
    实现起来比较简单,不需要引入额外的组件,也不需要复杂的逻辑

缺点

  1. 性能影响

    应用内部每次写入 MySQL 同时写入 ES,会对两个系统同时产生影响

  2. 数据一致性风险

    如果双写失败,比方说写入 MySQL 以后应用宕机未写入 ES,两者数据不一致

  3. 系统耦合

​ 每个写入操作都需要双写逻辑,增加了业务的复杂性和维护难度

  1. 集群容灾差

    如果要实现多集群容灾写入,相同的写入逻辑需要往每个集群都做一次

实现方式

分别调用 MySQL 和 ES 的 Client SDK 双写即可

2. 异步双写

利用消息队列异步处理数据写入操作

在这里插入图片描述

优点

  1. 性能提升

    MQ 异步处理,减少了接口同步等待的时间

  2. 容错性
    消息队列有持久化和重试机制,提高了 ES 数据同步的可靠性

  3. 集群容灾水平高
    MQ 消息可以被不同集群的 ES 消费者组监听

缺点

  1. 数据延迟

    异步处理数据延迟较高

  2. 系统复杂度

    需要引入消息队列和额外的消费逻辑,增加了系统的复杂度

  3. 数据一致性风险

    虽然消息队列具有持久化机制,可以重试保证最终一致,但是当应用写入 MySQL 但是还未将消息投递到消息队列时,仍然具有一致性的风险

实现方式

  1. 首先需要接入消息队列,在应用代码中编写生产者逻辑
  2. ES 侧也需要有消费者的逻辑

3. 另起应用 SQL 查询写入

通过定时任务或者单独起一个应用,去查询数据库中的某个时间段内的记录,并作转换逻辑同步至 ES

在这里插入图片描述

优点

  1. 性能提升

    也是异步处理,减少了接口同步等待的时间

  2. 无侵入性
    不需要修改原有的业务逻辑,原系统对此无感知

缺点

  1. 时效性差
    定时任务或者应用 RPC 拉取仍然存在延迟

  2. 性能压力
    查询某一时间段数据会对原来的数据库产生额外的查询压力

  3. 集群容灾差

    如果要实现多集群容灾写入,相同的写入逻辑需要往每个集群都做一次

实现方式

  1. 维护时间戳字段,方便每次查询出新时间段的记录
  2. 定时任务/应用代码逻辑单独上线

4. Binlog 实时同步

利用 MySQL 的 Binlog 日志,通过消息队列消费变化来同步至 ES

在这里插入图片描述

优点

  1. 性能提升

    也是异步处理,减少了接口同步等待的时间

  2. 无侵入性
    不需要修改原有的业务逻辑,原系统对此无感知

  3. 数据一致性
    MySQL Binlog 可以精准捕捉到数据库的所有变更

  4. 容错性
    通常搭配 MQ 使用,在网络波动下仍然能够重试,保证数据的最终一致;并且 MQ 还具有一定的削峰作用,对 ES 写入较友好

缺点

  1. 系统复杂度
    需要维护 Binlog 日志监听和消息队列系统,增加了系统的复杂度
  2. 延迟问题
    “准实时”同步,但是其中涉及到不同组件间的网络传输较多,相比于直连写入 ES 延迟较大

实现方式

  1. MySQL Binlog 日志开启
  2. Binlog 监听器配置
  3. 消息队列集成,确保 Binlog 变更能够发送到消息队列中
  4. 消费者逻辑开发,从消息队列中读取 Binlog 并转换成 ES 可以理解的格式

5. 应用场景

  • 在公司内部通常都采用第4种解决方案,通常都有内部的平台使用,实现存量数据和增量数据的迁移,前面两种方式还需要修改原有的逻辑代码。

  • 如果追求时效性的话,可以增加冗余写入链路,比方说直连写入 + 异步写入,保证一致性的同时增强时效性,但是注意处理 ES 的冲突解决策略,通常两条相同记录的写入采用的是替换 Replace 策略。

相关文章:

MySQL同步到ES的方案选型

文章目录 1. 同步双写优点缺点实现方式 2. 异步双写优点缺点实现方式 3. 另起应用 SQL 查询写入优点缺点实现方式 4. Binlog 实时同步优点缺点实现方式 5. 应用场景 本文参考: https://www.bilibili.com/video/BV13hvZeaErr/?vd_sourceb7e4d17fd13ffa91c4da6d37c08a6c7c 最近在…...

Transformer 与 CNN的对比

Transformer 相比于 CNN 的优点主要体现在以下几个方面: Transformer 相比 CNN 的优点: 全局依赖建模能力:Transformer 的核心机制是 自注意力机制,它可以直接建模输入序列中任意两个位置之间的依赖关系,无论它们之间的距离有多远。 相比之下,CNN 更擅长处理局部信息,它…...

Maven入门到进阶:构建、依赖与插件管理详解

文章目录 一、Maven介绍1、什么是Maven2、Maven的核心功能 二、Maven核心概念1、坐标GAVP1.1、GroupId1.2、ArtifactId1.3、Version1.3.1、版本号的组成 1.4、Packaging 2、POM、父POM和超级POM2.1、POM (Project Object Model)2.1、父POM(Parent POM)2.…...

炒股VS炒游戏装备,哪个更好做

这个项目,赚个10%都是要被嫌弃的 虽然天天都在抒发自己对股市的看法,但自己自始至终也没有买进任何一支股票。之所以对这个话题感兴趣,着实是因为手上的游戏搬砖项目也是国际性买卖,跟国际形势,国际汇率挂钩&#xff0…...

AI图像处理工具:开发者高阶用法与最佳实践

引言 随着人工智能技术的迅猛发展,AI图像处理工具正日益成为开发者工作流程中不可或缺的一部分。这些工具不仅能有效处理图像,还能通过深度学习模型实现复杂的图像理解和生成任务。本文将深入探讨开发者在使用AI图像处理工具时的高阶用法,提…...

Spring Boot 2.6=>2.7 升级整理

版本变更: 1、SpringBootTest 属性源优先级:使用 SpringBootTest 注解的测试现在将命令行属性源置于测试属性源之上 在 Spring Boot 2.7 及更高版本中,对 SpringBootTest 的属性源优先级进行了调整,使得通过命令行传递的属性&am…...

Race Track Generator Ultimate:Race Track Generator(赛车场赛道看台场景创建工具)

下载:​​Unity资源商店链接资源下载链接 效果图:...

数据结构7——二叉树的顺序结构以及堆的实现

在上篇文章数据结构6——树与二叉树中,我们了解了树和二叉树的概念,接着上篇文章,在本篇文章中我们学习二叉树顺序结构的实现。 目录 1. 二叉树的顺序存储结构 2. 堆的概念及结构 1. 堆的概念 2. 堆的结构 3. 堆的实现 1. 堆节点 2. 交…...

leetcode hot100 之【LeetCode 21. 合并两个有序链表】 java实现

LeetCode 21. 合并两个有序链表 题目描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接两个链表的节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 2: 输入:l1 …...

Android Camera系列(五):Camera2

Life was like a box of chocolates, you never know what you’re gonna get. 生命就像一盒巧克力,你永远无法知道下一个是什么味道的。 Android Camera系列(一):SurfaceViewCamera Android Camera系列(二&#xff0…...

从DexMV、VideoDex、MimicPlay到SeeDo:从人类视频中学习:机器人的主流训练方法之一

前言 在此文《UMI——斯坦福刷盘机器人:从手持夹持器到动作预测Diffusion Policy(含代码解读)》的1.1节开头有提到 机器人收集训练数据一般有多种方式,比如来自人类视频的视觉演示 有的工作致力于从视频数据——例如YouTube视频中进行策略学习 即最常见…...

如何在Docker中运行Squid

测试环境 VMware Rocky Linux 9.4 实现步骤 过程:写一个Dockerfile构建Squid镜像; 再写一个启动脚本start_squid.sh,在启动脚本中配置并运行Squid。 编写Dockerfile 以rockylinux9.3做基础镜像,通过yum安装Squid, 拷贝squid.conf FROM …...

Ubuntu22.04 加入AD域

Ubuntu22.04 加入AD域 要在Ubuntu 22.04上加入Active Directory (AD) 域,你可以使用realmd和sssd服务。以下是加入AD域的步骤和示例配置: 更新系统软件包列表: sudo apt update 下载安装必要的软件包: sudo apt install realm…...

Docker 构建 Miniconda3 Python 运行环境实战指南

Docker 构建 Miniconda3 Python 运行环境实战指南 文章目录 Docker 构建 Miniconda3 Python 运行环境实战指南一 准备 environment.yml二 获取项目 pip 信息三 Dockerfile 编写四 构建多平台镜像1 准备组件2 构建镜像3 导出镜像4 导入镜像 五 注意事项 本文详细介绍了如何通过 …...

029 elasticsearch文档管理(ElasticsearchRepository、ElasticsearchRestTemplate)

文章目录 BlogRepository.javaBlogRepositoryTest.javaBulkTest.java 文档的管理 ElasticSearchRepository接口 使用方法: 创建一个接口,继承于ElasticSearchRepository,指定使用的Entity类及对应主键数据类型 Springboot自动扫描接口并创建代…...

【Flutter】Dart:Isolate

在 Dart 和 Flutter 中,所有的代码默认都运行在单一的线程(即主线程)上,这个线程也叫做 UI 线程。当进行耗时操作(如复杂计算或网络请求)时,如果不使用多线程处理,主线程会被阻塞&am…...

​微信小程序 页面间传递数据

在小程序中,给页面传递参数通常有以下几种方法: 通过URL传递参数: 在小程序中,可以在页面的路径后面添加参数,然后在页面的 onLoad 函数中获取这些参数。 // 在app.json中配置页面路径 "pages": [{"pat…...

前端_005_Nodejs

文章目录 npm包管理器cjs和mjsYarn包管理器 1.Node.js 是js的一个运行环境,从nodejs诞生后js代码不局限于只在浏览器中执行,此外还能再nodejs里写服务端,用js可以前后端全栈开发 2.Node.js不跟浏览器一样默认含有document,window对象&#xf…...

SpringCache缓存介绍

1.为什么需要缓存 ​ 前台请求,后台先从缓存中取数据,取到直接返回结果,取不到时从数据库中取,数据库取到更新缓存,并返回结果,数据库也没取到,那直接返回空结果: 使用缓存是一个很…...

python实战(一)——iris鸢尾花数据集分类

一、任务背景 本文是python实战系列专栏的第一篇文章,我们将从分类开始由浅入深逐步学习如何使用python完成常规的机器学习/深度学习任务。iris数据集是经典的机器学习入门数据集,许多分类任务教程都会以这个数据集作为示例,它的数据量是150条…...

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候,写过一篇简单实现,后期随着对该模型的深入研究,本次记录涉及到prophet 的公式以及参数调优,从公式可以更直观…...

React19源码系列之 事件插件系统

事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路 在Android中&#xff0c;可以通过监听键盘的显示和隐藏事件&#xff0c;动态调整弹窗的位置。关键点在于获取键盘高度&#xff0c;并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)

目录 一、&#x1f44b;&#x1f3fb;前言 二、&#x1f608;sinx波动的基本原理 三、&#x1f608;波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、&#x1f30a;波动优化…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中&#xff0c;新增了一个本地验证码接口 /code&#xff0c;使用函数式路由&#xff08;RouterFunction&#xff09;和 Hutool 的 Circle…...

QT3D学习笔记——圆台、圆锥

类名作用Qt3DWindow3D渲染窗口容器QEntity场景中的实体&#xff08;对象或容器&#xff09;QCamera控制观察视角QPointLight点光源QConeMesh圆锥几何网格QTransform控制实体的位置/旋转/缩放QPhongMaterialPhong光照材质&#xff08;定义颜色、反光等&#xff09;QFirstPersonC…...

【从零学习JVM|第三篇】类的生命周期(高频面试题)

前言&#xff1a; 在Java编程中&#xff0c;类的生命周期是指类从被加载到内存中开始&#xff0c;到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期&#xff0c;让读者对此有深刻印象。 目录 ​…...

sshd代码修改banner

sshd服务连接之后会收到字符串&#xff1a; SSH-2.0-OpenSSH_9.5 容易被hacker识别此服务为sshd服务。 是否可以通过修改此banner达到让人无法识别此服务的目的呢&#xff1f; 不能。因为这是写的SSH的协议中的。 也就是协议规定了banner必须这么写。 SSH- 开头&#xff0c…...

大数据驱动企业决策智能化的路径与实践

&#x1f4dd;个人主页&#x1f339;&#xff1a;慌ZHANG-CSDN博客 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 一、引言&#xff1a;数据驱动的企业竞争力重构 在这个瞬息万变的商业时代&#xff0c;“快者胜”的竞争逻辑愈发明显。企业如何在复杂环…...

【阅读笔记】MemOS: 大语言模型内存增强生成操作系统

核心速览 研究背景 ​​研究问题​​&#xff1a;这篇文章要解决的问题是当前大型语言模型&#xff08;LLMs&#xff09;在处理内存方面的局限性。LLMs虽然在语言感知和生成方面表现出色&#xff0c;但缺乏统一的、结构化的内存架构。现有的方法如检索增强生成&#xff08;RA…...