当前位置: 首页 > news >正文

冷热数据分离

优质博文:IT-BLOG-CN

一、背景

随着机票业务的快速发展,订单量持续增长对业务性能带来影响,需要进行冷热数据分离。目前机票订单模块主要使用Mysql(InnoDB)作为数据库存储,历史订单信息状态修改频率低并占用大量数据库存储空间,期望历史数据与生产最新的数据进行分离,当前数据库保留最近一个月的数据作为热库,历史交易存在另一个库作为冷库。减少因在线存储空间不足扩容导致停服不可用的时长。

如何判断一个数据是冷数据还是热数据?
需要根据自己业务系统来区分了,一般而言是根据主表中的一个或者多个字段进行标识区分,比如订单的时间,这个是时间维度,可以将3个月之前的数据定义为冷数据,最近3个月的数据定义为热数据。当然也可以是状态维度,比如订单的状态,已完结的订单定义为冷数据,未完结的订单定义为热数据。同样的也可以将时间维度和状态维度组合起来,比如下单时间大于3个月且订单状态为已完结的定义为冷数据,反则为热数据。

我的冷热数据怎么拆分的:已过起飞时间 + 订单状态=“完成”的数据都是冷数据,其余为热数据。

二、方案选型

业务代码修改

这种方案是在业务代码层面判断是否进行冷热数据分离,对代码的侵入性比较高,在数据修改时触发冷热分离。因机票QPS很高,如果更新状态时,需要进行进行冷热数据分离,删除热库中的数据,并将数据写入冷库中,需要使用到分布式事务。会增加系统和数据库的压力。不适用

监听binlog日志

需要监听binlog日志的方式进行触发,当订单状态修改了,则触发冷热分离。比较适合实时性要求高的系统,这里虽然不会影响业务的响应时间。但是冷热数据分离的操作实时操作的,会给数据库造成压力。不适用,但是有用

怎么读取binlog中的内容,我们通过公司内部开发的DRC服务,这里简单看下重要流程:
【1】在pom.xml中添加MySQL Binlog Connector Java的依赖

<dependency><groupId>com.github.shyiko</groupId><artifactId>mysql-binlog-connector-java</artifactId><version>0.25.0</version>
</dependency>

【2】连接MySQL并读取binlog,注册了一个事件监听器来处理WriteRowsEventData事件。还可以根据需要处理其他类型的事件,例如UpdateRowsEventDataDeleteRowsEventData分场景进行业务处理。

import com.github.shyiko.mysql.binlog.BinaryLogClient;
import com.github.shyiko.mysql.binlog.event.*;public class BinlogReader {public static void main(String[] args) throws Exception {String hostname = "localhost";int port = 3306;String username = "root";String password = "password";BinaryLogClient client = new BinaryLogClient(hostname, port, username, password);client.registerEventListener(event -> {EventData data = event.getData();if (data instanceof WriteRowsEventData) {WriteRowsEventData writeRowsEventData = (WriteRowsEventData) data;System.out.println("Write event: " + writeRowsEventData);// 处理写入事件handleWriteEvent(writeRowsEventData);} else if (data instanceof UpdateRowsEventData) {UpdateRowsEventData updateRowsEventData = (UpdateRowsEventData) data;System.out.println("Update event: " + updateRowsEventData);// 处理更新事件handleUpdateEvent(updateRowsEventData);} else if (data instanceof DeleteRowsEventData) {DeleteRowsEventData deleteRowsEventData = (DeleteRowsEventData) data;System.out.println("Delete event: " + deleteRowsEventData);// 处理删除事件handleDeleteEvent(deleteRowsEventData);}});client.connect();}private static void handleWriteEvent(WriteRowsEventData eventData) {// 在这里处理写入事件的业务逻辑// 例如:将数据写入另一个数据库或消息队列}private static void handleUpdateEvent(UpdateRowsEventData eventData) {// 在这里处理更新事件的业务逻辑// 例如:更新缓存或同步到另一个系统}private static void handleDeleteEvent(DeleteRowsEventData eventData) {// 在这里处理删除事件的业务逻辑// 例如:从缓存中移除数据或同步到另一个系统}
}

WriteRowsEventData类通常包含以下属性:
【1】tableId:表示发生写入操作的表的ID,它通常由MySQL内部生成,用于在二进制日志中快速查找表的元数据。
【2】includedColumns:一个位图,表示哪些列包含在写入操作中。位图中的每一位对应一个列,值为1表示该列包含在写入操作中,值为0表示该列不包含在写入操作中。
【3】rows:一个列表,包含所有被写入的行的数据。每一行的数据通常以数组的形式存储,数组中的每个元素对应表中的一个列值。这些数据通常是经过编码的,需要根据表的元数据进行解码。

举个例子,如果你在MySQL中有一个表users,包含三个列idnameemail,并且你插入了一行数据(1, 'Alice', 'alice@example.com'),那么WriteRowsEventData可能会包含如下信息:
【1】tableId:假设为1234
【2】includedColumns:位图表示三个列都包含在写入操作中。
【3】rows:包含一个数组[1, 'Alice', 'alice@example.com']

定时任务

该方案可以根据“起飞时间”进行区分,同时可以避免业务高峰期,并且与业务代码进行解耦。适用,结合binlog,每次获取1000条数据分批处理

我们的方案

监听binlog日志,当订单号状态发生变化,并且已过起飞时间时,将订单号存放至MongDB中,夜间2点批量读取MongoDB中的订单号执行数据冷热数据分离业务逻辑。

我们这里时存储在MongDB后期消费,部分系统是通过Kafka进行消息实时消费的,定时任务校验数据的一致性,对遗漏的数据进行校验。批量查询也是根据场景,可能需要对冷热数据库一并查询,需要封装统一的接口方法,当冷热数据存在冲突时,以热库的数据为准。

特殊场景处理逻辑:
【1】冷库数据理论上不存在更新操作,但是部分业务场景特殊,需要对冷库中的数据先进性Delete操作再进行Insert操作,而不是Update操作。这里场景接入的是Kafka
【2】当冷热库存在相同的数据时,以热库数据为准。冷库的数据来源只有热库数据同步到冷库。批量查询如果对顺序由要求时,业务代码查询到数据后,需要根据需求在内存中进行排序。

相关文章:

冷热数据分离

优质博文&#xff1a;IT-BLOG-CN 一、背景 随着机票业务的快速发展&#xff0c;订单量持续增长对业务性能带来影响&#xff0c;需要进行冷热数据分离。目前机票订单模块主要使用Mysql(InnoDB)作为数据库存储&#xff0c;历史订单信息状态修改频率低并占用大量数据库存储空间&…...

朝花夕拾:多模态图文预训练的前世今生

Diffusion Models专栏文章汇总&#xff1a;入门与实战 前言&#xff1a;时间来到2024年&#xff0c;多模态大模型炙手可热。在上一个时代的【多模态图文预训练】宛若时代的遗珠&#xff0c;本文的时间线从2019年到2022年&#xff0c;从BERT横空出世讲到ViT大杀四方&#xff0c;…...

亳州自闭症寄宿制学校,关注孩子的学习和生活

在特殊教育领域&#xff0c;自闭症儿童的教育与成长一直是社会各界关注的焦点。近年来&#xff0c;随着对自闭症认识的加深&#xff0c;越来越多的寄宿制学校应运而生&#xff0c;致力于为这些特殊的孩子提供全面、个性化的教育服务。在安徽亳州&#xff0c;这样的学校正努力为…...

Root me CTF all the day靶场ssrf+redis漏洞

Rootme CTF all the day靶场ssrfredis漏洞 一、环境介绍1、漏洞地址2、漏洞介绍 二、 搭建环境三、测试过程3.1 读取系统文件3.2 探测开放的服务器端口(dict协议)3.3 redis未授权访问3.3.1 利用redis来写ssh密钥&#xff08;gopher协议写入&#xff09;3.3.2 利用redis写定时任…...

C#中Json序列化的进阶用法

本文所有json序列化&#xff0c;都使用的Newtonsoft.Json包 1 JsonIgnore 在 Newtonsoft.Json 中&#xff0c;如果你不想将某些属性转换为 JSON 字符串&#xff0c;可以使用多种方法来实现。以下是几种常见的方法&#xff1a; 1.1 使用 [JsonIgnore] 特性 [JsonIgnore] 特性…...

IO相关的常用工具包

常用工具包Commons-io Commons-io是apache开源基金组织提供的一组有关IO操作的开源工具包。 作用:提高IO流的开发效率。 使用步骤: 1、在项目中创建一个文件夹&#xff1a;lib 2、将jar包复制粘贴到lib文件夹 3、右键点击jar包&#xff0c;选择Add as Library--->点击OK …...

Spring Boot集成RBloomFilter快速入门Demo

在大数据处理和缓存优化的场景中&#xff0c;布隆过滤器&#xff08;Bloom Filter&#xff09;因其高效的空间利用和快速的查询性能而被广泛应用。RBloomFilter是布隆过滤器的一种实现&#xff0c;通常用于判断一个元素是否存在于一个集合中&#xff0c;尽管它存在一定的误判率…...

布局性能优化

布局使用不当回导致卡顿、掉帧、响应慢等问题 一、布局流程 1、应用侧会根据前端UI描述创建后端的页面节点树&#xff0c;其中包含了处理UI组件属性更新、布局测算、事件处理等逻辑 2、页面节点树创建完成后&#xff0c;UI线程会对每个元素进行测算&#xff08;Measure&#…...

智云人才推荐与管理系统

1.产品介绍 产品名称&#xff1a;智云人才推荐与管理系统 主要功能&#xff1a; 智能人才匹配引擎 功能描述&#xff1a;利用先进的人工智能算法&#xff0c;根据企业岗位需求&#xff08;如技能要求、工作经验、教育背景等&#xff09;自动从海量人才库中筛选并推荐最合适的…...

git在远程分支上新建分支

需求&#xff1a; 在远程分支release/test的基础上创建一个新的分支test_20241009 确保本地仓库的信息是最新的 git fetch origin执行了 git fetch&#xff0c;本地仓库已经包含了 origin/release/test 的最新信息。当基于这个远程跟踪分支创建新分支时&#xff0c;会得到一个包…...

用Python实现的高校教师资格考试题库程序

最近朋友参加了高校教师资格考试&#xff0c;在考试前需要刷题来保证通过。但是教资网站上的题库只有接近考试才更新&#xff0c;并且官方题库的刷题效率还是有点低。 &#x1f446;官方题库的样子 于是想到了是否能够将官方题库内容记录下来&#xff0c;然后自己创建一个高效…...

OpenVINO基本操作流程

环境配置&#xff1a; conda env list:可以查看有哪些环境 conda activate intel:启动某个环境 pip list&#xff1a;可以查看此环境下都下载了哪些软件包 from openvino.inference_engine import IEcore#从OpenVINO推理引擎中导入IECore类 import numpy as np import cv2 1&…...

Spring MVC 注解详解:@RequestBody,@RequestParam 和 @PathVariable

Spring MVC 提供了一系列注解&#xff0c;用于简化请求数据的获取和处理。了解并掌握这些注解的使用&#xff0c;对于开发RESTful API和处理HTTP请求至关重要。本文将详细介绍 RequestBody&#xff0c;RequestParam 和 PathVariable 注解&#xff0c;并附带具体的代码示例&…...

MySQL 8 中的 sql_mode

MySQL 8 中的 sql_mode 设置&#xff1a;提升数据库安全性与性能 在现代数据库管理中&#xff0c;MySQL 是一个广泛使用的开源关系型数据库。随着数据的增长和复杂性增加&#xff0c;良好的数据库配置显得尤为重要。sql_mode 是 MySQL 提供的一个强大功能&#xff0c;它可以帮…...

13种pod的状态

13种pod的状态 生命周期 Pending:Pod被创建后进入调度阶段,k8s调度器依据pod声明的资源请求量和调度规则,为pod挑选一个适合运行的节点。当集群节点不满足pod调度需求时,pod将会处于pending状态。Running:Pod被调度到节点上,k8s将pod调度到节点上后,进入running状态。S…...

2025考研今天开始预报名!攻略请查收

2025年全国硕士研究生招生考试 今天起开始预报名 有什么流程&#xff1f;需要准备哪些信息&#xff1f; 这份考研报名攻略速查收 ↓↓↓ 全国硕士研究生招生考试报名包括网上报名和网上确认两个阶段&#xff1a; 网上预报名时间为10月9日至10月12日&#xff08;每日9&#xff1…...

JS中的Promise经典题目解析

这段代码很有代表性&#xff0c;涵盖了多个 JavaScript 知识点&#xff0c;特别是不同异步操作的执行优先级。 async function async1() {console.log(async1 start);await async2();console.log(async1 end); }async function async2() {console.log(async2); }console.log(s…...

【机器学习】金融预测 —— 风险管理与股市预测

我的主页&#xff1a;2的n次方_ 在金融领域&#xff0c;机器学习&#xff08;ML&#xff09;已经成为了不可或缺的工具。金融预测&#xff0c;尤其是风险管理和股市预测&#xff0c;涉及海量数据和复杂模式的分析&#xff0c;而这些正是机器学习擅长处理的领域。通过分析历…...

Bootstrap 5 分页组件使用教程

Bootstrap 5 分页组件使用教程 引言 Bootstrap 5 是一个流行的前端框架,它提供了一套丰富的组件和工具,用于快速开发响应式和移动优先的网页。分页组件是 Bootstrap 5 中用于分割长列表或数据集的重要部分,它可以帮助用户更容易地浏览内容。本文将详细介绍如何在您的项目中…...

Linux 安装 NVM 并配置 npm 加速,开发 node 项目不再愁

由于需要在 linux 机器上完成 node 项目的构建&#xff0c;需要安装 nodejs, 想着不同项目需要使用不同的版本&#xff0c;索性安装一下 nvm 吧&#xff0c;因为之前在 windows 上已经安装过 nvm-windows, 应该很容易上手&#xff0c;我尝试了官网提供的几种方式&#xff0c;最…...

SpringBoot3 + ShardingJDBC读写分离进阶:如何用AOP实现强制走主库(@Master注解实战)

SpringBoot3 ShardingJDBC读写分离进阶&#xff1a;如何用AOP实现强制走主库&#xff08;Master注解实战&#xff09; 在分布式数据库架构中&#xff0c;读写分离是提升系统吞吐量的常见方案。但当你的SpringBoot3应用已经配置好ShardingJDBC的基础读写分离功能后&#xff0c;…...

Armv9内存拷贝指令优化与性能调优

1. Arm架构内存拷贝指令深度解析在Armv9架构中&#xff0c;内存拷贝操作通过FEAT_MOPS(Memory Operations)特性得到显著增强。这套指令集专为高效内存操作设计&#xff0c;其中CPYFP/CPYFM/CPYFE系列指令实现了分阶段的内存拷贝机制。与传统的循环拷贝相比&#xff0c;这种设计…...

【NotebookLM内容可信度跃迁关键】:如何用“证据锚定法”让讨论部分通过专家级评审?

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;NotebookLM讨论部分的可信度本质与评审标准 可信度的本质&#xff1a;语义对齐与溯源可验证性 NotebookLM 的讨论部分并非传统意义上的“生成式问答”&#xff0c;而是基于用户上传文档构建的语义索引…...

植物树枝叶片果实检测数据集7220张VOC+YOLO格式

植物树枝叶片果实检测数据集7220张VOCYOLO格式数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;7220 标注数量(xml文件个数)&#xff1a;7220…...

Molflow仿真结果怎么看?Texture、Profile、Counter Facet全解析,选对方法效率翻倍

Molflow仿真结果解读实战指南&#xff1a;Texture、Profile、Counter Facet深度解析 面对真空系统仿真结果&#xff0c;许多工程师常陷入"数据海洋"的困惑——明明跑完了模拟&#xff0c;却不知如何高效提取关键信息。Molflow作为专业级真空仿真工具&#xff0c;提供…...

【免费下载】 车牌识别字符库

车牌识别字符库 【下载地址】车牌识别字符库 本仓库提供了一个车牌识别字符库&#xff0c;该字符库已经过预处理&#xff0c;将车牌上的字符进行了切割和分割&#xff0c;每个字符均为单独的图像文件。字符图像的大小统一为20x20像素&#xff0c;涵盖了车牌上常见的省份简写、数…...

别再死记硬背了!用Unity游戏开发中的真实案例,5分钟搞懂C#继承与多态

用Unity游戏案例5分钟掌握C#继承与多态的精髓 在Unity游戏开发中&#xff0c;面向对象编程&#xff08;OOP&#xff09;的概念如继承和多态不仅是理论上的抽象概念&#xff0c;更是构建灵活、可扩展游戏系统的基石。想象一下&#xff0c;当你需要设计一个包含多种敌人类型的游戏…...

Adafruit Metro ESP32-S3开发板深度评测:从硬件解析到低功耗物联网实践

1. 项目概述&#xff1a;为什么选择Metro ESP32-S3作为你的下一个开发平台&#xff1f;如果你正在寻找一块既能快速原型开发&#xff0c;又能直接用于产品部署&#xff0c;同时兼顾了强大无线连接、丰富生态和极低功耗的开发板&#xff0c;那么Adafruit Metro ESP32-S3绝对是一…...

Elsevier投稿追踪插件:科研工作者的智能审稿管家

Elsevier投稿追踪插件&#xff1a;科研工作者的智能审稿管家 【免费下载链接】Elsevier-Tracker 项目地址: https://gitcode.com/gh_mirrors/el/Elsevier-Tracker 当您的论文投稿到Elsevier期刊后&#xff0c;漫长的审稿等待期往往成为科研工作者的焦虑来源。Elsevier投…...

2026届学术党必备的六大AI写作神器实际效果

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 从事学术研究范畴内&#xff0c;撰写论文常常要消耗大量的时间以及精力&#xff0c;诸多的学…...