滴滴基于 Clickhouse 构建新一代日志存储系统
滴滴基于 Clickhouse 构建新一代日志存储系统
ClickHouse 是2016年开源的用于实时数据分析的一款高性能列式分布式数据库,支持向量化计算引擎、多核并行计算、高压缩比等功能,在分析型数据库中单表查询速度是最快的。2020年开始在滴滴内部大规模地推广和应用,服务网约车和日志检索等核心平台和业务。本文主要介绍滴滴日志检索场景从 ES 迁移到 CK 的技术探索。
背景
此前,滴滴日志主要存储于 ES 中。然而**,ES 的分词、倒排和正排等功能导致其写入吞吐量存在明显瓶颈**。此外,ES 需要存储原始文本、倒排索引和正排索引,这增加了存储成本,并对内存有较高要求。随着滴滴数据量的不断增长,ES 的性能已无法满足当前需求。
在追求降低成本和提高效率的背景下,我们开始寻求新的存储解决方案。经过研究,我们决定采用 CK 作为滴滴内部日志的存储支持。据了解,京东、携程、B站等多家公司在业界的实践中也在尝试用 CK 构建日志存储系统。
挑战
面临的挑战主要来自下面三个方面:
- 数据量大:每天会产生 PB 级别的日志数据,存储系统需要稳定地支撑 PB 级数据的实时写入和存储。
- 查询场景多:在一个时间段内的等值查询、模糊查询及排序场景等,查询需要扫描的数据量较大且查询都需要在秒级返回。
- QPS 高:在 PB 级的数据量下,对 Trace 查询同时要满足高 QPS 的要求。
为什么选 Clickhouse
相关文章:
滴滴基于 Clickhouse 构建新一代日志存储系统
滴滴基于 Clickhouse 构建新一代日志存储系统 ClickHouse 是2016年开源的用于实时数据分析的一款高性能列式分布式数据库,支持向量化计算引擎、多核并行计算、高压缩比等功能,在分析型数据库中单表查询速度是最快的。2020年开始在滴滴内部大规模地推广和应用,服务网约车和日…...
虚拟主机去除index.php目录地址
复制代码到NGINX设置 虚拟主机去除index.php目录地址-复制代码-NGINX设置 location / { if (!-e $request_filename) { rewrite ^(.*)$ /index.php?s/$1 last; break; } } location ~ /\.ht { deny all; }...
JD商品详情原数据 API 返回值说明
一、应用场景 商品详情原数据API的应用场景广泛而多样。具体来说,它可以被用于以下方面: 1、电商平台数据分析:电商平台可以通过商品详情原数据API提取商品销售数据、质量评分、评论和反馈等信息,从而帮助用户更好地理解市场和竞…...
python日常刷题(一)
前言:本文记录2024年3月11日至2024年3月19日牛客网所做的基础题目(错题本): 🎬个人简介:努力学习ing 📋本专栏:python日常刷题 🎀CSDN主页:愚润求学 文章目录…...
Python 利用pandas和mysql-connector获取Excel数据写入到MySQL数据库
如何将Excel数据插入到MySQL数据库中 在实际应用中,我们可能需要将Excel表格中的数据导入到MySQL数据库中,以便于进行进一步的数据分析和处理。本文将介绍如何使用Python将Excel表格中的数据插入到MySQL数据库中。 导入必要的库 首先,我们…...
Stable Diffusion训练图片时,简陋的数据处理
0 图片从命名 如果有强迫症,看到似乎乱码的命名会不舒服,那么就批量从命名 import osdef rename_files_in_directory(directory, key_word, new_suffix):i 1for filename in os.listdir(directory):new_file key_word str(i).zfill(3) new_suffixsou…...
如何在ubuntu 18.04中升级python 3.6到3.7
在ubuntu下安装python 3.7有两种方法: 1,通过使用Deadsnakes PPA中的标准apt工具(本文暂时只介绍这种方法) 2,从源代码进行构建。 前提条件: 需要以root用户或具有sudo访问权限的用户身份登录才能在Ubuntu系统上安装软件包。 方法一:使用apt工具安装…...
python爬虫基础实验:通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息
Task1 读取网站主页整个页面的 html 内容并解码为文本串(可使用urllib.request的相应方法),将其以UTF-8编码格式写入page.txt文件。 Code1 import urllib.requestwith urllib.request.urlopen(https://dblp.dagstuhl.de/db/conf/kdd/kdd202…...
简单记录一次帮维修手机经历(Vivo x9)
简介 手边有一台朋友亲戚之前坏掉的Vivo X9手机, 一直说要我帮忙修理一下, 我一直是拒绝的, 因为搞程序的不等于维修的(会电脑不等于维修电器),不知道这种思路如何根深蒂固的,不过好吧ÿ…...
ap聚类是什么
AP聚类(Affinity Propagation clustering)是一种聚类算法,它基于数据点之间的相似度进行聚类。AP聚类算法无需预先指定簇的数量,而是根据数据点之间的相似性动态地确定簇的个数和分配情况。 AP聚类的核心思想是通过迭代计算数据点…...
C数据类型(C语言)---变量的类型决定了什么?
目录 数据类型(Data Type) 变量的类型决定了什么? (1)不同类型数据占用的内存大小不同 如何计算变量或类型占内存的大小 (2)不同数据类型的表数范围不同 (3)不同类型…...
axios、axios二次封装、api解耦
import axios from axios// 环境的切换切换测试与生产环境 if (process.env.NODE_ENV development) { axios.defaults.baseURL /api; } else if (process.env.NODE_ENV debug) { axios.defaults.baseURL ; } else if (process.env.NODE_ENV production) { axios.…...
HTML 特殊元素:展示PDF、展示JSON 数据
<pre> 标签 (preformatted text) <pre> 标签用来表示预格式化的文本内容 在页面数据展示时,后端返回了一段未经处理的JSON 数据,将这段数据在页面正常展示,让可读性更高。 {/"project": {/ "title": "…...
算法·动态规划Dynamic Programming
很多人听到动态规划或者什么dp数组了,或者是做到一道关于动态规划的题目时,就会有一种他很难且不好解决的恐惧心理,但是如果我们从基础的题目开始深入挖掘动规思想,在后边遇到动态规划的难题时就迎难而解了。 其实不然ÿ…...
鸿蒙Harmony应用开发—ArkTS-转场动画(共享元素转场)
当路由进行切换时,可以通过设置组件的 sharedTransition 属性将该元素标记为共享元素并设置对应的共享元素转场动效。 说明: 从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 属性 名称参数参数描述…...
【C语言】循环语句(语句使用建议)
文章目录 **while循环****while循环的实践****补充:if语句与while语句区别****for循环(使用频率最高)****for循环的实践****while循环和for循环的对比****Do-while循环****break和continue语句****循环的嵌套****goto语句(不常用)****循环语句的效率(来自于高质量的C/C编程书籍…...
Spring Data访问Elasticsearch----响应式Reactive存储库
Spring Data访问Elasticsearch----响应式Reactive存储库 一、用法二、配置 Reactive Elasticsearch存储库支持建立在存储库中解释的核心存储库支持之上,利用由 Reactive REST客户端执行的 Reactive Elasticsearch Operations提供的操作。 Spring Data Elasticsear…...
堆排序(c语言)
文章目录 前言一.什么是堆二.向下调整算法三.堆排序的创建总结 前言 堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于&#x…...
开源IT自动化运维工具Ansible解析
Ansible 是一款开源的 IT 自动化工具,用于简化应用程序部署、配置管理、持续集成、基础设施即代码(Infrastructure as Code, IaC)和服务编排。它由 Michael DeHaan 创建,并在2012年首次发布,到2015年被红帽公司&#x…...
【C++】仿函数优先级队列反向迭代器
目录 一、优先级队列 1、priority_queue 的介绍 2、priority_queue 的使用 3、 priority_queue 的模拟实现 1)priority_queue()/priority_queue(first, last) 2)push(x) 3)pop() 4&#…...
OpenClaw实操指南19|SOUL.md + AGENTS.md实战:给AI注入性格、边界和判断力
上一篇介绍了 Workspace 的六个文件,这篇专门拆解最难配的两个:SOUL.md 和 AGENTS.md。 难不在于语法,而在于"写什么"。很多人配完之后发现 AI 还是老样子,原因通常是:写得太抽象、太笼统,AI 根…...
如何在MongoDB GridFS中进行按文件大小(length)范围的查询
GridFS 的 length 字段存储在 fs.files 集合中,单位为字节,类型为 NumberLong 或 int;查询需直接操作 db.fs.files 集合,使用标准 MongoDB 语法,如 db.fs.files.find({ length: { $gte: 1024 } })。GridFS 的 length 字…...
告别模糊!Qwen-Image-Edit-2511-Unblur-Upscale一键提升图片清晰度教程
告别模糊!Qwen-Image-Edit-2511-Unblur-Upscale一键提升图片清晰度教程 你是否遇到过这样的困扰?手机拍摄的照片放大后模糊不清,珍贵的合影因为对焦不准而失去细节,或是老照片经过多次翻拍后变得面目全非。传统修图软件对这些模糊…...
Stable Yogi Leather-Dress-Collection自动化流程:使用Python脚本批量生成商品图
Stable Yogi Leather-Dress-Collection自动化流程:使用Python脚本批量生成商品图 每次上新都要找设计师做几十张商品图,费时又费钱?产品图风格不统一,影响品牌形象?如果你在电商或内容创作团队,这些问题肯…...
生成代码没有单元测试?错!用Mutation Testing反向驱动AI补全——1套DSL规则让LLM自动生成带边界覆盖的测试桩(稀缺开源工具首发)
第一章:智能代码生成与代码度量结合 2026奇点智能技术大会(https://ml-summit.org) 智能代码生成已从简单补全迈向上下文感知的语义级产出,而代码度量则为生成结果提供了可量化、可追溯的质量锚点。二者融合并非功能叠加,而是构建“生成—评…...
OCR 识别不准确怎么办?模糊 / 倾斜 / 反光图片优化实战(附完整解决方案 + 代码示例)
在实际项目中(身份证识别、票据识别、文档解析等),很多开发者都会遇到一个问题: OCR 识别不准确,甚至识别失败,怎么办? 其实,大多数 OCR 识别效果差,并不是接口问题&…...
从SPI Slave到主控:用两块ESP32玩转双向数据透传(附完整工程)
从SPI Slave到主控:用两块ESP32玩转双向数据透传(附完整工程) 在物联网和嵌入式开发领域,设备间的高速数据通信一直是开发者面临的挑战之一。想象一下这样的场景:你需要将一组环境传感器采集的温度、湿度数据实时传输到…...
别再只会用getOpenFileName了!QT文件对话框8个静态函数的保姆级使用指南(含DontResolveSymlinks等参数详解)
QT文件对话框全解析:从静态函数选择到参数调优实战 在QT开发中,文件对话框是用户与本地文件系统交互的重要桥梁。许多开发者习惯性地使用getOpenFileName应对所有场景,却忽略了QT提供的8个静态函数各有其独特的设计意图和使用场景。本文将带…...
告别忘打卡!用MT管理器+Termux在安卓上实现钉钉自动签到(附Python脚本)
安卓自动化打卡实战:零基础用MT管理器Termux实现钉钉定时签到 每天早上匆忙赶地铁时,你是否也经历过这样的场景:挤在人群中突然想起还没打卡,慌忙掏出手机却发现网络延迟,眼睁睁看着考勤异常提醒弹出?对于依…...
用强化学习解决复杂组合优化问题:RL4CO完整指南
用强化学习解决复杂组合优化问题:RL4CO完整指南 【免费下载链接】rl4co A PyTorch library for all things Reinforcement Learning (RL) for Combinatorial Optimization (CO) 项目地址: https://gitcode.com/gh_mirrors/rl/rl4co 在人工智能快速发展的今天…...
