FAST‘25论文解读:HaSiS单索引存储架构实现HTAP数据处理新范式
想象一下这样的场景:每一笔线上交易都能实时更新库存分析,金融应用能在交易发生那一刻完成欺诈检测——既不延迟也不损失性能。这正是HTAP(Hybrid Transactional and Analytical Processing,混合事务与分析处理)带来的可能,它让数据库既能快速处理事务(如下单),又能同步完成数据分析(如销售趋势洞察)。
但问题是:传统数据库很难同时兼顾这两种能力。 我们在FAST’25(美国USENIX文件与存储技术会议)上参与发表的最新研究《HaSiS:一种面向混合事务分析处理的硬件辅助单索引存储》正是为了解决这个问题。
HTAP的挑战:两种任务,两种结构
数据库要处理两类核心任务:
-
事务处理(Transactional Processing):处理小而频繁的更新,比如购物车加购,它喜欢行式存储(数据一行一行排列);
-
分析处理(Analytical Processing):处理大批量数据来提炼洞察,比如分析热销产品,它更偏好列式存储(按字段纵向排列,更便于扫描)。
由于两者使用的数据结构不同,很多HTAP系统会采用 “双索引” 方案:事务用B+树,分析用列存格式,然后在它们之间不断搬运数据。
这套方法“能用”,但代价高昂:数据迁移浪费时间(几秒甚至几分钟),让分析延迟,同时也拖慢了事务处理。
我们团队看到了更好的方法:如果一个索引就能搞定所有事,而且是即时的呢?
HaSiS解决方案:借助智能硬件实现单索引方案
我们的解决方案HaSiS(硬件辅助单索引存储)抛弃了双索引模型,转而采用单一的B+树结构——这是一种我们通过现代硬件技术增强的经典数据库结构。关键技术是什么?就是带有内置压缩功能的计算存储设备(CSDs),比如我们测试中使用的ScaleFlux CSD-3310。
-
大页面,低成本:传统B+树使用小页面(8-16KB)来保持事务更新的高效响应,但这对分析处理性能不利。HaSiS采用128KB的大页面来加速分析操作,同时利用CSD的压缩技术缩减稀疏数据(如空白区域或零值数据),避免浪费物理存储空间。这打破了"大页面会降低事务处理速度"这一传统规则。
-
混合布局:每个页面包含列式区块(用于分析)和日志区块(用于事务),更新直接写入日志,分析直接读取列式区,全部走一个索引,无需迁移数据。
-
智能缓存:我们设计了混合缓冲池,只加载需要的部分(如4KB块,而非整个128KB),减少内存浪费并保持高速运行。
CSD设备的硬件压缩技术能够在每个页面中存储更高密度的数据而不增加实际存储负载,确保数据实时可用,使分析操作能够立即访问最新的数据更新,而非传统架构中存在的分钟级延迟。
测试结果:HaSiS表现如何?
我们搭建了完整的原型系统,在一台22核Intel Xeon服务器+ScaleFlux CSD-3310硬件上跑了事务(TPC-C)和分析(TPC-H)测试,比较对象包括TiDB、MySQL、PostgreSQL、Parquet等。
-
数据实时性:HaSiS将更新传递到分析端只需17-121微秒,几乎是即时的,而TiDB因为数据迁移要30-2700微秒,延迟降低20倍以上。
-
性能:HaSiS在事务处理速度上与TiDB相当或更优(延迟差异在3-7%范围内),在分析性能上快了6.6%,这得益于其单索引的简洁设计。此外,HaSiS在事务处理上超越了MySQL和PostgreSQL,在分析能力上能够与Parquet相媲美。
-
存储效率:HaSiS比TiDB的双存储方案节省了68%的空间,将164GB的逻辑数据压缩成74GB物理存储。
即使在重度混合工作负载下,HaSiS仍然可以保持稳定运行,随着客户端数量的增加,系统性能呈线性扩展,直到达到硬件资源的极限。
为什么它意义重大?
HaSiS不仅是个实验室的成果,更预示着数据处理的新方向。电子商务平台可实现销售数据与趋势分析的实时融合,金融机构能在交易发生的同时执行欺诈检测分析。
通过将单一索引结构与计算存储硬件结合,HaSiS在减少系统复杂度、提升实时性、降低成本方面实现了三赢,而且相关硬件(如ScaleFlux的CSD)已经在全球部署,具有落地性和推广潜力。
论文地址:HaSiS: A Hardware-assisted Single-index Store for Hybrid Transactional and Analytical Processing | USENIX
相关文章:
FAST‘25论文解读:HaSiS单索引存储架构实现HTAP数据处理新范式
想象一下这样的场景:每一笔线上交易都能实时更新库存分析,金融应用能在交易发生那一刻完成欺诈检测——既不延迟也不损失性能。这正是HTAP(Hybrid Transactional and Analytical Processing,混合事务与分析处理)带来的…...
FastAPI:现代高性能Python Web框架的技术解析与实践指南
一、FastAPI的诞生背景与技术定位 在数字化转型的浪潮中,API(应用程序接口)作为连接服务与数据的核心枢纽,其性能与开发效率直接影响业务迭代速度。传统Python框架如Django和Flask虽功能丰富,但在高并发场景下面临性能瓶颈,且缺乏对异步编程的原生支持。FastAPI应运而生…...
缓存 --- 缓存击穿, 缓存雪崩, 缓存穿透
缓存 --- 缓存击穿, 缓存雪崩, 缓存穿透 缓存击穿(Cache Breakdown)概念原理实际场景代码实现(互斥锁方案) 缓存雪崩(Cache Avalanche)概念原理实际场景代码实现(随机过期时间) 缓存…...
Android 中实现图片翻转动画(卡片翻转效果)
1、简述 通过 ObjectAnimator 和 AnimatorSet 可以实现图片的翻转动画,并在翻转过程中切换图片,同时避免图片被镜像。 ObjectAnimator 是 Android 动画框架中的一个类,用于对对象的属性进行动画效果处理。它通过改变对象的属性值来实现动画效果,非常适合实现复杂的动画,如…...
【论文阅读21】-PSOSVM-CNN-GRU-Attention-滑坡预测(2024-12)
这篇论文主要提出并验证了一种新型的混合智能模型(PSOSVM-CNN-GRU-Attention),用于准确预测滑坡的点位移,并构建可靠的位移预测区间。通过对Baishuihe滑坡和Shuping滑坡的案例分析,展示了该模型的出色性能。 [1] Zai D…...
蓝牙 6.0 发布,解锁无线科技新可能
在5G和Wi-Fi 7高速发展的时代,蓝牙技术始终以独特优势深度融入日常生活。从无线耳机到智能家居,它凭借低功耗、高兼容的特性,悄然连接各类智能设备,打造无缝的数字生活体验。无论是聆听音乐、智能门禁还是健康监测,蓝牙…...
EasyCVR视频智能分析平台助力智慧园区:全场景视频监控摄像头融合解决方案
一、方案背景 在智慧园区建设的浪潮下,设备融合、数据整合与智能联动已成为核心诉求。视频监控作为智慧园区的“视觉中枢”,其高效整合直接影响园区的管理效能与安全水平。然而,园区内繁杂的视频监控设备生态——不同品牌、型号、制式的摄像…...
PHP发送邮件
一、安装PHPMailer 进入项目目录下,执行:composer require phpmailer/phpmailer 二、使用 <?php use PHPMailer\PHPMailer\PHPMailer; use PHPMailer\PHPMailer\Exception;require vendor/autoload.php;$mail new PHPMailer(true); header("…...
为您的照片提供本地 AI 视觉:使用 Llama Vision 和 ChromaDB 构建 AI 图像标记器
有没有花 20 分钟浏览您的文件夹以找到心中的特定图像或屏幕截图?您并不孤单。 作为工作中的产品经理,我总是淹没在竞争对手产品的屏幕截图、UI 灵感以及白板会议或草图的照片的海洋中。在我的个人生活中,我总是捕捉我在生活中遇到的事物&am…...
Spark on K8s 在 vivo 大数据平台的混部实战与优化
一、Spark on K8s 简介 (一)定义与架构 Spark on K8s 是一种将 Spark 运行在 Kubernetes(K8s)集群上的架构,由 K8s 直接创建 Driver 和 Executor 的 Pod 来运行 Spark 作业。其架构如下。 Driver Pod:相当于 Spark 集群中的 Driver,负责作业的调度和管理,它会根据作业…...
K8S节点出现Evicted状态“被驱逐”
在Kubernetes集群中,Pod状态为“被驱逐(evicted)”表示Pod无法在当前节点上继续运行,已被集群从节点上移除。 问题分析: 节点磁盘空间不足 ,使用df -h查看磁盘使用情况 可以看到根目录 / 已100%满&#x…...
重学React(一):描述UI
背景:React现在已经更新到19了,文档地址也做了全面的更新,上一次系统性的学习还是在16-17的大版本更新。所以,现在就开始重新学习吧~ 学习内容: React官网教程:https://zh-hans.react.dev/lea…...
CSS核心笔记002
margin塌陷问题 第一个子元素的上margin会作用在父元素上, 最后一个子元素的下margin会作用在父元素上解决 1. 给父元素设置 不为0的pandding 2. 给父元素设置宽度不为0 的border 3. 给父元素设置样式 overflow:hiddenmargin合并问题 兄弟元素的下外margin和会下面兄弟的上…...
遨游通讯发布国产化旗舰三防手机AORO AU1:以自主可控重塑工业安全
在全球产业链加速重构的背景下,国产化技术突破已成为工业领域高质量发展的核心驱动力。作为专精特新中小企业,遨游通讯始终以“让世界更安全、更高效、更简单”为使命,深耕“危、急、特”场景智能通信设备的研发。近日,遨游通讯正…...
【Python】Selenium切换网页的标签页的写法(全!!!)
在使用selenium做网站爬取测试的时候,我们经常会遇到一些需要点击的元素,才能点击到我们想要进入的页面, 于是我们就要模拟 不断地 点点点击 鼠标的样子。 这个时候网页上就会有很多的标签页,你的浏览器网页标签栏 be like: 那…...
洛谷P1177【模板】排序:十种排序算法全解(1)
扯谈 之前我已经把十大排序算法全讲了一遍(具体详见专栏C排序算法),今天我们来用一道简单的题目总结实战一下。 算法实现 一、桶排序(Bucket Sort) 适用场景:数据范围已知且较小(需根据测试数据调整…...
pytorch 51 GroundingDINO模型导出tensorrt并使用c++进行部署,53ms一张图
本专栏博客第49篇文章分享了将 GroundingDINO模型导出onnx并使用c++进行部署,并尝试将onnx模型转换为trt模型,fp16进行推理,可以发现推理速度提升了一倍。为此对GroundingDINO的trt推理进行调研,发现 在GroundingDINO-TensorRT-and-ONNX-Inference项目中分享了模型导出onnx…...
中间件--ClickHouse-11--部署示例(Linux宿主机部署,Docker容器部署)
一、Linux宿主机部署 1、环境准备 操作系统:推荐使用 CentOS 7/8 或 Ubuntu 18.04/20.04。硬件要求: 至少 2 核 CPU 和 4GB 内存。足够的磁盘空间(根据数据量评估)。CPU需支持SSE4.2指令集(可通过以下命令检查&#…...
DeepSeek和Excel结合生成动态图表
文章目录 一、前言二、3D柱状图案例2.1、pyecharts可视化官网2.2、Bar3d-Bar3d_puch_card2.3、Deepseek2.4、WPS2.5、动态调整数据 一、前言 最近在找一些比较炫酷的动态图表,用于日常汇报,于是找到了 DeepseekExcel王牌组合,其等同于动态图…...
[Python入门学习记录(小甲鱼)]第6章 函数
函数就是把代码整理打包的东西 6.1 Python的函数基操 函数的基本操作 6.1.1 创建和调用函数 def myfunc():print(1)print(2)print(3) myfunc() # 输出 1 2 3 带换行 调用时会自动找函数定义6.1.2 函数的参数 def add(num1, num2):print(num1 num2) add(1, 2) # 输出 3…...
Ubuntu20.04 部署llama-factory问题集
llama3 微调教程之 llama factory 的 安装部署与模型微调过程,模型量化和gguf转换。_llamafactory 部署-CSDN博客 1.跟着教程 llama-factory下载不下来 来,试着换源,多试几次,就可以成功了。。。 2.跟着教程,发现无法…...
海量聊天数据处理:基于Spring Boot与SharingJDBC的分库分表策略及ClickHouse冷热数据分离
引言 随着互联网应用的快速发展,每天产生的聊天记录数量级已经达到了惊人的程度。以2000万条/天为例,一年下来就是大约7.3亿条记录。如此庞大的数据量给数据库的设计和管理带来了前所未有的挑战。本文将探讨如何使用SharingJDBC整合Spring Boot技术来实…...
EAL4+与等保2.0:解读中国网络安全双标准
EAL4与等保2.0:解读中国网络安全双标准 在当今数字化时代,网络安全已成为各个行业不可忽视的重要议题。特别是在金融、政府、医疗等领域,保护信息的安全性和隐私性显得尤为关键。在中国,EAL4和等级保护2.0(简称“等保…...
GreatSQL启动崩溃:jemalloc依赖缺失问题排查
GreatSQL启动崩溃:jemalloc依赖缺失问题排查 故障现象: 之前协助用户安装 GreatSQL 测试环境时,遇到一个 case,数据库初始化时没有报错,但是使用mysqld_safe去启动,会直接 crash ,详情报错如下࿱…...
大语言模型助力 Support Case 分析,提升云服务效率
1. 背景 技术工单(Support Case)是企业在进行云平台操作的时候通常会用到的一种技术支持类型,提供的技术支持通常包括所有的云服务的使用问题、账单问题、限制额度提升等等。对于云平台的管理者而言,对各个 BU 所提的工单进行统计…...
ubuntu磁盘挂载
1、查看磁盘设备及分区 命令:列出所有块设备(磁盘及分区) lsblk 0表示此块未挂载 2、格式化分区 sudo mkfs.ext4 /dev/sdb 注意sdb换成自己的块名称 3、创建挂载点目录 sudo mkdir -p /mnt/data4、永久挂载 sudo blkid /dev…...
在pycharm中搭建yolo11分类检测系统--PyQt5学习(二)
第二部分 测试本地pycharm通过程序连接远程服务器autodl 模型的推理需要借助远程服务器autodl,但是界面的运行是在pycharm中,我的设想是按钮调用一个py文件就好了。 1. 本地运行PyQt5界面。 2. 当需要载入权重时,通过SSH连接到AutodL服务…...
chili3d调试笔记8 打印零件属性 浏览器元素展开
无效, 返回的是节点不是坐标啥的, 找他的属性 把document和selectednote(空集)传给handleshowproperty方法 怎么获得selectnotes和selectnotes的property值 有selectnotes运行这段就行了 明天再搞 ----------------------------…...
新书速览|DeepSeek移动端AI应用开发:基于Android与iOS
《DeepSeek移动端AI应用开发:基于Android与iOS》 1 本书内容 《DeepSeek移动端AI应用开发:基于Android与iOS》深入剖析了DeepSeek平台的架构原理、API调用及开发实践等核心内容,助力读者在Android与iOS移动端高效集成DeepSeek API,打造出契…...
大模型面经 | DeepSpeed中ZeRO-1、ZeRO-2和ZeRO-3的区别是什么?
大家好,我是皮先生!! 今天给大家分享一些关于大模型面试常见的面试题,希望对大家的面试有所帮助。 往期回顾: 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题一) 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题二) 大模型面经 | 春招、秋招算法…...
