当前位置: 首页 > article >正文

ClickHouse:开源数据引擎在AI浪潮爆发,挑战传统数据库巨头

ClickHouse开源数据引擎爆发在AI浪潮中挑战传统数据库巨头过去18个月开源数据基础设施里最热的公司除了Supabase可能就是ClickHouse了。ClickHouse Cloud ARR在2025年保持250%的同比增速第三方估计从2024年中的约1500万美元增长到2025年末的约1.6亿美元付费云客户从1000个突破超3000估值在2026年1月的D轮达到了150亿美元单轮融资4亿美元。但ClickHouse并不是一家新公司。它最早是2009年俄罗斯搜索引擎Yandex内部的项目2016年开源2021年才从Yandex拆分出来开始商业化。一个十几年前给搜索引擎实时用户分析写的列式数据库为什么会在AI浪潮里迎来一波爆发这本质上是个架构层面的契合。ClickHouse适合的workload是append - only事件流上的高基数列扫描、过滤、聚合查询而LLM推理日志每次API调用产生的token消耗、延迟、模型版本、GPU编号、安全过滤等几十个字段恰好就是这种数据。Anthropic在Claude 3/3.5发布期间每天PB级日志规模导致其APM系统不堪重负最终迁移到ClickHouse并跟ClickHouse团队共建了一套air - gapped物理隔离的私有化部署方案OpenAI也在自己数十个分片的ClickHouse集群上建了内部的可观测性方案。这些AI Labs以及许多头部AI应用公司都发现ClickHouse是少数能在PB级数据量下还保持毫秒级查询的引擎。对于ClickHouse公司本身过去一年最大的变化在于其产品布局。它做了三笔关键收购从一个单一的OLAP引擎扩成了一个数据平台2025年上半年收购HyperDX推出ClickStack正式进入Datadog/Splunk/Elastic等玩家所处的observability市场2026年1月收购Langfuse把开源LLM observability这块占住同一天还发布了Postgres Service把OLTP也接了进来。这三笔收购逻辑是一致的底层都是ClickHouse自己的列式存储引擎上面不断买应用层产品做整合。从一个开源引擎厂商开始进入跟Snowflake、Databricks等公司同一段位的平台竞争。本文主要想回答几个问题为什么它在2025年获得了前所未有的关注它的增长驱动力怎么拆它到底是不是AI受益公司以及在当前估值下是否具有投资吸引力欢迎对agent - native数据库或Backend - as - a - Service方向感兴趣的朋友联系交流。2025年发生了什么ClickHouse最初是俄罗斯搜索引擎公司Yandex为其网站用户行为实时分析设计的数据引擎已经开源十年时间在20 - 22年在消费互联网客户中获得了广泛采用。它于2021年从Yandex拆分创始团队开始围绕这个开源项目进行商业化。从2025年中到现在ClickHouse迅速完成了新的三轮融资。这一波投资人的热情可能源自ClickHouse在2025年完成的几个里程碑式的变化1.显著的平台化 TAM expansion从实时OLAP杀进可观测性ClickHouse的架构决策决定了它适合的workload是对append - only event streams高速写入的、几乎不删改的、时间序列的事件流的聚合统计查询。围绕LLM的日志类数据正是这类数据。目前ClickHouse在3个市场拥有领导地位的开源产品- 实时OLAPTAM 40 - 50亿美元核心阵地数据产生后几秒内可查询、毫秒级返回结果的分析数据库。这是ClickHouse已经验证的基本盘和过去的主要用例。- 可观测性TAM ~ 200亿美元第二增长曲线log、trace、metric等的统一追踪。ClickHouse收购HyperDX后正式推出了ClickStack直接对标Datadog/Splunk/Grafana等产品。- AI可观测性TAM ~ 20亿美元新兴赛道追踪LLM应用的每一次API调用的token消耗、延迟。目前这个市场非常早期且碎片化ClickHouse在26年1月完成了对Langfuse的收购获得了作为开源玩家的领导者地位。这三个市场的产品都使用ClickHouse作为底层的列式存储引擎。同时ClickHouse的这种平台化拓展使用了收购的策略有“底层引擎之上不断堆叠上层应用”来垂直整合的平台化前景。2.领先的AI Labs转向ClickHouseAI推理日志的数据特征非常契合ClickHouse。随着领先的AI Labs业务增长每天的日志数据达到PB级它们逐渐意识到原有的解决方案要么无法scale要么过于昂贵开始将ClickHouse引入其infra stack。Anthropic在Claude 3.5发布后原有的APM系统崩溃随后迁移到ClickHouse仅3人团队就管理了整个可观测性Infra。OpenAI在25年曾部分迁离了过于昂贵的DatadogClickHouse是它内部自建的可观测性方案的底层支撑。3.商业化明显加速提价和获客都有明显加速信号ClickHouse ARR从24年中的1500万美元增长至2025年底的1.6亿美元18个月完成了10x增长其中付费客户数3x从1000提升至3000 ACV扩张3 - 4x。公司在25年1月对ClickHouse cloud完成了30%的提价。前Atlassian CSO Kevin Egan出任其CRO终结了ClickHouse无SDR完全靠PLG转化的时代开始更系统化进行企业级销售。ClickHouse的产品目前ClickHouse有3条核心产品线ClickHouse CloudClickHouse Cloud是核心产品把开源ClickHouse以云托管服务提供给客户解决“海量数据的实时聚合分析”问题。三个层级满足从开发测试到大型企业的全场景需求。一个典型使用场景是某AI公司每秒产生数十万条推理日志包含token消耗、延迟、GPU编号、模型版本等字段这些数据通过ClickPipes实时写入ClickHouse Cloud工程师随即可以在仪表盘上看到 “过去5分钟us - east - 1区域Claude 3.5模型的P99延迟”。从数据产生到可查询只有几秒延迟查询本身在毫秒级返回。这种 “写入即可查、毫秒出结果” 的体验是Snowflake/Databricks在架构层面做不到的。这个核心服务有两个配套产品- ETL/ELT引擎ClickPipes一个全托管的连续数据摄入引擎源自2024年收购的PeerDB。支持以下数据流的ingestion。- OLTP拓展Postgres Service2026年1月与D轮融资同步官宣与Ubicloud合作构建的企业级Postgres托管服务。当前处于Private Preview免费使用正式定价未公布。这让客户能在同一个ClickHouse Cloud账单和控制台下同时拥有一个OLTP数据库Postgres和一个OLAP数据库ClickHouse。典型场景一个AI SaaS公司用Postgres存储用户账户、订阅计划、API Key等事务数据用ClickHouse存储和分析API调用日志、token消耗、延迟指标。以前这是两个完全独立的系统、两套运维、两张账单。现在在一个平台上搞定。拥有两个核心集成能力1. pg_clickHouse扩展从Postgres直接查ClickHouse。每个Postgres实例自带这个扩展开发者可以在Postgres中直接用SQL查询ClickHouse的数据无需修改应用代码。pg_clickHouse会自动将查询推送到ClickHouse执行query pushdown——TPC - H基准测试中22个查询有14个被完全推送到ClickHouse性能提升超过60倍。这意味着开发者可以用Postgres作为统一查询入口应用层代码只连Postgres但分析查询实际在ClickHouse上执行。2. 内置CDC实时复制Postgres数据自动同步到ClickHouse。基于ClickPipes/PeerDB引擎将Postgres的事务数据实时复制到ClickHouse复制延迟低至秒级。不需要用户自己搭Debezium或Kafka Connect之类的管道。在开源的实时OLAP数据库解决方案中ClickHouse处于绝对领先位置。ClickHouse Cloud的云端独占功能包括SharedMergeTree、SharedCatalog、Lightweight UPDATEs、Serverless架构等都仅在ClickHouse Cloud可用开源版本不包含。ClickStackClickStack是一个开源的、统一的可观测性平台由三个组件组成OpenTelemetry Collector数据采集器 ClickHouse存储引擎 HyperDX UI前端界面。2025年收购HyperDX后推出目前有自托管版开源免费和Managed ClickStackClickHouse Cloud上的托管服务Beta阶段。它有4大核心能力/use case- 日志管理Logs实时采集、存储、搜索所有应用和基础设施日志。工程师可以用Lucene风格的搜索语法快速过滤如(level:error AND service:payment - api AND latency:500ms)也可以直接写SQL做复杂聚合分析如 “过去1小时各微服务的错误率排名” 。列式压缩让日志存储成本比Elasticsearch/Splunk低一个数量级OpenTelemetry格式的日志数据压缩率可达90%消除了因成本原因不得不采样或缩短保留期的问题即使PB级数据也能全量保留。- 分布式追踪Traces跟踪一个用户请求从前端到后端微服务再到数据库的完整链路。比如一个电商下单请求经过API Gateway → 订单服务 → 库存服务 → 支付服务 → 通知服务ClickStack记录每一跳的耗时、状态和元数据。工程师可以看到 “这个慢请求卡在了哪个服务的哪个方法上” 而不是在几十个服务的日志里大海捞针。- 指标监控Metrics采集CPU、内存、磁盘、网络等基础设施指标以及自定义业务指标如QPS、订单转化率、token消耗速率。支持构建仪表盘、设置告警阈值。用简单的下拉菜单就能构建图表无需学习PromQL之类的查询语言。- 会话回放Session Replay录制用户在浏览器中的实际操作点击、滚动、输入当用户报告bug时工程师可以回看用户当时的完整操作过程并且这个会话回放自动关联到该用户操作期间产生的后端日志和追踪。相对同样开源的Grafana LGTM StackClickStack的最大优势是cross - signal correlation能力。在传统可观测性工具中日志、追踪、指标通常存储在不同的后端Grafana的Loki/Tempo/Mimir各自独立当工程师发现一个指标异常时需要手动在三个系统之间切换、拼接时间戳来定位问题。ClickStack因为所有数据共享同一个ClickHouse存储引擎所以可以做到点击一条错误日志 → 一键跳转到产生这条日志的完整分布式追踪链路 → 一键查看该时段相关服务的指标面板。工程师不需要在多个Tab之间来回切换从 “发现异常” 到 “定位根因” 的路径缩短了一个数量级。相比DatadogClickstack可以便宜50%以上。Datadog定价围绕host数量和自定义metrics的数量在k8s环境里月费膨胀非常快。ClickStack定价围绕实际数据消耗存储 计算同时ClickHouse的列式压缩率能做到90%同等数据量下存储成本远低于Elasticsearch/Splunk的倒排索引存储。综合效果同等监控负载下ClickStack成本约为Datadog的30 - 50%、Splunk的15 - 20%。目前ClickStack的核心短板主要是生态成熟度特别是集成数量远落后于Datadog同时缺少APM等产品。ClickStack还在Beta阶段并且还需要补足RBAC和审计日志以提高合规性。ClickHouse被用在可观测性上的历史很久比如专家访谈中Nike及Cisco在ClickStack之前都使用ClickHouse替代Splunk做Infra或网络安全的近实时监测。ClickStack是对他们围绕ClickHouse构建的这些方案的更完整产品化的交付。LangfuseLangfuse是2026年1月与Series D同步收购的开源LLM工程平台MIT许可证覆盖从开发到生产的完整LLM应用生命周期。收购前已有2000 付费客户、19家Fortune 50客户、2万 GitHub Stars、2600万 SDK月安装量。Langfuse原本就建立在ClickHouse存储之上。它拥有6大核心功能和用例- LLM tracing追踪一个用户请求在你的系统中的完整链路用户提问 → 检索相关文档RAG→ 构造prompt → 调用LLM → 后处理 → 返回结果。每一步的输入、输出、耗时、token消耗都被记录。对于AgentLangfuse用Session的概念追踪整个多步骤工作流。- Cost tracking自动计算每一次LLM调用的token消耗和费用按模型、按用户、按功能模块、按时间段分维度统计。- Prompt management集中管理、版本控制、协作编辑所有prompt模板。每个prompt版本与生产中的Trace自动关联可以直接看到这个prompt版本的线上表现延迟、成本、质量评分如何。- LLM Playground在Langfuse界面中直接测试prompt和模型配置即时查看输出效果。- Datasets创建和管理测试集与基准集用于评估LLM应用的持续改进、预部署测试和结构化实验。- Eval这是Langfuse最深的功能模块也是它相对于竞品的核心差异化之一。支持四种评估方式的自由组合。Langfuse的差异化主要在于其Eval能力以及开源的路线。同时其产品体验在社区内口碑非常好。AI TailwindClickHouse本身不是所谓的AI - native公司目前AI对它来说首先是一个业务上的顺风推动力如上文AI推理日志是高度契合ClickHouse的数据类型同时顶级AI Labs在生产环境大规模依赖ClickHouse。同时AI数据量的增长是结构性的主要体现在遥测数据的维度和难度的增大。此外从2025年下半年开始ClickHouse提出了Agent - Facing Analytics概念基于HyperDX、LibreChat、Langfuse 3笔收购构建了完整的开源Agentic Data Stack Agentic Data Stack让Agent能代替人类完成SQL查询流程即Agent通过MCP检查Schema借助Business Glossary理解业务语义生成并执行SQL并最终将结果用自然语言返回给用户。 ClickHouse自己用这套架构构建了DWAINEData Warehouse AI Natural Expert部署到内部数据仓库后服务250 内部用户日均处理200 条数据查询消息接管了约70%的数据仓库查询请求将分析师工作量减少50 - 70%截至2025年10月处理3300万LLM token。在另一面如果我们把ClickHouse放在二级市场软件的篮子里审视有一系列可以pushback它作为AI受益者叙事的角度- ClickHouse本身不做AI只是存储和查询AI产生的数据。ClickHouse本身没有任何AI/ML能力有还不错的向量搜索能力但不做模型训练和推理。和Datadog的受益逻辑类似。它没法让客户“用AI做更多事”只是帮客户更好地实时看到AI在做什么。- Agentic Data Stack的构建理念是AI Agent将代替人类用户进行BI操作但目前和Snowflake等公司尝试转型没有哲学上的核心区别。- Anthropic和OpenAI等头部客户使用ClickHouse构建它们的内部解决方案时ClickHouse并没有销售其标准版的云端托管产品需要跟客户共创解决方案而且OpenAI大概率不付费。 ClickHouse跟Anthropic的合作类似BYOC模式。二者合作部署的时间点是2024年当时ClickHouse Cloud的BYOC还未GA。 Anthropic评估过三种方案开源自部署运维成本高要自己管re - sharding、replica等、ClickHouse Cloud托管有动态扩缩容和blob storage优势但必须跑在ClickHouse的云上。两者都不完全满足需求因为Anthropic要求所有数据必须运行在自己的安全计算环境内。最终他们采取了混合方案和ClickHouse团队合作在Anthropic自己的基础设施内部署了一套定制的、air - gapped的ClickHouse Cloud架构。这个方案是对ClickHouse Cloud的air gapped私有化定制部署。 OpenAI在其blog中提到选择ClickHouse的理由包括 “开源、无vendor lock - in、可以自己进行代码调试” 。OpenAI的数十个分片集群完全自己运维大概率不是ClickHouse Cloud的客户。ClickHouse的Go - To - Market Traction ChannelClickHouse在从纯PLG向PLG SLG混合模式的转型中。在2025年之前ClickHouse没有SDR完全靠开源用户和inbound转化获客成本极低。目前它有3个核心的销售模式- Self - serve自助注册 信用卡月付开发者可以直接在网站上注册、创建数据库、开始使用不需要和任何销售打交道。- 大客户直销大客户通常通过预购“ClickHouse Credits”类似Snowflake的capacity contract来获得15 - 40%的折扣。这个渠道按客户数只占20 - 30%但贡献了50% 的收入。2025年7月ClickHouse招聘了CRO Kevin Egan曾任职于Atlassian/Slack/Salesforce/Dropbox正在搭建enterprise sales团队这是从1亿美元ARR迈向10亿美元ARR的必经之路。- 云MarketplaceAWS/GCP/Azure客户可以直接通过AWS、GCP或Azure的Marketplace购买ClickHouse Cloud费用合并到云账单中。ClickHouse目前在AWS Marketplace被归入AI Agents and Tools新品类。从历史上看在建立比较好的SLG的practice后Infra公司会迎来收入增长的爆发。MongoDB在1亿美元ARR时引入CRO此后6 - 7年收入增长19倍。Datadog在3亿美元ARR时建立企业销售团队此后5年增长8倍。Usage - based定价ClickHouse Cloud只按照实际消耗的资源量收费。账单由以下几个维度组成- 计算Compute这是最大的收入来源估计占总收入的65 - 75%。按 “计算单元 × 使用时长” 计费计费粒度精确到分钟。Scale层的计算单价约0.69美元/单元·小时一个单元 24 GiB RAM 6 vCPU。对比Snowflake同等算力的6.00美元/小时ClickHouse便宜约88%。服务在空闲时可以自动休眠不收取计算费用。- 存储Storage估计占收入的15 - 20%。按压缩后的数据量 × 月计费Scale层约 $47/TB·月。虽然表面单价是Snowflake的2倍$47 vs $23但ClickHouse的列式压缩率通常在90 - 98%Snowflake约50 - 75%所以按原始数据量折算ClickHouse存储实际更便宜。1TB原始数据在ClickHouse中可能只计费20 - 100 GB。- 数据传输Egress估计占收入的5 - 8%。2025年1月之前免费此后按 $115/TiB收费。这是一个明确的锁定机制一旦客户数据量达到TB级迁出数据的传输费用变得不可忽视。Snowflake毛利在70% ClickHouse的综合毛利率可能略低它的计算单价比Snowflake便宜很多但ClickHouse用C原生开发、极致优化每一个计算周期同样的查询任务消耗的底层云资源VM、存储、网络更少。目前ClickHouse Cloud处于第一波提价周期25年1月进行了约30%的综合提价并新增了Egress收费25年7月完成了老客户的过渡期新定价已经全面生效。Enterprise Sentiment每一个数据库的架构决策都有自己的trade off从15个专家访谈的分析来看ClickHouse的优势主要集中在- 实时OLAP性能碾压级领先 — 客户实测5 - 20x速度优势单毫秒级扫描数十亿行。15位专家中共识度最高的维度(均值 1.7)Snowflake等竞品方专家试图淡化但被客户定量数据压倒。- 成本优势构成采购决策第一驱动力 — Deutsche Bank从kdb迁移后年费从300万美元降至20万美元Nike确认比Splunk便宜5x Goldsky存储成本 $47/TB/月远低于Snowflake/BigQuery。对有工程能力的中大型组织吸引力极强。- 架构与现代数据范式结构性契合 — 追加写入、不可变事件流的设计与可观测性、金融时序、产品分析三大高增长场景天然匹配。这是结构性优势而非功能性优势(Vanco CEO判断)。- PB级可扩展性已被生产验证 — Goldsky 2PB、Walmart 40TB 、Deutsche Bank 20 年时序数据共识度第二高(σ 0.67)。专家反馈的ClickHouse局限/劣势包括- 平台完整性缺失是估值天花板的决定性因素 — 无AI/ML、无ETL、无市场生态。如果保持专用工具定位TAM上限可能仅为数据分析支出的3 - 5%(Cisco VP估算)。ClickPipes和ClickStack的GTM是关键观察点。- 企业就绪度是Cloud ARR增长的最大瓶颈 — Walmart明确表示Cloud版无法通过敏感数据安全审批(SSP)客户支持人员流失严重、响应缓慢(Prefect)RBAC/IAM/审计需客户自建(Nike)。大企业被迫停留在开源自托管。BYOC已经推出需要等待广泛GA。- 护城河正在被侵蚀 — Goldsky CTO警告核心优势正被SingleStore、StarTree等快速复制产品日趋可互换。最值得警惕的信号即便最满意的客户也在密切关注竞品定价变化。- 开发者体验两极化限制GTM天花板 — 深度工程师视为 “乐园” 但企业/非技术用户认为门槛过高。bottoms - up模式天然排斥CIO级自上而下采购。此外从中小型企业IT决策者的反馈看ClickHouse还面临着一个结构性的挑战- ClickHouse的性能非常强但缺少自动扩缩容、存算分离最优实现、容灾等功能因此自行管理和维护ClickHouse集群的难度实际上非常大。- ClickHouse Cloud或者Managed ClickStack很好地解决了以上问题但类似TiDB面临的挑战部分决策者因为ClickHouse和Yandex以及俄罗斯的关系而在national security层面对使用官方托管产品有疑虑。 Walmart高级工程经理表示“ClickHouse Cloud永远无法通过我们的敏感数据安全审批SSP因为需要将数据转移到外部云”。 BYOCBring Your Own Cloud模式理论上可以解决这个问题数据留在客户自己的AWS账户但BYOC目前仅在Enterprise层AWS GAGCP/Azure尚未支持且BYOC的运维复杂度更高、毛利率更低。团队- Aaron KatzCEO联合创始人前Elastic和Salesforce高管。Splunk背景对ClickHouse的可观测性战略至关重要他亲历了Elastic如何从开源搜索引擎成长为百亿美元级别的可观测平台。ClickStack的直接对标也是ELK Stack。这个经历可能正是ClickStack战略的底层逻辑Katz试图复制Elastic的路径但用一个成本结构低一个数量级的列式引擎。- Alexey MilovidovCTO / 创始人ClickHouse的原始创造者2009年在Yandex开始开发是全球列式数据库领域最顶尖的工程师之一。GitHub提交历史显示他至今仍是最活跃的核心贡献者。技术型创始人留任CTO且保持高强度贡献对一个核心引擎驱动的公司来说是极强的正信号。- Kevin EganCRO2025年7月加入前Atlassian CSO / Slack VP Sales / Dropbox / Salesforce。他的每一段履历都是PLG到Enterprise转型的教科书案例Atlassian在他任内收入从20亿美元增长至50亿美元核心就是在保持自助增长引擎的同时叠加Enterprise销售。Slack的经历则验证了他在UBP模式下推动大客户扩张的能力。估值水平按照150亿美元和1.6亿美元ARRClickHouse当前对应94x multiple。如果今年能赶上Grafana的25年ARR并且保持高增速这个估值可以在28年回归到11x的水平作为对比一级市场里Grafana 25年9月完成了4亿美元ARR90亿美元估值对应22.5x。Databricks的54亿美元ARR和1340亿美元估值对应24x。二级市场Snowflake和Datadog等公司在8 - 15x区间。Key Takes- 作为开源数据引擎的ClickHouse性能快、成本低的优势突出非常适合AI时代的分析和可观测性用例。- 在Databricks之外ClickHouse是布局AI时代数据基础设施平台化故事最完整的玩家之一主战场在Mid - market和早期Enterprise目前主要用例还集中在分析及可观测性token消耗的增长带动AI推理在这两方面的增长。- ClickHouse作为一个一级市场的竞争者是Snowflake和Databricks向实时OLAP市场拓展份额的最大障碍也是Datadog、Splunk、Elastic等可观测性玩家的新晋威胁。- 完全开源以及Yandex的背景限制了ClickHouse公司的商业化进展虽然显著扩展了TAM但它在OLAP、可观测性、AI可观测性市场的绝对市场份额都不高。- 目前不管是Snowflake还是ClickHouse等玩家都非常重视Agent - Facing Analytics但主要还是在完成让单个Agent代替人类分析师写SQL的需求可以持续观察后续Agent更深度取代人类行为后Analytics的需求变化。附录ClickHouse的技术特点ClickHouse这个名词在大多数人的心智中不是一家公司而是一个开源的列式实时分析分布式数据库使用标准SQL接口支持分布式部署可以支撑每天PB级的数据。下面主要介绍ClickHouse作为一个开源数据库的核心技术设计和使用场景。ClickHouse的核心任务类型实时分析我们可以把OLAP分为离线和实时两大阵营分别对应不同的技术指标要求和业务需求。这两类OLAP任务对数据库要求有根本性差异实时分析要求系统能够同时做到1. 快速接收新数据写入2. 对刚写入的数据立刻可查询。附录中15位专家对ClickHouse的最强共识就是它的查询性能单毫秒级扫描数十亿行数据。ClickHouse的技术设计列式存储 向量化 MergeTree根据不同专家的反馈ClickHouse在实时分析查询上比Snowflake快5 - 13倍、比Elasticsearch快5 - 19倍成本低一个数量级。ClickHouse在实时分析上的优势来源于它的技术设计1.列式存储传统数据库MySQL、PostgreSQL按行存储一行数据的所有字段紧挨着存在磁盘上。当你想回答“一亿个用户的平均消费金额是多少”时行式存储必须把每一行的所有字段都读出来但其实你只需要“消费金额”这一列。如果一张表有100列你读取了100倍于实际需要的数据。ClickHouse是列式存储同一列的数据紧挨着存放。查询只涉及3列时它只读取3%的数据量。同时同一列数据类型相同、相邻值往往相似压缩效果极好。ClickHouse的典型压缩率在10:1到20:1一个1TB的原始数据集压缩后可能只占50 - 100GB对比Elasticsearch的1.5:1。这让ClickHouse非常适合多列的大宽表规避了MySQL典型的拆表和JOIN。2.向量化执行大多数数据库按单行为单位处理数据。ClickHouse把数据分成块通常每块8192行对整个块同时执行操作充分利用现代CPU的SIMD指令集。通常数据引擎在设计时会列式存储和向量化执行二选一ClickHouse是较早同时实现列式存储和向量化执行的开源数据库这种组合后来成为现代分析数据库的标配。3.MergeTree引擎ClickHouse的核心存储引擎设计哲学是数据写入后很少修改或删除主要是不断追加新数据。每次写入时数据被组织成一个“小片段”快速落盘后台线程再异步合并。这让写入时效率极高缺点是删和改相对麻烦。除了这3个特点之外ClickHouse开源维护团队和生态开发者的效率及工程执行力非常强不断让ClickHouse分叉再分叉为每个具体场景的数据类型、基数高低等等提供最契合的实现。ClickHouse本身演进速度非常快各种fork比如字节做了ByConity和ByteHouse、TiDB有TiFlash等很难保持相应的工程速度。上述技术决策让ClickHouse在 “大规模、只追加、实时聚合查询” 这个甜点区几乎无敌但天然不适合频繁的单行删改、OLTP事务性操作、小数据量的简单查询。同时这种只追加的特点跟可观测性数据append - only事件流非常契合因此ClickHouse在OLAP之外也越来越被视作一个可观测性平台。ClickHouse的用例从互联网到AIClickHouse诞生于俄罗斯最大的搜索引擎Yandex最初就是为网站行为分析设计的需要对每天数十亿次用户点击、搜索、页面浏览的行为实时分析。这类workload最先爆发就是在互联网行业中国也是ClickHouse最大的使用地之一字节到22年已经开始维护着国内最大的ClickHouse集群后续做了大量fork和二次开发。它的用例从用户行为的T 1离线分析开始后续逐渐支持实时的BI需求、AB Test的实时反馈需求、广告投放的实时效果监测等需求。如果能够内部从工程上解决一致性问题ClickHouse也可以被用到需要低延迟的策略性产品需求里比如发券判定等。理论上只要是“大规模、只追加、实时聚合查询”特点的需求都适合ClickHouse来做比如可观测性的日志数据、金融时序输入、IOT传感器数据等。在用户行为分析之外另一个明显在增长的ClickHouse场景是可观测性和基础设施监控。比如Nike的可观测平台总监透露他们用ClickHouse替代Splunk做近实时基础设施监控Splunk年费数千万美元ClickHouse便宜5倍以上。Cisco的数据分析/AI VP用它做网络安全威胁检测。AI时代新增了大量的结构化日志每一次推理请求理论上都有token消耗量、模型版本、推理延迟、GPU集群编号、安全过滤结果、成本归因等几十个字段的日志。所以AI生态内的不同公司也开始使用ClickHouse。

相关文章:

ClickHouse:开源数据引擎在AI浪潮爆发,挑战传统数据库巨头

ClickHouse:开源数据引擎爆发,在AI浪潮中挑战传统数据库巨头过去18个月,开源数据基础设施里最热的公司除了Supabase可能就是ClickHouse了。ClickHouse Cloud ARR在2025年保持250%的同比增速,第三方估计从2024年中的约1500万美元增…...

如何在Mac上免费实现NTFS磁盘完整读写:终极解决方案指南

如何在Mac上免费实现NTFS磁盘完整读写:终极解决方案指南 【免费下载链接】Free-NTFS-for-Mac Nigate: An open-source NTFS utility for Mac. It supports all Mac models (Intel and Apple Silicon), providing full read-write access, mounting, and management …...

为AI助手打造企业级FTP/SFTP操作引擎:告别重复脚本,实现智能文件部署

1. 项目概述:为AI助手量身打造的FTP/SFTP操作引擎如果你和我一样,经常让AI助手(比如Claude、Cursor、Windsurf)帮忙写代码、部署项目,那你肯定遇到过这个让人哭笑不得的场景:AI能帮你从零开始配置一台VPS&a…...

如何优雅地从九大网盘获取真实下载地址:一个JavaScript工具的深度解析

如何优雅地从九大网盘获取真实下载地址:一个JavaScript工具的深度解析 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国…...

微信小程序逆向工程:wxappUnpacker技术深度解析与实战指南

微信小程序逆向工程:wxappUnpacker技术深度解析与实战指南 【免费下载链接】wxappUnpacker forked from https://github.com/qwerty472123/wxappUnpacker 项目地址: https://gitcode.com/gh_mirrors/wxappu/wxappUnpacker 微信小程序逆向分析是理解小程序架构…...

Android开源生态重构:从中心化控制到社区驱动的技术路径与挑战

1. 从“相对开放”到“真正自由”:Android生态的十字路口作为一名在移动通信和嵌入式系统领域摸爬滚打了十几年的工程师,我亲眼见证了Android从初代HTC Dream上那个略显笨拙的“小绿人”,成长为如今驱动全球数十亿智能设备的庞然大物。最近重…...

新手必看:PCB设计全流程详解

1、画原理图不会画就先抄板子设计-更新转化为PCB2、画PCB(1)大概整理好之后自动布线GND不连(2)铺铜 (顶层和底层都铺)(3)DRC检查解决问题-重建铺铜区3、丝印层添加文字4、最后一步一…...

Logisim-evolution终极指南:从数字电路新手到硬件设计高手

Logisim-evolution终极指南:从数字电路新手到硬件设计高手 【免费下载链接】logisim-evolution Digital logic design tool and simulator 项目地址: https://gitcode.com/gh_mirrors/lo/logisim-evolution 你是否曾经对计算机内部的奥秘感到好奇&#xff1f…...

基于MCP协议与Gemini大模型构建智能命令行AI助手

1. 项目概述:一个连接命令行与AI的“翻译官” 最近在折腾一些自动化脚本和工具链,发现一个挺有意思的痛点:我手头有一堆用Shell、Python写的命令行工具,它们功能强大,但交互方式仅限于传统的参数和标准输入输出。与此…...

魔兽争霸3游戏优化终极指南:3步解决帧率限制与界面显示问题

魔兽争霸3游戏优化终极指南:3步解决帧率限制与界面显示问题 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3的卡顿画面和界…...

告别CNN!用PyG Temporal和GC-LSTM搞定动态社交网络的好友推荐(附完整代码)

动态社交网络好友推荐的工程实践:基于GC-LSTM与PyG Temporal的完整解决方案 社交网络的动态特性为传统推荐系统带来了巨大挑战。当用户关系每分每秒都在变化时,静态的协同过滤或内容推荐方法往往显得力不从心。本文将分享如何利用PyG Temporal库和GC-LST…...

那些藏在无人机里的秘密

---## 它飞起来了,但问题才刚开始你有没有想过,一架无人机在天上飞,它的"大脑"在哪里?不仅仅是遥控器传回的那个画面——从识别电线杆上的缺陷,到规避突然出现的障碍物,再到把高清视频实时传回地…...

PyInstaller打包PyTorch项目,为什么我最终放弃了单文件exe?

PyInstaller打包PyTorch项目:为什么单文件exe不是最佳选择? 当我们需要将基于PyTorch的AI应用分发给终端用户时,打包工具的选择往往决定了最终用户体验的好坏。许多开发者最初会被PyInstaller的单文件exe方案吸引——毕竟,谁不想给…...

Next.js SEO优化实战:用next-seo库高效管理元标签与结构化数据

1. 项目概述:SEO 优化的现代 React 解决方案 如果你正在用 Next.js 开发一个需要被搜索引擎收录的网站,比如企业官网、博客或者电商平台,那么“SEO”这个词一定让你又爱又恨。爱的是,它意味着流量和用户;恨的是&#…...

2026上海徐汇区新高一名师辅导暑假班必看 | 优师授课、直击重点

初升高是上海学生学业关键拐点,徐汇区名校云集、学习节奏快、考点难度高,选对名师辅导,直接决定孩子能否快速适应高中、抓住重点、少走弯路。2026年徐汇家长选新高一名师班,核心看三点:优师背景、授课精准、直击考点&a…...

如何永久保存微信聊天记录:3步完成专业级数据备份方案

如何永久保存微信聊天记录:3步完成专业级数据备份方案 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾因手机丢失、系统升级或更换设备,而…...

golang如何处理PostgreSQL JSONB字段_golang PostgreSQL JSONB字段处理方法

PostgreSQL的jsonb字段在Go中需用json.RawMessage或自定义struct接收,不可直接scan到string或sql.NullString;写入NULL须用nil指针,查询时应避免SELECT 配合[]interface{}。PostgreSQL 的 jsonb 字段在 Go 中不能直接 scan 到 stringPostgreS…...

Grav CMS 组合拳漏洞| CVE-2026-42613CVE-2026-42607复现研究

0x0 背景介绍 Grav是一个基于文件的Web平台。 在2.0.0-beta.2之前版本中,存在两个高危漏洞可导致组合利用权限提升漏洞->CVE-2026-42613 Grav的Login插件在处理用户注册请求时,未对请求数据中的groups/access字段进行服务端校验。当管理员在插件配置中…...

终极指南:免费解锁WeMod高级功能的完整方案

终极指南:免费解锁WeMod高级功能的完整方案 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod Pro的订阅费用而犹豫吗?…...

从AD9288到STM32H750:手把手拆解开源示波器osc_fun的硬件架构与选型思路

从AD9288到STM32H750:开源示波器osc_fun的硬件架构深度解析与工程实践 在开源硬件领域,osc_fun示波器项目以其精巧的架构设计和出色的性价比,成为众多硬件开发者研究的热点。这个看似简单的示波器背后,隐藏着一系列精妙的硬件选型…...

ClawLite:一键简化OpenClaw AI Agent框架的安装与成本优化

1. 项目概述:ClawLite,让OpenClaw的安装与上手变得简单 如果你对AI Agent(智能体)感兴趣,尤其是听说过OpenClaw这个强大的开源项目,但又被它复杂的命令行安装、环境配置和晦涩的文档劝退,那么Cl…...

ARM GICD_CTLR寄存器详解与中断控制实践

1. GICD_CTLR寄存器概述GICD_CTLR是ARM通用中断控制器(GIC)中Distributor模块的核心控制寄存器,作为中断系统的"总开关",它直接决定了整个中断控制器的行为模式。在GICv3/v4架构中,这个32位寄存器主要实现三大核心功能:…...

LLM-PDF开源工具:高质量文档解析与结构化处理实战指南

1. 项目概述:当LLM遇上PDF,一个开源工具如何重塑文档处理流程最近在折腾一个项目,需要让大语言模型(LLM)去理解一批技术规格书和合同文档。这事儿听起来简单,不就是把PDF扔给模型,让它读吗&…...

LinkSwift网盘直链下载助手:八大平台高速下载解决方案

LinkSwift网盘直链下载助手:八大平台高速下载解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼…...

社交媒体运营实战指南:从策略定位到数据分析的完整闭环

1. 项目概述:从“会发”到“会运营”的社交媒体技能跃迁“社交发布技能”,听起来像是一个老生常谈的话题。谁还不会发个朋友圈、微博或者小红书呢?但如果你把“tang-vu/social-posting-skills”这个项目标题,仅仅理解为“如何写一…...

MiGPT小爱音箱AI升级终极指南:5步快速接入ChatGPT和豆包大模型

MiGPT小爱音箱AI升级终极指南:5步快速接入ChatGPT和豆包大模型 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 你是否曾希望家中的小…...

Kubernetes智能运维助手:基于LLM的kube-copilot实战指南

1. 项目概述:当Kubernetes遇上AI副驾驶如果你和我一样,每天都要和Kubernetes集群打交道,那你肯定对下面这些场景不陌生:凌晨三点被告警叫醒,面对一个不断重启的Pod,需要手动执行一串kubectl describe、kube…...

数字通信系统核心:从IQ调制到星座图,深入解析PSK/QAM的实现与优化

1. 数字通信系统的核心:IQ调制揭秘 第一次接触IQ调制这个概念时,我也被它绕晕了。什么同相分量、正交分量,听起来就像天书。直到有一天,我在调试无线电设备时突然想通:这不就是把数字信号"画"在旋转的圆盘上…...

AI编程助手如何通过MCP协议安全访问本地代码库

1. 项目概述:一个连接代码与AI的“翻译官”最近在折腾AI编程助手的时候,发现了一个挺有意思的东西:semihkayan/codeweave-mcp。这名字乍一看有点唬人,又是“code weave”(代码编织)又是“MCP”的&#xff0…...

Web 安全深入审计检查清单

一、审计准备与范围界定 适用于渗透测试、安全评估及合规审计(如等保、ISO 27001):检查项具体内容授权确认获取书面授权书(RoE),明确测试时间、IP/域名范围、测试深度资产梳理主站、子域、API 端点、CDN、W…...