当前位置：首页 > news >正文

火山引擎 ByteHouse 的增强型数据导入技术实践

news 2026/2/16 13:18:29

作为企业数字化建设的必备要素，易用的数据引擎能帮助企业提升数据使用效率，更好提升数据应用价值，夯实数字化建设基础。

数据导入是衡量OLAP引擎性能及易用性的重要标准之一，高效的数据导入能力能够加速数据实时处理和分析的效率。作为一款OLAP引擎，火山引擎云原生数据仓库ByteHouse源于开源ClickHouse，在字节跳动多年打磨下，提供更丰富的能力和更强性能，能为用户带来极速分析体验，支撑实时数据分析和海量离线数据分析，具备便捷的弹性扩缩容能力，极致的分析性能和丰富的企业级特性。

随着ByteHouse内外部用户规模不断扩大，越来越多用户对数据导入提出更高的要求，这也为ByteHouse的数据导入能力带来了更大的挑战。

本篇文章来源于ByteHouse产品专家在火山引擎数智平台（VeDI）主办的“数智化转型背景下的火山引擎大数据技术揭秘”线下Meeup的演讲，将从ByteHouse数据库架构演进、增强HaKafka引擎实现方案、增强Materialzed MySQL实现方案、案例实践和未来展望四个部分展开分享。

ByteHouse数据库的架构演进

作为一款分析型数据库，ByteHouse已经应用在互联网、金融、汽车领域，帮助企业实现人群洞察、行为分析、 IOT 风控等场景的实时分析。

ByteHouse的演进

从2017年开始，字节内部的整体数据量不断上涨，为了支撑实时分析的业务，字节内部开始了对各种数据库的选型。经过多次实验，在实时分析版块，字节内部决定开始试水ClickHouse。
2018年到2019年，字节内部的ClickHouse业务从单一业务，逐步发展到了多个不同业务，适用到更多的场景，包括BI 分析、A/B测试、模型预估等。
在上述这些业务场景的不断实践之下，研发团队基于原生ClickHouse做了大量的优化，同时又开发了非常多的特性。
2020年， ByteHouse正式在字节跳动内部立项，2021年通过火山引擎对外服务。
截止2022年3月，ByteHouse在字节内部总节点数达到18000个，而单一集群的最大规模是2400个节点。

ByteHouse的架构

ByteHouse架构分为分布式架构和云原生架构两种。分布式架构的主要特点就是单集群可以支持 2000 多个节点的“大兵团”；通过分布式的并行计算体现的高性能，能够充分利用每个节点的计算和存储资源；云原生实现了存算分离，计算资源通过容器化进行弹性和秒级的扩容，这对业务是无感知的。

从分布式架构来看，ByteHouse具备MPP 1.0特点：

存算一体：通过本地存储能够保证它极致的这种查询性能。
自研的表引擎：包含 HaMergeTree和 HaUniqueMergeTree。
在社区 RBO 优化器的基础上增强 RBO 加 CBO 的结合的查询优化，并基于 CBO 的分布式计划能够在集群模式下计算全局最优的查询计划。
支持数据的冷热分存，同时兼顾性能和成本。
增强关键的数据类型，从而优化查询性能。
通过统一的管控面提供可视化的管理查询和运维，从内到外给用户提供优质的使用体验。

但MPP 1.0存在资源隔离、扩容等痛点，由此演进到云原生架构，即MPP 2.0：其中存算分离通过结合 shared-everything 存储和 shared-nothing 计算层，避免了传统 MPP 架构中数据重新分配 (re-sharding) 的问题。

好处在于：

更好地实现资源隔离。每个用户不同的计算都提交到不同的计算组，并进行计算资源和存储资源的扩容，再结合按量计费的计费策略可以降低用户使用成本。
底层存储既支持HDFS，也支持 S3 对象存储，能够让 ByteHouse实现真正的云原生。

ByteHouse技术优势

在增强型数据导入场景中，ByteHouse核心优势体现在自研表引擎：

在社区版的基础上，ByteHouse对表引擎做了进一步增强，使其能够实现开源的ClickHouse所做不到的场景。
高可用引擎，相比社区高可用引擎，可以支持表的数量更多，集群的规模更大，稳定性会更高。
实时数据引擎，相比社区实时数据引擎，消费能力更强，支持 at least once 的语义，排除单点写入的性能故障。
Unique引擎，相比社区Unique引擎，ByteHouse没有更新延迟问题，能够实现真正实时的 upsert。
Bitmap 引擎，在特定的场景比如用户圈选圈群的场景中支持大量的交并补操作，能够使整体的性能提升 10 - 50 倍以上。

这里具体再介绍一下ByteHouse自研引擎的优势——与导入密切相关的表引擎。

首先，ByteHouse 提供的HaMergeTree方案能够降低 ZK 负载，提升可承载的数据量级。

ClickHouse 社区版本： 社区提供的ReplicatedMergeTree表引擎让 ClickHouse 实现了从单机到集群的演进，通过ZK节点来同步并维护两个MergeTree之间的元数据和数据。痛点在于，在 TB 级的数据量级之下， ZK 重复地进行分发日志和数据交换等操作，极大地增加了ZK的压力，使ZK 成为整个集群的故障点。
ByteHouse 自研HaMergeTree： 将元数据的同步和数据的同步解耦，ZK只负责元数据的同步，而数据的同步是通过 LogExchange 来实现，在两个MergeTree之间进行对等拷贝。优势在于，降低了 ZK 的负载，即使是承载 PB 级的数据量，集群也能够平稳地运行。

其次， ByteHouse 提供的HaMergeTree方案能平衡读写性能。

ClickHouse 社区版本： 提供ReplacingMerge Tree实现了对唯一键的支持；使用Merge-on-read的实现逻辑，在不同批次的数据中包含着相同的 key ，需要在读时做合并，让相同的 key 返回最新的版本。痛点在于，数据存在延迟、滞后，降低读的性能。
ByteHouse 自研的HaUniqueMergeTree： 引入了 delete bitmap 的组件在数据插入时即标记删除，然后在数据查询时过滤掉标记删除的数据。优势在于，整体上平衡了读和写的性能，保障了读取时性能一致性。

增强HaKafka引擎实现方案

HaKafka 引擎架构介绍

社区版Kafka 优势： 由于社区版ClickHouse是一个分布式结构，其数据分布在多个Shard上，Kafka引擎可以在多个Shard上去做并发的写入，而在同一个Shard内可以启动多线程做并发写入，并具备本地盘的极致的性能读写。

社区版 Kafka 不足：

在内外部业务的场景中，会经常遇到唯一键场景，由于社区版本的 Kafka的 high level 的消费模式（这种模式就决定无法预知数据被写入到哪一个Shard上），所以很难满足这一类场景。
社区版的 Kafka 引擎没有高可用，即使ClickHouse是多副本的，在当一个节点发生宕机时，无法保证另一个节点继续消费。

HaKafka引擎架构（分布式架构）

保持社区版本两级并发两大的优化点：

引入高可用，让备节点处于 stand-by 的状态，一旦主节点发生宕机，备节点立刻继续进行消费。
升级为low-level的消费模式，当数据写入的时候，相同的 key 会写到相同的 partition 里面，保证在同一个Shard下支持的唯一键场景。

ByteHouse增强HaKafka引擎核心功能实现

高可用（主备切换）

在备节点上起一个 stand by的consumer ，通过 ZK 来进行选组，选到的主节点进行消费，当主节点发生宕机或者无法进行服务时，在秒级之内切换到备节点上，让备节点继续消费。

假设现在 replica 1因为故障宕机了，无法继续进行消费，那么Z K能在秒级内把 replica 2 选为leader。replica 2 随即会立即启动相同数量的消费者，启动之后会继续从 replica 1 的消费位置开始继续进行消费。

替换节点

随着集群规模的增大，节点数越来越多的情况下，不可避免地遇到节点故障，这个时候就需要替换节点。

对于分布式架构，替换节点一个重要的操作就是拷贝数据，在拷贝数据的时候意味着新的节点的数据是不全的，如图示，示意图 replica 1为新替换的节点，还处于数据拷贝的状态，即数据是不全，如果此时实施消费的 leader 起在了 replica 1，就意味着最新的消费数据会写进 replica 1，但是它缺失一部分旧的数据。

而replica 2有旧的数据，它的最新数据还需要从replica 1进行拷贝，那这个时候下载之内没有一个副本上面的数据是完整的，所有的节点就不可能对外提供服务。

这时HaKafka会做强制限制，如果 replica 1是一个新节点，且还在拷贝数据的状态，那么就会强制把 leader 切换成 replica 2，由 replica 2 继续去消费最新的数据，replica 1保持继续拷贝数据，这样可以保证在节点替换的过程中至少有一个副本是能够正常提供服务。

Memory table

不同于社区的Memory Table和底层存储绑定，ByteHouse的Memory Table是和Hakafka绑定的，主要使用在有百列或者千列的大宽表的场景。

对于ClickHouse来说，每一次导入的写的文件的数量和列数是成正比的。如果列很多，但是每批次写入的数据量不大，这时每一次写入就会造成很多的碎片，这对于 IO的消耗会比较高，写入的性能其实也会比较差。

针对这种情况，考虑使用Memory Table，让写不直接落盘，每一次写先写到Memory Table中，攒到一定的批次或者到达一定的时间之后再一次性刷盘。

当数据写入Memory Table之后，就可以对外提供查询服务了，因为 memory table 是跟 Kafka 绑定的，在同一个下的内是唯一的。当查询来了之后，只需要路由到对应的消费节点下 the Memory Table，就能保证了数据查询的一致性。

云原生架构增强

分布式架构的痛点在于：

1.节点故障： 字节的集群规模较大，每周/每天会遇到节点故障的问题，需要进行节点替换，是一个比较大的负担。

2.读写冲突问题： 随着集群的接入的业务越来越多，数据量越来越大的情况下，每一个节点同时承担着查询和写入的操作，之间会有冲突。

3.扩容成本： 唯一键的场景对数据分布要求非常严格，扩容在这种场景下很难支持，因为扩容之后partition的映射关系发生了变化。

云原生架构优点在于，存算分离、自动扩容、自动容错轻量级的扩缩容等，因为云原生支持事物，让我们可以将消费语义增强到exactly once。

在云原生架构下的 Kafka 引擎是如何通过事务来实现 exactly once：
- 事务保证： 因为云原生架构有事务的支持，所以每一轮的消费都需要有事物来保证。因为 Catalog 的元信息和 Catalog 元信息的交互是在 Server 端进行的，所以第一步会通过 RPC 的请求向 Server 端请求创建消费事务，然后客户端创建正常，创建消费事务之后会把 transaction ID 给consumer， consumer 拿到这种全声音 ID 之后就可以开始正常地消费了。之后它就会从分配到的 partition 里面不停地消费数据，当消费到足够的数据量或者消费满足一定的时间时，它就会把消费的这数据转换为对应的 part 文件并dump到存储层。在 dump 之后，数据是不可见的，因为这个时候的 transaction 还没有提交，所以在第五步的时候，还是会通过一个 RPC 的 call 把刚才 dump 的元信息消费的 offseed 提交到 catalog 中。这一步是一个原子性的提交，也是我们的消费语义升级从 at least once 到 exactly once 的一个核心关键点
- 容错保证： 因为manager 和它具体之间的任务是在不同的节点上的，所以需要有一定的这种容错机制。当前是让 manager 和 task 之间保持一种一个双向的心跳机制来保证，比如说manager每隔 10 秒钟会去探活一次，看看当前任务是否正常运行，如果没有在正常运行，它就会重新拉起一个新的task。而对于 task 来说，它每一次的消费都会有两次的 RPC call 和 Server 端做交互，这两次的 RPC 交互都会向 manager 去校验自身的有效性，如果校验到自己当前是一个失效的状态，它就会把自己 kill 掉，从而保证整个全局的唯一任务的运行。
- Memory Buffer ： 与社区相似，Memory Buffer和底层的存储表绑定。因为都是写入底表的，不仅Kafka的导入可以用，Flink的导入也可以用。memory buffer 的使用场景是高频的小批量的导入场景，因为每一次导入都会写一个part，不停地写 part 会对集群产生压力。而 ClickHouse 的话，对 ClickHouse 来说 part 越多性能越差，所以使用 memory buffer 来缓存小批量的数据，到达一定批次之后再进行导入。首先需要有一个事务的保证，才能保证导入的完整性和一致性。另外它需要有WAL，因为首先把数据要先写到 WAL 中，数据写入到 WAL 中之后，就认为导入成功了，因为 WAL 本身也是一个持久化的存储，数据写入 WAL 之后，再将数据写入到 memory buffer。当数据写入了 memory buffer 之后就可以对外提供查询服务。

增强 Materialzed MySQL 实现方案

社区版 Materialzed MySQL 介绍

物化 MySQL 将MySQL的表映射到 ClickHouse 中， ClickHouse 服务会读取binlog，并执行 DDL 和 DML 的请求，实现了这种基于实现了基于 MySQL binlog 的实时 CDC 同步。它的架构很简单，不依赖于数据同步工具，使用自身的资源就能将整个 MySQL 的数据库同步到 ClickHouse中，并且时效性很好，因为实时同步的延时一般在秒级、毫秒级到秒级之间。

社区版本的这种物化MySQL 在很大程度上去解决了 MySQL 数据库到 ClickHouse 之间的这种实时同步。在实际业务、实际场景中，遇到不少问题：

1.社区版本的物化MySQL，它是不支持同步到分布式表，也不支持跳过DDL，缺乏这些功能就很难将数据库的引擎应用到实际生产中。

2.社区版本的物化 MySQL 不支持在数据同步发生异常时进行辅助，发生异常的时候发起重新同步的命令，它没有同步的日志信息和没有同步的状态信息，缺少了这些信息会导致同步发生异常的时候，很难在短期内把这些任务重新启动。

基于这些问题和痛点， ByteHouse在社区版本的物化 MySQL 的基础之上做了一些功能增强易用性，降低了运维成本，让数据的同步更加稳定。

ByteHouse的物化 MySQL 结合了HaUniqueMergeTree表引擎：结合这样的表引擎之后，它就能够实现数据的实时去重能力，同时它能够支持分布式的能力，我们通过底层的中间的参数优化，比如 include tables、 exclude tables、 SKIP DDL 等等能够允许用户自定义同步的表的同步范围。

通过下 model 这样的一个参数，能够支持分布式表的同步，然后通过 Rethink 参数的设置支持将额外增加的表启动独立的数据同步任务去进行 CDC 同步，在出现异常的时候，我们也支持跳过这种不支持的 DDL 语句。另外，可以通过系统日志的抓取和展示进行可视化的运维。

ByteHouse增强Materialzed MySQL核心功能实现

实时去重 / 分布式

社区版的物化 MySQL 使用的是ReplacingMergeTree，每一个同步任务都会将源端的 MySQL 数据库同步到 ClickHouse 的某一个节点上面，它不支持按照分片逻辑将数据分布到所有的节点，也无法利用 ClickHouse 整个集群的分布式计算和存储能力，所ByteHouse的物化MySQL 支持分布式地同步利用。我们利用HaUniqueMergeTree表引擎，将每张表同步到对应的分布式节点上，充分利用集群的这种分布式计算能力，同时通过表引擎的实时 upsert 能力来实现快速地去重。

异步 Resync

这里有三个对象， SYNC manager是用来管理主 SYNC 线程和 Resync 线程，然后 SYNC task 和 resync task 各自管理各自的任务。比如说一个 MySQL 的库有 100 张表，我们选了 50 张表进行同步，所以在同步进行过程中，当 think task 同步到 binlog 的 position 位置，比如到 1000 的时候，用户修改了配置之后，它增加了 30 张表。增加 30 张表的时候， SYNC manager 就会启动 Resync task 去同步另外 30 张表，那这个时候 SYNC task 是继续执行的；RESYNC task 会从 position 0 开始，它先做全量的同步，然后再做增量的同步。所以当到达某一个阶段，比如说 sync task 跑到了 position 1500 的时候， resync task 跑到了 position 1490 的时候，这时 SYNC manager 就会去判断两者的误差，这个 position 的误差在一定的阈值之内，在一定阈值之内之后，它会将 SYNC task 停止1秒钟，将 RESYNC task 合并到 SYNC task 中。合并成功之后，这 80 张表就都会通过SYNC task 继续同步，而 RESYNC task 这个任务就会被停止掉。这就是现在 RESYNC task 做了一个能力实现。

可视化运维

通过可视化的任务监控和任务启停异常的重启任务告警这些方式实现了物化 MySQL 的可视化易用性的极大提升。

案例实践与未来展望

案例一：短视频直播

该场景下的数据是批流一体写入，为了维护和管理抖音创作者的数据，并且面向这种业务运营和达人经营提供数据查询服务，需要将短视频和直播的实时数据和离线数据做融合，来构建 B端的数据分析。

问题： 首先，创作者是唯一的，需要我们进行数据去重。第二，数据源是比较多样化的，所以它整个字段超过 4000 ＋，是典型的大宽表场景。第三，T+1的数据，T+1数据离线同步后，T+0数据要对它进行更新。第四，是对任何指标的实时查询需要秒级出结果，这是业务面临的问题。
解决方案： 第一，我们采用了自研的 Unique表引擎来做实时的去重，并且能够让数据在写入时就可以实时去重、实时查询。第二，通过 Kafka 引擎的 memory table 来实现大宽表数据先缓存，到达了一定的批次之后再集中刷盘。通过对 Byte house 的优化方案有效地解决了碎片化、IO负载高的问题，能够支持 10 亿＋创作数据实时写入和实时查询。

案例二：营销实时数据的监控

营销实时监控是对业务营销活动效果的实时查询和实时回收，希望通过这种实时回收来动态调整奖品的实时发放策略来做到最终的 IOR、ROI 的提升。这就要求数据实时写入、落盘延时要非常低，对数据处理的性能也有很高的要求。在数据传送上面需要保证数据传输的唯一性，以保证奖品不会重复发放，也不会丢失。

解决方案： 我们在方案上首先采用自研的Kafka 引擎来支持流式数据的实时写入，实时写入便实时入库。通过 low-level 的这种消费来保证数据的有序分片，再通过增强的消费语义 exactly once 保证数据的精准一次传输。最后我们通过自研的Unique引擎来实现实时的这种 upsert 的语义，让数据实时写入、实时去重。通过 ByteHouse 方案的优化，营销业务的每一个节点的实时性能达到了 30 MB/s/node，分析性能也是在秒级的延时，让运营人员能根据不同用户群，实时发放奖励，并秒级地监控奖品发放的进展，从而调整奖品的发放策略。

案例三：游戏广告的数据分析

游戏广告数据分析是在广告业务中会做一些人群圈选、广告投放、效果反馈等投放策略，用户行为预测这些全流程的统计和监控来实现广告营销过程的数字化，提升整个广告游戏投放的 ROI 。

问题： 业务数据和日志数据要求实时写入、实时去重，由于体量比较大，所以写入压力和查询压力都比较大。
解决方案： 首先使用 Kafka 引擎来支持流式数据写入，通过 low level 消费模式保障数据的有序分片，再通过 Unique引擎来实现数据的唯一性，并且实时地去重。在业务数据方面，我们使用物化MySQL来保障业务数据从 MySQL 到 ByteHouse 之间能够实时同步。最后使用自研的查询优化器来优化查询性能，通过ByteHouse 的优化之后，广告效果分析从原来的小时级提升到了现在的秒级延时数据查询的性能，单线程同步 20+MB/s ，并且整个查询性能提升了 3 倍，用户的收益和体验得到了明显的改善。

未来战略：全链路和一体化

端到端。从语法转换、数据迁移，到数据校验，形成完整的全链路方案。
一体化。通过DES的逻辑复制能力实现 TP / AP 的一体化，同时实现数据仓库和数据集市的一体化。
资源隔离。支持用户使用共享资源池或者数据库引擎来进行数据的同步，也支持用户通过独享的资源池来进行高效数据同步。
多引擎方案。除了基于 ClickHouse 引擎的基础能力，我们也会去探索更多的底层引擎能力来增强ByteHouse的数据同步。

火山引擎 ByteHouse 的增强型数据导入技术实践

作为企业数字化建设的必备要素，易用的数据引擎能帮助企业提升数据使用效率，更好提升数据应用价值，夯实数字化建设基础。数据导入是衡量OLAP引擎性能及易用性的重要标准之一，高效的数据导入能力能够加速数据实时处理和分析的效率。…...

编程日记 2023/11/22 23:15:56

依赖库：Ceres-solver-2.0.0安装

依赖库：Ceres-solver-2.0.0安装前言安装ceres-solver-2.0.0验证前言 Ceres Solver是谷歌开源的C非线性优化库，能够解决有约束或无约束条件下的非线性最小二乘问题。2010年之后大量的运用在谷歌的产品开发中，尤其在谷歌开源的cartographer中…...

编程日记 2023/11/22 23:14:55

LeSS敏捷框架高效生产力实践

每个团队可能都有一套适合自己的敏捷方法，本文介绍了ResponseTap工程团队通过采用LeSS框架、引入准备周，从而提升迭代冲刺研发效能的实践。原文: LeSS Agile, More Productive — Part 1: Pain[1], LeSS Agile, More Productive — Part 2: Promise, LeS…...

编程日记 2023/11/22 23:13:55

matlab绘图函数plot和fplot的区别

一、背景有的函数用plot画就会报错，显示数据必须为可转换为双精度值的数值、日期时间、持续时间、分类或数组。如下图所示： 但用fplot函数就没有问题，因此这里记录一下两者的区别，如果使用不当，画出的图可能就是下…...

编程日记 2023/11/22 23:12:54

场景交互与场景漫游-对象选取（8-2）

对象选取示例的代码如程序清单8-11所示： /******************************************* 对象选取示例 *************************************/ // 对象选取事件处理器 class PickHandler :public osgGA::GUIEventHandler { public:PickHandler() :_mx(0.0f), _my…...

编程日记 2023/11/22 23:11:52

模拟Spring源码思想，手写源码，理解注解

1、BeanDefinition package com.csdn.myspring; import lombok.AllArgsConstructor; import lombok.Data; Data AllArgsConstructor public class BeanDefinition {private String beanName;private Class beanClass; }2、扫描包的工具类MyTools package com.csdn.myspring; im…...

编程日记 2023/11/22 23:10:51

各种LLM数据集包括SFT数据集

各种LLM数据集包括SFT数据集数集介绍和 hf上的名字对话数据生成方法交通领域数据集SFT 的解释数集介绍和 hf上的名字通用预训练数据集 SFT datasets SFT 数据集 50万条中文ChatGPT指令Belle数据集：BelleGroup/train_0.5M_CN 100万条中文ChatGPT指令Belle数据集：BelleGrou…...

编程日记 2023/11/22 23:09:51

Sleuth

Sleuth 一引言随着服务的越来越多，对调⽤链的分析会越来越复杂。它们之间的调⽤关系也许如下图： 问题： 1：微服务之间的调⽤错综复杂，⽤户发送的请求经历那些服务，调⽤链不清楚，没有⼀个⾃…...

编程日记 2023/11/22 23:08:50

新手必看!!附源码!!STM32通用定时器输出PWM

一、什么是PWM? PWM（脉冲宽度调制）是一种用于控制电子设备的技术。它通过调整信号的脉冲宽度来控制电压的平均值。PWM常用于调节电机速度、控制LED亮度、产生模拟信号等应用。二、PWM的原理 PWM的基本原理是通过以一定频率产生的脉冲信号&#xff0…...

编程日记 2023/11/22 23:07:49

静态文件鉴权

静态文件鉴权的解决方案背景介绍 XX业务系统作为BXX业务系统的孪生姐妹系统，是对BXX受理业务的强力补充系统，他允许操作员拿着IPAD，和客户约定地点上门受理业务。因一些业务的受理，按照最新的业务规章制度，需…...

编程日记 2023/11/22 23:06:48

计算机视觉与机器学习D1

计算机视觉简介技术背景了解人工智能方向、热点目前人工智能的技术方向有： 1、计算机视觉——计算机视觉(CV)是指机器感知环境的能力；这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功…...

编程日记 2023/11/22 23:05:47

layui（2.8.18）生成验证码

<!DOCTYPE html> <html> <head><meta charset"utf-8"><title>登入</title><meta name"renderer" content"webkit"><meta http-equiv"X-UA-Compatible" content"IEedge,chrome1&quo…...

编程日记 2023/11/22 23:04:47

MAX/MSP SDK学习05：A_GIMME方法

今天终于将A_GIMME方法部分的描述看懂了，上周因为太赶时间加上这文档很抽象一直没看懂。也就那么一回事，记录一下。 A_GIMME方法用于接收多个参数。 ①内置消息选择器传递多个参数时一定要使用A_GIMME； ②自定义消息选择器传递多个参数时建…...

编程日记 2023/11/22 23:03:46

LangChain: 类似 Flask/FastAPI 之于 Django，LangServe 就是「LangChain 自己的 FastAPI」

原文：LangChain: 类似 Flask/FastAPI 之于 Django，LangServe 就是「LangChain 自己的 FastAPI」 - 知乎说明：LangServe代替 langchainserver 成为新的langchain 部署工具官网资料：🦜️🏓 LangServe | &…...

编程日记 2023/11/22 23:01:44

mmdet全教程

官方给的文档一言难尽，网上的教程又没有从大纲到源码的完整解读，计划年后开个系列记录一下...

编程日记 2023/11/22 23:00:43

1992-2021年省市县经过矫正的夜间灯光数据（GNLD、VIIRS）

1992-2021年省市县经过矫正的夜间灯光数据（GNLD、VIIRS） 1、时间：1992-2021年3月，其中1992-2013年为年度数据，2013-2021年3月为月度数据 2、来源：DMSP、VIIRS 3、范围：分区域汇总&#xff1a…...

编程日记 2023/11/22 22:59:42

Guava的Retryer

Retryer类是Guava库中的一个重试工具类，它提供了一种在调用方法时自动重试的机制。Retryer类中的call()方法用于执行需要重试的方法，如果方法执行失败，则Retryer会根据配置的规则进行重试。Retryer类可以配置重试的次数、重试间隔时间、重试的…...

编程日记 2023/11/22 22:58:41

Docker实践笔记7：构建MySQL 8镜像

使用Docker构建MySQL 8镜像并运行容器本教程将指导您使用Dockerfile构建和运行一个MySQL 8容器。让我们开始吧！ 步骤1：创建Dockerfile 在您的项目根目录下创建一个名为Dockerfile的文件。以下是Dockerfile的示例内容： # 基于最新的MySQL…...

编程日记 2023/11/22 22:57:40

# 学习 Prolog 和离散逻辑的16个等价公式：一趟有趣的逻辑之旅

Prolog 的语法很奇怪,需要一些时间来适应,所以我花了点时间,想用Prolot来学习和验证离散逻辑的16组等价公式。 1. 双重否定律 (Double Negation Law) A ⇔A 首先，我们来看看双重否定律。在 Prolog 中，我们可以这样验证它： fun1(A,Z):-memb…...

编程日记 2023/11/22 22:56:39

Win11+Modelsim SE-64 10.6d搭建UVM环境

1、添加源文件及tb文件在目录下建立文件夹，将DUT和Testbench添加进去，文件夹内容如下所示： 2、以《UVM实战》中的例子做简单的示例： 2.1 设计文件 ：dut.sv 功能很简单，即将接受到的数据原封不动发送出去…...

编程日记 2023/11/22 22:55:38

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2026/2/15 12:52:24

Unity3D中Gfx.WaitForPresent优化方案

前言在Unity中，Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染（即CPU被阻塞），这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案： 对惹，这里有一个游戏开发交流小组&…...

编程新知 2026/2/16 0:20:29

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别，用于控制事务之间的并发访问以及数据的可见性，不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式，具体如下：隔离级别脏读不可重复读幻读性能特点及锁机制读未提交（READ UNCOMMITTED）允许出现允许…...

编程新知 2025/9/16 21:01:58

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/12/16 4:45:38

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2026/1/31 17:09:43

Cloudflare 从 Nginx 到 Pingora：性能、效率与安全的全面升级

在互联网的快速发展中，高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司，近期做出了一个重大技术决策：弃用长期使用的 Nginx，转而采用其内部开发…...

编程新知 2026/2/12 0:57:35

华为OD最新机试真题-数组组成的最小数字-OD统一考试（B卷）

题目描述给定一个整型数组，请从该数组中选择3个元素组成最小数字并输出 (如果数组长度小于3，则选择数组中所有元素来组成最小数字)。输入描述行用半角逗号分割的字符串记录的整型数组，0<数组长度<= 100，0<整数的取值范围<= 10000。输出描述由3个元素组成…...

编程新知 2025/9/21 23:43:15

k8s从入门到放弃之Pod的容器探针检测

k8s从入门到放弃之Pod的容器探针检测在Kubernetes（简称K8s）中，容器探测是指kubelet对容器执行定期诊断的过程，以确保容器中的应用程序处于预期的状态。这些探测是保障应用健康和高可用性的重要机制。Kubernetes提供了两种种类型…...

编程新知 2025/11/5 7:49:23

深入理解 C++ 左值右值、std::move 与函数重载中的参数传递

在 C 编程中，左值和右值的概念以及std::move的使用，常常让开发者感到困惑。特别是在函数重载场景下，如何合理利用这些特性来优化代码性能、确保语义正确，更是一个值得深入探讨的话题。在开始之前，先提出几个问题&…...

编程新知 2026/2/9 21:07:03

数据库优化实战指南：提升性能的黄金法则

在现代软件系统中，数据库性能直接影响应用的响应速度和用户体验。面对数据量激增、访问压力增大，数据库性能瓶颈经常成为项目痛点。如何科学有效地优化数据库，提升查询效率和系统稳定性，是每位开发与运维人员必备的技能。本文结…...

编程新知 2026/1/14 10:20:05