bazel远程缓存(Remote Cache)
原理
您可以将服务器设置为构建输出(即这些操作输出)的远程缓存。这些输出由输出文件名列表及其内容的哈希值组成。借助远程缓存,您可以重复使用其他用户的 build 中的构建输出,而不是在本地构建每个新输出。
增量构建极大的提升了本地研发的构建效率,但有些场合它的效果不是很好,例如 CI 环境通常采用“干净”的容器,此时没有上一次的构建数据,只能全量构建。
即使是本地研发,如果从远端同步代码时修改了全局参数,也会导致增量构建失效。
缓存 (Remote Cache) 与远程执行 (Remote Execution) 可以很好的解决这个问题。
前面聊到,Action 满足封闭性,即相同的 Action 信息一定产生相同的结果。因此可以建立 Action 到 ActionResult 的映射。为了便于索引,Bazel 把 Action 信息通过 sha256 哈希算法压缩成摘要 (Digest),把 Digest 到 ActionResult 的映射存储在云端,就可以实现 Action 的跨构建共享。

Action 共享示意图
这里的 Storage 是完全基于内容寻址的,即“一个 Digest 唯一对应一个 ActionResult”,内容寻址的好处是不容易污染存储空间,因为修改任何一行代码会计算出不同的 Digest,不用担心污染别人的 ActionResult。内容寻址的存储引擎,被称为Content Addressable Storage(CAS),如果没有特别强调,本文后续使用简称 CAS 来表述。
CAS 里存放的任何文件,无论是 Action 的 Meta 信息还是编译产物二进制,都被称为 Blob。
为保证 CAS 的存储空间被有效利用,通常会使用 LRU 算法管理 CAS 里存储的 Blob,当存储空间写满时,最久没被访问的 Blob 就会被自动淘汰,这样就保证了空间里的 Blob 是最活跃的。
部署
部署&运行
前面讲了Bazel的基本本地使用和原理,但是我们知道,Bazel最重要的是支持缓存和分布式(远程执行),那么这一节主要就是讲如何让bazel使用缓存。
要能够缓存Bazel每个action的输出,我们就要一个server来实现remote cache,用于存储action的输出。这些输出实际上是一堆文件输出对应的hash值。总体来说,我们需要满足三个前提:
-
设置一个server作为cache backend
-
配置Bazel build去使用cache
-
Bazel版本要在0.10.0以上
Cache本身会存储两种数据:
-
action cache,或者说实际上是一个acton->action result的map映射表
-
一个可寻址(addressable)的输出文件存储系统
https://docs.bazel.build/versions/master/remote-caching.html 中对Bazel Remote Cache的使用和工作有更详细的介绍,就不重复了。这里直接讲到底怎么设置一个Bazel Remote Cache Server. 在上面这个链接中提到了三种方式:
-
NGINX的WebDAV模块
-
开源的bazel-remote
-
Google Cloud Storage
这里我们直接选择第二种:开源的bazel-remote,以便可能的定制及更好理解内部实现。
buchgr/bazel-remote
这里我们不用去重新编译运行,直接下载对应的docker镜像并运行即可
$docker pull buchgr/bazel-remote-cache
bazel-remote支持grpc和http的接口调用,但注意docker内部应用的http接口应该是8080而不是9090(官方文档有误)。
创建一个目录cache, 然后启动docker容器如下
path=`pwd`;docker run -v $path/cache:/data -p 9090:8080 -p 9092:9092 buchgr/bazel-remote-cache
备注:
-
需要提前创建cache目录或者失败后对目录加777权限,并用-u指定当前用户的uid和gid,否则会报mkdir /data/cas.v2:permission denied。即docker run -u $uid:$gid -v xxx
-
建议用--max_size限制缓存目录的大小。一般在命令最后加上 --maz_size=50
我们可以看到一堆输出:
2020/10/13 16:12:20 bazel-remote built with go1.14.5 from git commit cc9030667416ab63d89b9fbf543f0243292009b4.
2020/10/13 16:12:20 Initial RLIMIT_NOFILE cur: 1048576 max: 1048576
2020/10/13 16:12:20 Setting RLIMIT_NOFILE cur: 1048576 max: 1048576
2020/10/13 16:12:21 Migrating files (if any) to new directory structure: /data/ac
2020/10/13 16:12:21 Migrating files (if any) to new directory structure: /data/cas
2020/10/13 16:12:21 Loading existing files in /data.
2020/10/13 16:12:23 Sorting cache files by atime.
2020/10/13 16:12:23 Building LRU index.
2020/10/13 16:12:23 Finished loading disk cache files.
2020/10/13 16:12:23 Loaded 0 existing disk cache items.
2020/10/13 16:12:23 Starting HTTP server on address :8080
2020/10/13 16:12:23 HTTP AC validation: enabled
2020/10/13 16:12:23 Starting HTTP server for profiling on address :6060
2020/10/13 16:12:23 Starting gRPC server on address :9092
2020/10/13 16:12:23 gRPC AC dependency checks: enabled
2020/10/13 16:12:23 experimental gRPC remote asset API: disabled
然后可以通过其/status接口来查看是否正常启动
$curl http://localhost:9090/status
{"CurrSize": 0,"MaxSize": 5368709120,"NumFiles": 0,"ServerTime": 1602605641,"GitCommit": "cc9030667416ab63d89b9fbf543f0243292009b4"
}
另外我们也可以查看cache目录下是否生成了对应文件:

这时就可以在运行bazel build的时候指定remote cache server的地址:
$bazel build //src/main:app --remote_cache=http://localhost:9090
INFO: Invocation ID: a9a389d2-1e9f-4878-b65b-586e7b70fa35
INFO: Analyzed target //src/main:app (0 packages loaded, 0 targets configured).
INFO: Found 1 target...
Target //src/main:app up-to-date:bazel-bin/src/main/app_deploy.jarbazel-bin/src/main/app_unsigned.apkbazel-bin/src/main/app.apk
INFO: Elapsed time: 3.271s, Critical Path: 3.02s
INFO: 12 processes: 9 darwin-sandbox, 3 worker.
INFO: Build completed successfully, 13 total actions
备注:
为了避免本地缓存对远程缓存的影响,在执行构建前清理本地缓存。运行以下命令可删除输出文件,并可选择停止服务器。:
bazel clean
检查缓存命中率
在 Bazel 运行的标准输出结果中,查看列出进程的 INFO 行,该进程大致对应于 Bazel 操作。运行操作所在的行详细信息。查找 remote 标签,该标签表示远程执行的操作、linux-sandbox 在本地沙盒内执行的操作,以及用于其他执行策略的其他值。操作来自远程缓存的操作会显示为 remote cache hit。
例如:
INFO: 11 processes: 6 remote cache hit, 3 internal, 2 remote.
在此示例中,有 6 次远程缓存命中,有 2 项操作没有缓存命中,且远程执行了这些命中。这 3 个内部部分可以忽略。 它通常是微小的内部操作,例如创建符号链接。此摘要不包含本地缓存命中。如果获得 0 个进程(或低于预期的数字),请运行 bazel clean,后跟构建/测试命令。
在docker一侧,我们可以看到输出

可以看到cache主要是通过http put/get,并使用hash作为key来进行对应结果的查找。
我们重复几次bazel build后可以看到耗时很短,只有不到0.3秒:
INFO: Analyzed target //src/main:app (0 packages loaded, 0 targets configured).
INFO: Found 1 target...
Target //src/main:app up-to-date:bazel-bin/src/main/app_deploy.jarbazel-bin/src/main/app_unsigned.apkbazel-bin/src/main/app.apk
INFO: Elapsed time: 0.286s, Critical Path: 0.03s
INFO: 0 processes.
INFO: Build completed successfully, 1 total action
这显然是cache的作用,我们也可以在BUILD文件中禁止cache。这实际上是对rule的tags设置(我们在以后再讲如何定义rule),我们在这里可以尝试对java_library这个rule添加tag,禁止cache。修改src/main/java/com/example/bazel/util/BUILD中的java_library属性如下:

这样bazel就不会对该BUILD的结果进行缓存,读者可以自行尝试对比,这里就不过多展示实验结果。
排查缓存命中问题
如果您没有获得预期的缓存命中率,请执行以下操作:
确保重新运行相同的构建/测试命令会生成缓存命中
1.运行您希望填充缓存的构建和/或测试。首次在特定堆栈上运行新 build 时,应该不会有任何远程缓存命中。在远程执行过程中,操作结果会存储在缓存中,后续运行结果应该会提取这些结果。
2.运行 bazel clean。此命令会清理您的本地缓存,这样一来,您便可以调查远程缓存命中,而结果不会被本地缓存命中遮盖。
3.(在同一机器上)运行调查的 build 和测试。
4.请查看 INFO 行,了解缓存命中率。如果您看到除 remote cache hit 和 internal 以外的任何进程,则表明您的缓存已正确填充和访问。在这种情况下,请跳到下一部分。
5.可能的差异来源是 build 中非封闭的内容,导致操作在两次运行中接收不同的操作键。如需找到这些操作,请执行以下操作:
a.重新运行相关 build 或测试以获取执行日志:
bazel clean
bazel --optional-flags build //your:target --execution_log_binary_file=/tmp/exec1.log
b. 在两次运行之间比较执行日志。确保两个日志文件中的操作完全相同。 通过差异,您可以了解两次运行之间的变化。请更新您的 build 以消除这些差异。
如果您能够解决缓存问题,并且现在重复运行会生成所有缓存命中,请跳到下一部分。
如果您的操作 ID 相同,但没有任何缓存命中,则表示配置中有某项内容阻止了缓存。继续完成此部分,检查是否存在常见问题。
如果您不需要区分执行日志,则可以改用直观易懂的 --execution_log_json_file 标志。它包含执行时间,并且不能保证顺序,因此无法用于稳定差异比较。
6.检查执行日志中的所有操作是否均将 cacheable 设置为 true。如果指定操作的执行日志中未显示 cacheable,则表示相应规则在 BUILD 文件的定义中可能有 no-cache 标记。查看执行日志中直观易懂的 progress_message 字段,以帮助确定操作的来源。
7.如果操作相同且为 cacheable 但没有缓存命中,则您的命令行中可能包含针对 build 停用缓存查询的 --noremote_accept_cached。 如果难以确定实际命令行,请使用 Build Event Protocol 中的规范命令行,如下所示: a.将 --build_event_text_file=/tmp/bep.txt 添加到 Bazel 命令中,以获取日志的文本版本。 b. 打开日志的文本版本,然后使用 command_line_label: "canonical" 搜索 structured_command_line 消息。 展开之后会列出所有选项。 c.搜索 remote_accept_cached 并检查其是否已设置为 false。 d. 如果 remote_accept_cached 为 false,请确定它位于 false 的位置:在命令行中或在 bazelrc 文件中。
确保可以跨机器进行缓存
在同一台计算机上按预期执行缓存命中后,在其他机器上运行相同的构建/测试。如果您怀疑缓存未在机器间运行,请执行以下操作:
1.对构建稍作修改,以避免命中现有缓存。
2.在第一台机器上运行构建:
bazel clean
bazel ... build ... --execution_log_binary_file=/tmp/exec1.log
3.在第二台机器上运行 build,确保包含第 1 步中所做的修改:
bazel clean
bazel ... build ... --execution_log_binary_file=/tmp/exec1.log
4.比较两次运行的执行日志。如果日志不相同,请调查构建配置是否存在差异,以及主机环境中是否存在泄露到任一 build 中的属性。
比较执行日志
执行日志包含构建期间执行的所有操作的记录。每个操作都有一个 SpawnExec 元素,其中包含操作键中的所有信息。因此,如果日志相同,则操作缓存键也相同。
如需比较两个未按预期共享缓存命中的构建的日志,请执行以下操作:
1.从每个 build 中获取执行日志,并将其存储为 /tmp/exec1.log 和 /tmp/exec2.log。
2. 下载 Bazel 源代码,然后使用以下命令导航到 Bazel 文件夹。您需要使用源代码来使用 execlog 解析器解析执行日志。
git clone https://github.com/bazelbuild/bazel.git
cd bazel
3.使用执行日志解析器将日志转换为文本。以下调用还会对第二个日志中的操作进行排序,以匹配第一个日志中的操作顺序,以方便比较。
bazel build src/tools/execlog:parser
bazel-bin/src/tools/execlog/parser \--log_path=/tmp/exec1.log \--log_path=/tmp/exec2.log \--output_path=/tmp/exec1.log.txt \--output_path=/tmp/exec2.log.txt
4.使用您最喜欢的文本,差异为 /tmp/exec1.log.txt 和 /tmp/exec2.log.txt。
实际上,remote caching只是最基本的一个结果缓存机制,部署和使用都很简单,这里也只是对此进行快捷说明。小团队完全可以用这种方式来部分提升效率。而远程执行(Remote Execution)往往集成了缓存功能,因此在实际大型团队部署中一般不会专门对Remote Cache创建server。我们在下一节来介绍Remote Execution.
本文属于如下文章中的子章节
bazel学习系列章节汇总_m0_74043383的博客-CSDN博客
相关文章:
bazel远程缓存(Remote Cache)
原理 您可以将服务器设置为构建输出(即这些操作输出)的远程缓存。这些输出由输出文件名列表及其内容的哈希值组成。借助远程缓存,您可以重复使用其他用户的 build 中的构建输出,而不是在本地构建每个新输出。 增量构建极大的提升…...
算法竞赛入门经典习题2-6 排列(permutation)
排列(permutation)——算法竞赛入门经典_还记得樱花正开~的博客-CSDN博客 上面的代码很厉害,学习...我的代码水平就比较差了... #include <cstdio> #include <set>int main(){for(int i 123; i < 329; i){std::set<int&…...
队列的链表实现 题目(难度1/10)
C数据结构与算法 目录 队列介绍 队列这种容器,就像大家排队上公交车一样。 第一个来到的人排在最前面; 最后来的排在最后面; 第一个先上车(离开队列); 队列的接口 队列是有如下接口的容器࿱…...
SpringMVC常用的三种获取请求参数的方式
在Spring MVC中,可以使用多种方式来获取请求参数。下面我将介绍常用的几种方式,并提供相关的示例代码。 1. 使用RequestParam注解获取请求参数 RequestParam注解用于从请求中获取指定名称的参数值,并将其绑定到方法参数上。如果请求中没有找…...
2023开学礼新疆理工学院图书馆藏八一新书《乡村振兴战略下传统村落文化旅游设计》许少辉新财经理工
2023开学礼新疆理工学院图书馆藏八一新书《乡村振兴战略下传统村落文化旅游设计》许少辉新财经理工...
数据结构----结构--线性结构--字符串
数据结构----结构–线性结构–字符串 一.字符串的定义方式 第一种: char* str1"Hello"第二种: char str2[]"Hello";区别 1.所在区域不同 //str1在常量区//str2在这里的写法是在栈区2.元素是否可改 //str1中的元素不可改//st…...
数据工厂-生成接口通用用例
章节目录: 一、背景介绍二、前置准备三、设计思路四、代码具体实现五、执行效果六、其他说明七、结束语 一、背景介绍 有哪些用例是可以通用且固定的? 针对之前提到的接口用例设计思路,拆分为三个切入点: 举个例子: {…...
N 字形变换
N 字形变换 题目: 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。比如输入字符串为 "PAYPALISHIRING" 行数为 3 时,排列如下:P A H N A P L S I I G Y I R 之后,你的输…...
STM32+RTThread配置以太网无法ping通,无法获取动态ip的问题
记录一个非常蠢的问题,今天在移植rtthread的以太网驱动的时候出现无法获取动态ip的问题,问题如下: 设置为动态ip时不管是连接路由器还是电脑主机都无法ping通,也无法获取dns地址。 设置为静态ip时无法ping通主机。 使用wireshark…...
python编写MQTT订阅程序
Download | Eclipse Mosquitto 1、下载: https://mosquitto.org/files/binary/win64/mosquitto-2.0.17-install-windows-x64.exe 2、安装: 3、conf配置 1)使用notepad打开“C:\Program Files\mosquitto\mosquitto.conf”另存为c:\myapp\msquitto\mo…...
mysql 中 cast 函数用法
在 MySQL 中,CAST() 函数用于将一个表达式转换为指定的数据类型。它可以用于多种场景,例如将字符串转换为数字,或者将日期时间转换为特定格式。 以下是 CAST() 函数的基本语法: CAST(expression AS datatype) 其中,…...
MongoDB 的简介
MongoDB 趋势 对于 MongoDB 的认识 Q&A QA什么是 MongoDB? 一个以 JSON 为数据模型的文档数据库一个以 JSON 为数据模型的文档数据库文档来自于“JSON Document”,并非我们一般理解的 PDF,WORD谁开发 MongDB? 上市公司 MongoD…...
是否在业务中使用大语言模型?
ChatGPT取得了巨大的成功,在短短一个月内就获得了1亿用户,并激发了企业和专业人士对如何在他们的组织中利用这一工具的兴趣和好奇心。 但LLM究竟是什么,它们如何使你的企业受益?它只是一种炒作,还是会长期存在? 在这篇文章中我…...
37. 交换字符(第三期模拟笔试)
题目: 给定一个01串(仅由字符0和字符1构成的字符串)。每次操作可以交换两个相邻的字符。 例如:对于字符串"001110"来说, 可以交换第二个字符0和第三个字符1,交换之后的字符串变成了"0101…...
git 查看当前分支最近一次提交的commit SHA
获取当前分支最近一次commit SHA (长度为40个16进制数字的字符)命令如下: git rev-parse HEAD 获取简写(短) commit SHA git rev-parse --short HEAD...
LuatOS 开发指南
NDK 开发 官方教程 官方例程 API 下载软件 下载官方NDK例程压缩包到本地,并解压。可以看到目录如下: doc: 文档教程 env: 编译环境 example: NDK示例 platform: 需要编译的平台(air72x/air8xx) tools: 其他辅助软件 VSCode 使…...
maven推包The environment variable JAVA_HOME is not correctly set
解决办法: 打开idea查看jdk安装位置 1.在/etc下面创建(如果存在就是更新)launchd.conf。里面添加一行: setenv JAVA_HOME /Library/Java/JavaVirtualMachines/jdk1.8.0_351.jdk/Contents/Home #JAVA_HOME后面是我的java安装路径…...
Python VScode 配置
在上一章节中我们已经安装了 Python 的环境,本章节我们将介绍 Python VScode 的配置。 准备工作: 安装 VS Code安装 VS Code Python 扩展安装 Python 3 安装 VS Code VSCode(全称:Visual Studio Code)是一款由微软…...
【vue2第九章】组件化开发和根组件以及style上的scoped作用
组件化开发和根组件 什么是组件化开发? 一个页面可以拆分为多个组件,每个组件有自己的样式,结构,行为,组件化开发的好处就是,便于维护,利于重复利用,提升开发的效率。 便于维护&…...
从零开始的Hadoop学习(五)| HDFS概述、shell操作、API操作
1. HDFS 概述 1.1 HDFS 产出背景及定义 1)HDFS 产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切 需要一种系统来管理多台机器上的…...
MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例
一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...
iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...
生成 Git SSH 证书
🔑 1. 生成 SSH 密钥对 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明: -t rsa&#x…...
JVM虚拟机:内存结构、垃圾回收、性能优化
1、JVM虚拟机的简介 Java 虚拟机(Java Virtual Machine 简称:JVM)是运行所有 Java 程序的抽象计算机,是 Java 语言的运行环境,实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 JVM 上运行的目标代码(字节码),就可以…...
JVM 内存结构 详解
内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 每个线程都有一个程序计数…...
嵌入式学习笔记DAY33(网络编程——TCP)
一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...
Python+ZeroMQ实战:智能车辆状态监控与模拟模式自动切换
目录 关键点 技术实现1 技术实现2 摘要: 本文将介绍如何利用Python和ZeroMQ消息队列构建一个智能车辆状态监控系统。系统能够根据时间策略自动切换驾驶模式(自动驾驶、人工驾驶、远程驾驶、主动安全),并通过实时消息推送更新车…...
宇树科技,改名了!
提到国内具身智能和机器人领域的代表企业,那宇树科技(Unitree)必须名列其榜。 最近,宇树科技的一项新变动消息在业界引发了不少关注和讨论,即: 宇树向其合作伙伴发布了一封公司名称变更函称,因…...
Qemu arm操作系统开发环境
使用qemu虚拟arm硬件比较合适。 步骤如下: 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载,下载地址:https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...
离线语音识别方案分析
随着人工智能技术的不断发展,语音识别技术也得到了广泛的应用,从智能家居到车载系统,语音识别正在改变我们与设备的交互方式。尤其是离线语音识别,由于其在没有网络连接的情况下仍然能提供稳定、准确的语音处理能力,广…...
