在Docker中部署DataKit最佳实践
本文主要介绍如何在 Docker 中安装 DataKit。
配置和启动 DataKit 容器
登陆观测云平台,点击「集成」 -「DataKit」 - 「Docker」,然后拷贝第二步的启动命令,启动参数按实际情况配置。

拷贝启动命令:
sudo docker run \--hostname "$(hostname)" \--workdir /usr/local/datakit \-v "/etc/conf/dir/conf.d":"/usr/local/datakit/conf.d/host-inputs-conf"-v "/":"/rootfs" \-v /var/run/docker.sock:/var/run/docker.sock \-e ENV_DATAWAY="https://openway.guance.com?token=tkn_XXXX" \-e ENV_DEFAULT_ENABLED_INPUTS='cpu,disk,diskio,mem,swap,system,net,host_processes,hostobject,container,dk' \-e ENV_GLOBAL_HOST_TAGS="tag1=a1,tag2=a2" \-e ENV_HTTP_LISTEN="0.0.0.0:9529" \-e HOST_PROC="/rootfs/proc" \-e HOST_SYS="/rootfs/sys" \-e HOST_ETC="/rootfs/etc" \-e HOST_VAR="/rootfs/var" \-e HOST_RUN="/rootfs/run" \-e HOST_DEV="/rootfs/dev" \-e HOST_ROOT="/rootfs" \--cpus 2 \--memory 1g \--privileged \--publish 9529:9529 \--name datakit-docker \-d \pubrepo.guance.com/datakit/datakit:1.66.2
容器启动后,查看是否启动成功:
docker ps
如下所示,启动成功:

启动参数说明:
--hostname:将宿主机的主机名作为 DataKit 运行的主机名,如果需要在当前宿主机上运行多个 DataKit,可以给它适当加一些后缀 --hostname "$(hostname)-dk1"--workdir:设置容器工作目录-v:各种宿主机文件挂载:- DataKit 中有很多配置文件,我们可以将其在宿主机上准备好,通过 -v 一次性整个挂载到容器中去(容器中的路径为 conf.d/host-inputs-conf 目录)
- 此处将宿主机根目录挂载进 Datakit,目的是访问宿主机上的各种信息(比如 /proc 目录下的各种文件),便于默认开启的采集器采集数据
- 将 docker.sock 文件挂载进 Datakit 容器,便于 container 采集器采集数据。不同宿主机该文件目录可能不同,需按照实际来配置
-e:各种 Datakit 运行期的环境变量配置,这些环境变量功能跟 DaemonSet 部署 时是一样的ENV_DATAWAY: 将 token 粘贴到 ENV_DATAWAY 环境变量值中 “token=”--publish:便于外部将 Trace 等数据发送给 Datakit 容器,此处我们将 Datakit 的 HTTP 端口映射到外面的 9529 上,诸如 trace 数据设置发送地址的时候,需关注这个端口设置。--name: 指定 Docker 容器名称,否则,name 将随机生成- 此处对该运行的 DataKit 设置了 2C 的 CPU 和 1GiB 内存限制
假如我们在 /host/conf/dir 目录下配置了如下一些采集器:
- APM:DDTrace/OpenTelemetry 等采集器
- Prometheuse exporter:在当前 docker 环境中,某些应用容器暴露了自身指标(一般形如 http://ip:9100/metrics),那么我们可以将其端口暴露出来,然后编写 prom.conf 来采集这些指标
- 日志采集:如果某些 Docker 容器将日志写入了宿主机的某个目录,我们可以单独编写日志采集配置来采集这些文件。不过事先我们需要通过 -v 将这些宿主机的目录挂载进 Datakit 容器。另外,默认开启的 container 采集器,会自动采集所有容器的 stdout 日志
登陆观测云平台,点击「基础设施」 - 「容器」,查看名称为 datakit-docker 容器是否上报,点击进入查看容器详情。


场景演示
如何使用 Docker 的 DataKit 采集用户应用访问数据。
开启 RUM 采集器
在挂载的目录 /etc/conf/dir/conf.d 下创建 rum 目录,然后在 rum 目录下,新建 rum.conf 文件,内容如下:
# {"version": "1.66.2", "desc": "do NOT edit this line"} [[inputs.rum]] ## profile Agent endpoints register by version respectively. ## Endpoints can be skipped listen by remove them from the list. ## Default value set as below. DO NOT MODIFY THESE ENDPOINTS if not necessary. endpoints = ["/v1/write/rum"] ## used to upload rum session replay. session_replay_endpoints = ["/v1/write/rum/replay"] ## specify which metrics should be captured. measurements = ["view", "resource", "action", "long_task", "error", "telemetry"] ## Android command-line-tools HOME android_cmdline_home = "/usr/local/datakit/data/rum/tools/cmdline-tools" ## proguard HOME proguard_home = "/usr/local/datakit/data/rum/tools/proguard" ## android-ndk HOME ndk_home = "/usr/local/datakit/data/rum/tools/android-ndk" ## atos or atosl bin path ## for macOS datakit use the built-in tool atos default ## for Linux there are several tools that can be used to instead of macOS atos partially, ## such as https://github.com/everettjf/atosl-rs atos_bin_path = "/usr/local/datakit/data/rum/tools/atosl" # Provide a list to resolve CDN of your static resource. # Below is the Datakit default built-in CDN list, you can uncomment that and change it to your cdn list, # it's a JSON array like: [{"domain": "CDN domain", "name": "CDN human readable name", "website": "CDN official website"},...], # domain field value can contains '*' as wildcard, for example: "kunlun*.com", # it will match "kunluna.com", "kunlunab.com" and "kunlunabc.com" but not "kunlunab.c.com". # cdn_map = ''' # [ # {"domain":"15cdn.com","name":"some-CDN-name","website":"https://www.15cdn.com"}, # {"domain":"tzcdn.cn","name":"some-CDN-name","website":"https://www.15cdn.com"} # ] # ''' ## Threads config controls how many goroutines an agent cloud start to handle HTTP request. ## buffer is the size of jobs' buffering of worker channel. ## threads is the total number fo goroutines at running time. # [inputs.rum.threads] # buffer = 100 # threads = 8 ## Storage config a local storage space in hard dirver to cache trace data. ## path is the local file path used to cache data. ## capacity is total space size(MB) used to store data. # [inputs.rum.storage] # path = "./rum_storage" # capacity = 5120 ## session_replay config is used to control Session Replay uploading behavior. ## cache_path set the disk directory where temporarily cache session replay data. ## cache_capacity_mb specify the max storage space (in MiB) that session replay cache can use. ## clear_cache_on_start set whether we should clear all previous session replay cache on restarting Datakit. ## upload_workers set the count of session replay uploading workers. ## send_timeout specify the http timeout when uploading session replay data to dataway. ## send_retry_count set the max retry count when sending every session replay request. ## filter_rules set the the filtering rules that matched session replay data will be dropped, ## all rules are of relationship OR, that is to day, the data match any one of them will be dropped. # [inputs.rum.session_replay] # cache_path = "/usr/local/datakit/cache/session_replay" # cache_capacity_mb = 20480 # clear_cache_on_start = false # upload_workers = 16 # send_timeout = "75s" # send_retry_count = 3 # filter_rules = [ # "{ service = 'xxx' or version IN [ 'v1', 'v2'] }", # "{ app_id = 'yyy' and env = 'production' }" # ]
然后重启 DataKit。
docker restart datakit-docker
docker ps

进入容器查看是否挂载成功,如下图所示已成功挂载。
docker exec -it datakit-docker /bin/bash
datakit monitor


应用接入
登录观测云控制台,进入「用户访问监测」,点击左上角「新建应用」,即可开始创建一个新的应用。

选择 Web 应用,并选择本地环境部署的 NPM 接入方式。

按需填入配置参数,点击创建,即可在应用列表查看应用。


然后,将 SDK 复制到前端项目中。


启动应用后,进行访问,相关数据会上报到观测云平台。
观测云效果
登录观测云控制台,点击「用户访问监测」 -「应用列表」,然后点击创建的应用。

点击查看器,就能查询采集到的用户访问数据。

相关文章:
在Docker中部署DataKit最佳实践
本文主要介绍如何在 Docker 中安装 DataKit。 配置和启动 DataKit 容器 登陆观测云平台,点击「集成」 -「DataKit」 - 「Docker」,然后拷贝第二步的启动命令,启动参数按实际情况配置。 拷贝启动命令: sudo docker run \--hostn…...
进程的状态 ─── linux第11课
目录 编辑 补充知识: 1.并行和并发 分时操作系统(Time-Sharing Systems) 实时操作系统(Real-Time Systems) 进程的状态(操作系统层面) 编辑 运行状态 阻塞状态 状态总结: 挂起状态 linux下的进程状态 补充知识: …...
MySQL数据库基本概念
目录 什么是数据库 从软件角度出发 从网络角度出发 MySQL数据库的client端和sever端进程 mysql的client端进程连接sever端进程 mysql配置文件 MySql存储引擎 MySQL的sql语句的分类 数据库 库的操作 创建数据库 不同校验规则对查询的数据的影响 不区分大小写 区…...
什么是 jQuery
一、jQuery 基础入门 (一)什么是 jQuery jQuery 本质上是一个快速、小巧且功能丰富的 JavaScript 库。它将 JavaScript 中常用的功能代码进行了封装,为开发者提供了一套简洁、高效的 API,涵盖了 HTML 文档遍历与操作、事件处理、…...
Redis Desktop Manager(Redis可视化工具)安装及使用详细教程
一、安装包下载 直接从官网下载,官网下载链接地址:Downloads - Redis 二、安装步骤 2.1说明 Redis Desktop Manager是一款简单快速、跨平台的Redis桌面管理工具,也也被称作Redis可视化工具。 支持命令控制台操作,以及常用&…...
[KEIL]单片机技巧 01
1、查看外设寄存器的值 配合对应的芯片开发手册以查看寄存器及其每一位的意义,可以解决90%以上的单纯的片内外设bug,学会如何通过寄存器的值来排外设上的蛊是嵌入式开发从小白到入门的重要一步,一定要善于使用这个工具,而不是外设…...
云原生监控篇——全链路可观测性与AIOps实战
引言:监控即生命线 2023年某全球支付平台因一次未被捕获的数据库连接泄漏,导致每小时损失120万美元。而另一家社交巨头通过实时异常检测系统,在30秒内自动隔离了大规模DDoS攻击。这两个案例揭示了云原生时代的核心生存法则——监控不是可选项…...
C# 13与.NET 9革新及工业开发应用
摘要 微软推出的C# 13与.NET 9以“高效且智能”为导向,具备扩展类型、半自动属性、锁对象优化等十大革新。本文深入剖析新特性于工业级开发的应用场景,包含性能优化策略、AI集成方案以及EF Core实战技巧,为开发者提供从理论到实践的完整指引…...
Linux系统之DHCP网络协议
目录 一、DHCP概述 二、DHCP部署实操 2.1、安装DHCP软件 2.2、拷贝配置文件 2.3、配置文件详解 2.4、重启软件服务 2.5、新开一台服务器,查看dhcp地址获取 一、DHCP概述 DHCP(Dynamic Host Configuration Protocol)是一种应用层网络协…...
【Linux】【网络】不同子网下的客户端和服务器通信其它方式
【Linux】【网络】不同子网下的客户端和服务器通信其它方式 那么,在 NAT 环境下,应该如何让内网设备做为服务器,使内网设备被外部连接? 1 多拨 部分运营商,支持在多个设备上,通过 PPPoE 登录同一个宽带账…...
【C++/数据结构】栈
零.导言 栈是一种数据结构,在后续的学习中可能经常使用,因此我们今天就来学习如何实现栈,以更好地使用它。 一.栈的实现 栈的形式如下: #include<iostream> #include<cassert>using namespace std;typedef int Stack…...
Qt 对象树详解:从原理到运用
1. 什么是对象树? 对象树是一种基于父子关系的对象管理机制。在 Qt 中,所有继承自 QObject 的类都可以参与到对象树中。 当一个对象被设置为另一个对象的父对象时,子对象会被添加到父对象的内部列表中,形成一种树状结构。 Qt 提…...
【软路由】ImmortalWrt 编译指南:从入门到精通
对于喜欢折腾路由器,追求极致性能和定制化的玩家来说,OpenWrt 无疑是一个理想的选择。而在众多 OpenWrt 衍生版本中,ImmortalWrt 以其更活跃的社区、更激进的特性更新和对新硬件的支持而备受关注。 本文将带你深入了解 ImmortalWrt࿰…...
【智能音频新风尚】智能音频眼镜+FPC,打造极致听觉享受!【新立电子】
智能音频眼镜,作为一款将时尚元素与前沿科技精妙融合的智能设备,这种将音频技术与眼镜形态完美结合的可穿戴设备,不仅解放了用户的双手,更为人们提供了一种全新的音频交互体验。新立电子FPC在智能音频眼镜中的应用,为音…...
第2章 windows故障排除(网络安全防御实战--蓝军武器库)
网络安全防御实战--蓝军武器库是2020年出版的,已经过去3年时间了,最近利用闲暇时间,抓紧吸收,总的来说,第2章开始带你入门了,这里给出了几个windows重要的工具,说实话,好多我也是第一…...
深度学习笔记——线性回归的从0开始实现
记录学习到的知识: 语义分割是将标签或类别与图片的每个像素关联的一种深度学习算法。 它用来识别构成可区分类别的像素集合。 图像分割是一个端到端图像分析过程,它将数字图像分成多个片段,并对每个区域中包含的信息进行分类。三种图像分割…...
配置Spring Boot中的Jackson序列化
配置Spring Boot中的Jackson序列化 在开发基于Spring Boot的应用程序时,Jackson是默认的JSON序列化和反序列化工具。它提供了强大的功能,可以灵活地处理JSON数据。然而,Jackson的默认行为可能无法完全满足我们的需求。例如,日期格…...
AWS跨账号服务全解析:安全共享资源的最佳实践
在复杂的云环境中,企业常常需要将不同业务部门、项目或环境分配到独立的AWS账户中,以实现资源隔离和权限管控。然而,跨账户的资源共享与协作需求也随之而来。AWS为此提供了丰富的跨账号服务,允许不同账户之间安全、高效地共享资源。本文将深入解析这些服务,并结合实际场景…...
Rust~String、str、str、String、Box<str> 或 Box<str>
Rust语言圣经中定义 str Rust 语言类型大致分为两种:基本类型和标准库类型,前者由语言特性直接提供,后者在标准库中定义 str 是唯一定义在 Rust 语言特性中的字符串,但也是几乎不会用到的字符串类型 str 字符串是 DST 动态大小…...
SpringBoot五:JSR303校验
精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 松散绑定 意思是比如在yaml中写的是last-name,这个和lastName意思是一样的,-后的字母默认是大写的 JSR303校验 就是可以在字段增加…...
OpenClaw技能开发入门:为Qwen3-14b_int4_awq扩展自定义功能
OpenClaw技能开发入门:为Qwen3-14b_int4_awq扩展自定义功能 1. 为什么需要自定义技能? 去年冬天,我花了整整两周时间手动整理公司项目的技术文档。每天重复着复制、粘贴、格式调整的机械操作,直到偶然发现OpenClaw这个开源自动化…...
Ostrakon-VL扫描终端效果:不同材质价签(纸质/塑料/金属)识别
Ostrakon-VL扫描终端效果:不同材质价签(纸质/塑料/金属)识别 1. 像素特工:Ostrakon-VL扫描终端介绍 这是一个基于Ostrakon-VL-8B多模态大模型开发的Web交互终端,专门针对零售与餐饮场景优化。与传统工业级UI不同&…...
告别数据打架:手把手教你用Python+Seurat整合单细胞数据,无缝衔接scVelo做RNA速率分析
告别数据打架:手把手教你用PythonSeurat整合单细胞数据,无缝衔接scVelo做RNA速率分析 单细胞测序技术的快速发展为生物医学研究带来了前所未有的分辨率,但不同分析工具之间的数据格式壁垒常常让研究者头疼。特别是当我们需要在R语言的Seurat和…...
面试官最爱问的哈希表实战:用C++手撕‘存在重复元素II’(附滑动窗口优化思路)
哈希表实战:从暴力解法到最优解法的完整思维路径 在技术面试中,哈希表相关题目几乎是必考内容,而"存在重复元素II"这类问题更是高频出现。这道看似简单的题目背后,隐藏着对候选人算法思维、编码能力和沟通表达的全面考察…...
28 openclaw负载均衡实现:应对高并发场景的解决方案
背景/痛点在OpenClaw项目中,随着业务规模的扩大,单节点处理能力逐渐成为瓶颈。特别是在高并发场景下,如秒杀活动、实时数据推送等,如何合理分配负载、避免单点故障、提升整体吞吐量,成为架构设计的核心挑战。传统的负载…...
STM32F4 Flash读写避坑指南:如何安全存储关键数据(附完整代码)
STM32F4 Flash读写避坑指南:如何安全存储关键数据(附完整代码) 第一次在STM32F4上操作Flash时,我遇到了一个令人抓狂的问题——设备运行几小时后数据莫名其妙丢失。经过三天三夜的调试才发现,原来是在写入前忘记检查扇…...
OpenClaw对话式编程:Qwen3-4B模型解释代码与生成示例
OpenClaw对话式编程:Qwen3-4B模型解释代码与生成示例 1. 为什么需要对话式编程? 作为一名长期与代码打交道的开发者,我经常遇到这样的困境:面对一段复杂代码时,需要反复查阅文档;学习新框架时,…...
企业级离线OCR深度解析:5大策略实现高性能文字识别
企业级离线OCR深度解析:5大策略实现高性能文字识别 【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库…...
如何轻松获取网页媒体资源?猫抓开源工具让资源提取效率提升3倍
如何轻松获取网页媒体资源?猫抓开源工具让资源提取效率提升3倍 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否曾在浏览网页时遇…...
Qt多线程数据库操作:安全分离连接,彻底解决段错误
在 Qt 开发中,数据库操作与多线程的搭配是一个经典难题。许多开发者都曾遇到过这样的诡异现象:程序运行一段时间后突然崩溃,堆栈指向数据库操作,但代码逻辑明明正确。真相只有一个——数据库连接被多个线程共享了。本文结合真实项…...
