当前位置：首页 > news >正文

在Docker中部署DataKit最佳实践

news 2026/5/22 6:52:40

本文主要介绍如何在 Docker 中安装 DataKit。

配置和启动 DataKit 容器

登陆观测云平台，点击「集成」 -「DataKit」 - 「Docker」，然后拷贝第二步的启动命令，启动参数按实际情况配置。

拷贝启动命令：

sudo docker run \--hostname "$(hostname)" \--workdir /usr/local/datakit \-v "/etc/conf/dir/conf.d":"/usr/local/datakit/conf.d/host-inputs-conf"-v "/":"/rootfs" \-v /var/run/docker.sock:/var/run/docker.sock \-e ENV_DATAWAY="https://openway.guance.com?token=tkn_XXXX" \-e ENV_DEFAULT_ENABLED_INPUTS='cpu,disk,diskio,mem,swap,system,net,host_processes,hostobject,container,dk' \-e ENV_GLOBAL_HOST_TAGS="tag1=a1,tag2=a2" \-e ENV_HTTP_LISTEN="0.0.0.0:9529" \-e HOST_PROC="/rootfs/proc" \-e HOST_SYS="/rootfs/sys" \-e HOST_ETC="/rootfs/etc" \-e HOST_VAR="/rootfs/var" \-e HOST_RUN="/rootfs/run" \-e HOST_DEV="/rootfs/dev" \-e HOST_ROOT="/rootfs" \--cpus 2 \--memory 1g \--privileged \--publish 9529:9529 \--name datakit-docker \-d \pubrepo.guance.com/datakit/datakit:1.66.2

容器启动后，查看是否启动成功：

docker ps

如下所示，启动成功：

启动参数说明：

--hostname：将宿主机的主机名作为 DataKit 运行的主机名，如果需要在当前宿主机上运行多个 DataKit，可以给它适当加一些后缀 --hostname "$(hostname)-dk1"
--workdir：设置容器工作目录
-v：各种宿主机文件挂载：
- DataKit 中有很多配置文件，我们可以将其在宿主机上准备好，通过 -v 一次性整个挂载到容器中去（容器中的路径为 conf.d/host-inputs-conf 目录）
- 此处将宿主机根目录挂载进 Datakit，目的是访问宿主机上的各种信息（比如 /proc 目录下的各种文件），便于默认开启的采集器采集数据
- 将 docker.sock 文件挂载进 Datakit 容器，便于 container 采集器采集数据。不同宿主机该文件目录可能不同，需按照实际来配置
-e：各种 Datakit 运行期的环境变量配置，这些环境变量功能跟 DaemonSet 部署时是一样的
ENV_DATAWAY : 将 token 粘贴到 ENV_DATAWAY 环境变量值中 “token=”
--publish：便于外部将 Trace 等数据发送给 Datakit 容器，此处我们将 Datakit 的 HTTP 端口映射到外面的 9529 上，诸如 trace 数据设置发送地址的时候，需关注这个端口设置。
--name: 指定 Docker 容器名称，否则，name 将随机生成
此处对该运行的 DataKit 设置了 2C 的 CPU 和 1GiB 内存限制

假如我们在 /host/conf/dir 目录下配置了如下一些采集器：

APM：DDTrace/OpenTelemetry 等采集器
Prometheuse exporter：在当前 docker 环境中，某些应用容器暴露了自身指标（一般形如 http://ip:9100/metrics），那么我们可以将其端口暴露出来，然后编写 prom.conf 来采集这些指标
日志采集：如果某些 Docker 容器将日志写入了宿主机的某个目录，我们可以单独编写日志采集配置来采集这些文件。不过事先我们需要通过 -v 将这些宿主机的目录挂载进 Datakit 容器。另外，默认开启的 container 采集器，会自动采集所有容器的 stdout 日志

登陆观测云平台，点击「基础设施」 - 「容器」，查看名称为 datakit-docker 容器是否上报，点击进入查看容器详情。

场景演示

如何使用 Docker 的 DataKit 采集用户应用访问数据。

开启 RUM 采集器

在挂载的目录 /etc/conf/dir/conf.d 下创建 rum 目录，然后在 rum 目录下，新建 rum.conf 文件，内容如下：

# {"version": "1.66.2", "desc": "do NOT edit this line"}                                                                                 [[inputs.rum]]                                                                                                                           ## profile Agent endpoints register by version respectively.                                                                           ## Endpoints can be skipped listen by remove them from the list.                                                                       ## Default value set as below. DO NOT MODIFY THESE ENDPOINTS if not necessary.                                                         endpoints = ["/v1/write/rum"]                                                                                                          ## used to upload rum session replay.                                                                                                  session_replay_endpoints = ["/v1/write/rum/replay"]                                                                                    ## specify which metrics should be captured.                                                                                           measurements = ["view", "resource", "action", "long_task", "error", "telemetry"]                                                       ## Android command-line-tools HOME                                                                                                     android_cmdline_home = "/usr/local/datakit/data/rum/tools/cmdline-tools"                                                               ## proguard HOME                                                                                                                       proguard_home = "/usr/local/datakit/data/rum/tools/proguard"                                                                           ## android-ndk HOME                                                                                                                    ndk_home = "/usr/local/datakit/data/rum/tools/android-ndk"                                                                             ## atos or atosl bin path                                                                                                              ## for macOS datakit use the built-in tool atos default                                                                                ## for Linux there are several tools that can be used to instead of macOS atos partially,                                              ## such as https://github.com/everettjf/atosl-rs                                                                                       atos_bin_path = "/usr/local/datakit/data/rum/tools/atosl"                                                                              # Provide a list to resolve CDN of your static resource.                                                                               # Below is the Datakit default built-in CDN list, you can uncomment that and change it to your cdn list,                               # it's a JSON array like: [{"domain": "CDN domain", "name": "CDN human readable name", "website": "CDN official website"},...],        # domain field value can contains '*' as wildcard, for example: "kunlun*.com",                                                         # it will match "kunluna.com", "kunlunab.com" and "kunlunabc.com" but not "kunlunab.c.com".                                            # cdn_map = '''                                                                                                                        # [                                                                                                                                    #   {"domain":"15cdn.com","name":"some-CDN-name","website":"https://www.15cdn.com"},                                                   #   {"domain":"tzcdn.cn","name":"some-CDN-name","website":"https://www.15cdn.com"}                                                     # ]                                                                                                                                    # '''                                                                                                                                  ## Threads config controls how many goroutines an agent cloud start to handle HTTP request.                                            ## buffer is the size of jobs' buffering of worker channel.                                                                            ## threads is the total number fo goroutines at running time.                                                                          # [inputs.rum.threads]                                                                                                                 #   buffer = 100                                                                                                                       #   threads = 8                                                                                                                        ## Storage config a local storage space in hard dirver to cache trace data.                                                            ## path is the local file path used to cache data.                                                                                     ## capacity is total space size(MB) used to store data.                                                                                # [inputs.rum.storage]                                                                                                                 #   path = "./rum_storage"                                                                                                             #   capacity = 5120                                                                                                                    ## session_replay config is used to control Session Replay uploading behavior.                                                         ## cache_path set the disk directory where temporarily cache session replay data.                                                      ## cache_capacity_mb specify the max storage space (in MiB) that session replay cache can use.                                         ## clear_cache_on_start set whether we should clear all previous session replay cache on restarting Datakit.                           ## upload_workers set the count of session replay uploading workers.                                                                   ## send_timeout specify the http timeout when uploading session replay data to dataway.                                                ## send_retry_count set the max retry count when sending every session replay request.                                                 ## filter_rules set the the filtering rules that matched session replay data will be dropped,                                          ## all rules are of relationship OR, that is to day, the data match any one of them will be dropped.                                   # [inputs.rum.session_replay]                                                                                                          #   cache_path = "/usr/local/datakit/cache/session_replay"                                                                             #   cache_capacity_mb = 20480                                                                                                          #   clear_cache_on_start = false                                                                                                       #   upload_workers = 16                                                                                                                #   send_timeout = "75s"                                                                                                               #   send_retry_count = 3                                                                                                               #   filter_rules = [                                                                                                                   #       "{ service = 'xxx' or version IN [ 'v1', 'v2'] }",                                                                             #       "{ app_id = 'yyy' and env = 'production' }"                                                                                    #   ]

然后重启 DataKit。

docker restart datakit-docker
docker ps

进入容器查看是否挂载成功,如下图所示已成功挂载。

docker exec -it datakit-docker /bin/bash
datakit monitor

应用接入

登录观测云控制台，进入「用户访问监测」，点击左上角「新建应用」，即可开始创建一个新的应用。

选择 Web 应用，并选择本地环境部署的 NPM 接入方式。

按需填入配置参数，点击创建，即可在应用列表查看应用。

然后，将 SDK 复制到前端项目中。

启动应用后，进行访问，相关数据会上报到观测云平台。

观测云效果

登录观测云控制台，点击「用户访问监测」 -「应用列表」，然后点击创建的应用。

点击查看器，就能查询采集到的用户访问数据。

在Docker中部署DataKit最佳实践

本文主要介绍如何在 Docker 中安装 DataKit。配置和启动 DataKit 容器登陆观测云平台，点击「集成」 -「DataKit」 - 「Docker」，然后拷贝第二步的启动命令，启动参数按实际情况配置。拷贝启动命令： sudo docker run \--hostn…...

编程日记 2025/3/4 3:58:02

进程的状态 ─── linux第11课

目录编辑补充知识: 1.并行和并发分时操作系统（Time-Sharing Systems） 实时操作系统（Real-Time Systems） 进程的状态(操作系统层面) 编辑运行状态阻塞状态状态总结: 挂起状态 linux下的进程状态补充知识: …...

编程日记 2025/3/4 3:57:02

MySQL数据库基本概念

目录什么是数据库从软件角度出发从网络角度出发 MySQL数据库的client端和sever端进程 mysql的client端进程连接sever端进程 mysql配置文件 MySql存储引擎 MySQL的sql语句的分类数据库库的操作创建数据库不同校验规则对查询的数据的影响不区分大小写区…...

编程日记 2025/3/4 3:56:01

什么是 jQuery

一、jQuery 基础入门 （一）什么是 jQuery jQuery 本质上是一个快速、小巧且功能丰富的 JavaScript 库。它将 JavaScript 中常用的功能代码进行了封装，为开发者提供了一套简洁、高效的 API，涵盖了 HTML 文档遍历与操作、事件处理、…...

编程日记 2025/3/4 3:48:53

Redis Desktop Manager(Redis可视化工具)安装及使用详细教程

一、安装包下载直接从官网下载，官网下载链接地址：Downloads - Redis 二、安装步骤 2.1说明 Redis Desktop Manager是一款简单快速、跨平台的Redis桌面管理工具，也也被称作Redis可视化工具。支持命令控制台操作，以及常用&…...

编程日记 2025/3/4 3:44:48

[KEIL]单片机技巧 01

1、查看外设寄存器的值配合对应的芯片开发手册以查看寄存器及其每一位的意义，可以解决90%以上的单纯的片内外设bug，学会如何通过寄存器的值来排外设上的蛊是嵌入式开发从小白到入门的重要一步，一定要善于使用这个工具，而不是外设…...

编程日记 2025/3/4 3:40:44

云原生监控篇——全链路可观测性与AIOps实战

引言：监控即生命线 2023年某全球支付平台因一次未被捕获的数据库连接泄漏，导致每小时损失120万美元。而另一家社交巨头通过实时异常检测系统，在30秒内自动隔离了大规模DDoS攻击。这两个案例揭示了云原生时代的核心生存法则——监控不是可选项…...

编程日记 2025/3/4 3:39:42

C# 13与.NET 9革新及工业开发应用

摘要微软推出的C# 13与.NET 9以“高效且智能”为导向，具备扩展类型、半自动属性、锁对象优化等十大革新。本文深入剖析新特性于工业级开发的应用场景，包含性能优化策略、AI集成方案以及EF Core实战技巧，为开发者提供从理论到实践的完整指引…...

编程日记 2025/3/4 3:36:39

Linux系统之DHCP网络协议

目录一、DHCP概述二、DHCP部署实操 2.1、安装DHCP软件 2.2、拷贝配置文件 2.3、配置文件详解 2.4、重启软件服务 2.5、新开一台服务器，查看dhcp地址获取一、DHCP概述 DHCP（Dynamic Host Configuration Protocol）是一种应用层网络协…...

编程日记 2025/3/4 3:33:35

【Linux】【网络】不同子网下的客户端和服务器通信其它方式

【Linux】【网络】不同子网下的客户端和服务器通信其它方式那么，在 NAT 环境下，应该如何让内网设备做为服务器，使内网设备被外部连接？ 1 多拨部分运营商，支持在多个设备上，通过 PPPoE 登录同一个宽带账…...

编程日记 2025/3/4 3:28:30

【C++/数据结构】栈

零.导言栈是一种数据结构，在后续的学习中可能经常使用，因此我们今天就来学习如何实现栈，以更好地使用它。一.栈的实现栈的形式如下： #include<iostream> #include<cassert>using namespace std;typedef int Stack…...

编程日记 2025/3/4 3:21:23

Qt 对象树详解：从原理到运用

1. 什么是对象树？ 对象树是一种基于父子关系的对象管理机制。在 Qt 中，所有继承自 QObject 的类都可以参与到对象树中。当一个对象被设置为另一个对象的父对象时，子对象会被添加到父对象的内部列表中，形成一种树状结构。 Qt 提…...

编程日记 2025/3/4 3:14:13

【软路由】ImmortalWrt 编译指南：从入门到精通

对于喜欢折腾路由器，追求极致性能和定制化的玩家来说，OpenWrt 无疑是一个理想的选择。而在众多 OpenWrt 衍生版本中，ImmortalWrt 以其更活跃的社区、更激进的特性更新和对新硬件的支持而备受关注。本文将带你深入了解 ImmortalWrt&#xff0…...

编程日记 2025/3/4 3:12:11

【智能音频新风尚】智能音频眼镜+FPC，打造极致听觉享受！【新立电子】

智能音频眼镜，作为一款将时尚元素与前沿科技精妙融合的智能设备，这种将音频技术与眼镜形态完美结合的可穿戴设备，不仅解放了用户的双手，更为人们提供了一种全新的音频交互体验。新立电子FPC在智能音频眼镜中的应用，为音…...

编程日记 2025/3/4 3:11:09

第2章 windows故障排除(网络安全防御实战--蓝军武器库)

网络安全防御实战--蓝军武器库是2020年出版的，已经过去3年时间了，最近利用闲暇时间，抓紧吸收，总的来说，第2章开始带你入门了，这里给出了几个windows重要的工具，说实话，好多我也是第一…...

编程日记 2025/3/4 3:10:08

深度学习笔记——线性回归的从0开始实现

记录学习到的知识： 语义分割是将标签或类别与图片的每个像素关联的一种深度学习算法。它用来识别构成可区分类别的像素集合。图像分割是一个端到端图像分析过程，它将数字图像分成多个片段，并对每个区域中包含的信息进行分类。三种图像分割…...

编程日记 2025/3/4 3:06:04

配置Spring Boot中的Jackson序列化

配置Spring Boot中的Jackson序列化在开发基于Spring Boot的应用程序时，Jackson是默认的JSON序列化和反序列化工具。它提供了强大的功能，可以灵活地处理JSON数据。然而，Jackson的默认行为可能无法完全满足我们的需求。例如，日期格…...

编程日记 2025/3/4 3:03:00

AWS跨账号服务全解析：安全共享资源的最佳实践

在复杂的云环境中，企业常常需要将不同业务部门、项目或环境分配到独立的AWS账户中，以实现资源隔离和权限管控。然而，跨账户的资源共享与协作需求也随之而来。AWS为此提供了丰富的跨账号服务，允许不同账户之间安全、高效地共享资源。本文将深入解析这些服务，并结合实际场景…...

编程日记 2025/3/4 3:01:58

Rust～String、str、str、String、Box＜str＞或 Box＜str＞

Rust语言圣经中定义 str Rust 语言类型大致分为两种：基本类型和标准库类型，前者由语言特性直接提供，后者在标准库中定义 str 是唯一定义在 Rust 语言特性中的字符串，但也是几乎不会用到的字符串类型 str 字符串是 DST 动态大小…...

编程日记 2025/3/4 3:00:57

SpringBoot五：JSR303校验

精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取松散绑定意思是比如在yaml中写的是last-name，这个和lastName意思是一样的，-后的字母默认是大写的 JSR303校验就是可以在字段增加…...

编程日记 2025/3/4 2:58:54

python 内存管理内存泄漏及排查方案内存友好的python代码

Python 内存管理一、一句话总结 Python 的内存管理就是三件事： 自动分配内存（你不用管变量存在哪）自动回收垃圾（不用的对象自动删掉）靠引用计数分代垃圾回收实现二、核心机制 1：引用计数（最基…...

编程新知 2026/5/22 6:33:28

Gitea库完整从Ubuntu迁移到CentOS中

文章目录一、概述二、数据迁移 2.1 获取数据存储路径 2.2 搞事之前先备份（目标服务器CentOS） 2.2.1 停止gitea服务 2.2.2 备份gitea文件夹 2.3 从Ubuntu的数据目录中将数据拷贝到CentOS中 2.4 备份mysql数据库并拷贝到目标服务器（CentOS） 2.4.1 通过mysqldump备份数据库 …...

编程新知 2026/5/22 6:25:21

java springboot-vue框架的社区残障人士服务平台的设计与实现

目录同行可拿货,招校园代理 ,本人源头供货商项目背景技术架构核心功能模块技术实现亮点社会价值项目技术支持源码获取详细视频演示 ：同行可合作点击我获取源码->->进我个人主页-->获取博主联系方式同行可拿货,招校园代理 ,本人源头供货商项目背景社区残…...

编程新知 2026/5/22 5:49:05

远程办公远控软件怎么选？ToDesk、向日葵、UU远程深度对比

远程办公远控软件怎么选？ToDesk、向日葵、UU远程深度对比远程办公这件事，现在很多人已经习惯了。但很多人忽略了一个问题——远程办公体验好不好，很大程度上取决于你用的远控软件怎么样。我之前帮公司选远控工具的时候，认真把市面…...

编程新知 2026/5/22 2:38:24

2026免费在线去水印软件对比推荐｜五款工具测评，快速去掉各平台水印

在日常内容创作和素材整理中，很多人都会遇到水印的问题。无论是从抖音、快手、小红书还是B站保存视频，亦或是收集网络图片素材，几乎所有平台的内容都会附带水印。这些水印虽然有利于版权保护，但对于正常的个人使用、内容再创作或学…...

编程新知 2026/5/22 1:28:07

【芯片测试】：自定义波形与条件波形

第四篇：进阶篇（上）—— 用户自定义波形与条件波形系列：《VCDSTIL 实战：从仿真波形到 ATE 测试向量》第 4 篇（共 5 篇） 前言前三篇介绍的都是 VCDSTIL 的"自动提取"模式&#xff1a…...

编程新知 2026/5/22 1:13:14

印地语语音合成落地难？ElevenLabs官方未披露的4大限制、3种绕过技巧，及2个替代模型性能对比数据

更多请点击： https://kaifayun.com 第一章：印地语语音合成落地难？ElevenLabs官方未披露的4大限制、3种绕过技巧，及2个替代模型性能对比数据 ElevenLabs对印地语支持的真实现状 ElevenLabs虽在API文档中标注“支持印地语&#x…...

编程新知 2026/5/22 1:00:24

Zygo测试驱动开发实践：如何为解释器编写可靠的测试套件【免费下载链接】zygomys Zygo is a Lisp interpreter written in 100% Go. Central use case: dynamically compose Go struct trees in a zygo script, then invoke compiled Go functions on those trees. …...

编程新知 2026/5/21 23:51:08

APK Installer：重新定义Windows运行Android应用的突破性方案

APK Installer：重新定义Windows运行Android应用的突破性方案【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在Windows系统上运行Android应用的传统方案往往…...

编程新知 2026/5/21 22:47:57

[特殊字符] Windows 下 OpenClaw 快速安装与功能使用

✨ 适配系统：Windows10/11 64 位 ｜ 当前版本：OpenClaw v2.7.5 ： 🔗 下载 OpenClaw 2.7.5 ✨ 核心亮点：零代码门槛｜全程可视化｜内置运行依赖｜快速部署上手 &#x1f4e2…...

编程新知 2026/5/21 21:27:52

配置和启动 DataKit 容器

场景演示

开启 RUM 采集器

应用接入

观测云效果

相关文章：