当前位置: 首页 > news >正文

在Docker中部署DataKit最佳实践

本文主要介绍如何在 Docker 中安装 DataKit。

配置和启动 DataKit 容器

登陆观测云平台,点击「集成」 -「DataKit」 - 「Docker」,然后拷贝第二步的启动命令,启动参数按实际情况配置。

拷贝启动命令:

sudo docker run \--hostname "$(hostname)" \--workdir /usr/local/datakit \-v "/etc/conf/dir/conf.d":"/usr/local/datakit/conf.d/host-inputs-conf"-v "/":"/rootfs" \-v /var/run/docker.sock:/var/run/docker.sock \-e ENV_DATAWAY="https://openway.guance.com?token=tkn_XXXX" \-e ENV_DEFAULT_ENABLED_INPUTS='cpu,disk,diskio,mem,swap,system,net,host_processes,hostobject,container,dk' \-e ENV_GLOBAL_HOST_TAGS="tag1=a1,tag2=a2" \-e ENV_HTTP_LISTEN="0.0.0.0:9529" \-e HOST_PROC="/rootfs/proc" \-e HOST_SYS="/rootfs/sys" \-e HOST_ETC="/rootfs/etc" \-e HOST_VAR="/rootfs/var" \-e HOST_RUN="/rootfs/run" \-e HOST_DEV="/rootfs/dev" \-e HOST_ROOT="/rootfs" \--cpus 2 \--memory 1g \--privileged \--publish 9529:9529 \--name datakit-docker \-d \pubrepo.guance.com/datakit/datakit:1.66.2

容器启动后,查看是否启动成功:

docker ps

如下所示,启动成功:

启动参数说明:

  • --hostname:将宿主机的主机名作为 DataKit 运行的主机名,如果需要在当前宿主机上运行多个 DataKit,可以给它适当加一些后缀 --hostname "$(hostname)-dk1"
  • --workdir:设置容器工作目录
  • -v:各种宿主机文件挂载:
    • DataKit 中有很多配置文件,我们可以将其在宿主机上准备好,通过 -v 一次性整个挂载到容器中去(容器中的路径为 conf.d/host-inputs-conf 目录)
    • 此处将宿主机根目录挂载进 Datakit,目的是访问宿主机上的各种信息(比如 /proc 目录下的各种文件),便于默认开启的采集器采集数据
    • 将 docker.sock 文件挂载进 Datakit 容器,便于 container 采集器采集数据。不同宿主机该文件目录可能不同,需按照实际来配置
  • -e:各种 Datakit 运行期的环境变量配置,这些环境变量功能跟 DaemonSet 部署 时是一样的
  • ENV_DATAWAY : 将 token 粘贴到 ENV_DATAWAY 环境变量值中 “token=”
  • --publish:便于外部将 Trace 等数据发送给 Datakit 容器,此处我们将 Datakit 的 HTTP 端口映射到外面的 9529 上,诸如 trace 数据设置发送地址的时候,需关注这个端口设置。
  • --name: 指定 Docker 容器名称,否则,name 将随机生成
  • 此处对该运行的 DataKit 设置了 2C 的 CPU 和 1GiB 内存限制

假如我们在 /host/conf/dir 目录下配置了如下一些采集器:

  • APM:DDTrace/OpenTelemetry 等采集器
  • Prometheuse exporter:在当前 docker 环境中,某些应用容器暴露了自身指标(一般形如 http://ip:9100/metrics),那么我们可以将其端口暴露出来,然后编写 prom.conf 来采集这些指标
  • 日志采集:如果某些 Docker 容器将日志写入了宿主机的某个目录,我们可以单独编写日志采集配置来采集这些文件。不过事先我们需要通过 -v 将这些宿主机的目录挂载进 Datakit 容器。另外,默认开启的 container 采集器,会自动采集所有容器的 stdout 日志

登陆观测云平台,点击「基础设施」 - 「容器」,查看名称为 datakit-docker 容器是否上报,点击进入查看容器详情。

场景演示

如何使用 Docker 的 DataKit 采集用户应用访问数据。

开启 RUM 采集器

在挂载的目录 /etc/conf/dir/conf.d 下创建 rum 目录,然后在 rum 目录下,新建 rum.conf 文件,内容如下:

# {"version": "1.66.2", "desc": "do NOT edit this line"}                                                                                 [[inputs.rum]]                                                                                                                           ## profile Agent endpoints register by version respectively.                                                                           ## Endpoints can be skipped listen by remove them from the list.                                                                       ## Default value set as below. DO NOT MODIFY THESE ENDPOINTS if not necessary.                                                         endpoints = ["/v1/write/rum"]                                                                                                          ## used to upload rum session replay.                                                                                                  session_replay_endpoints = ["/v1/write/rum/replay"]                                                                                    ## specify which metrics should be captured.                                                                                           measurements = ["view", "resource", "action", "long_task", "error", "telemetry"]                                                       ## Android command-line-tools HOME                                                                                                     android_cmdline_home = "/usr/local/datakit/data/rum/tools/cmdline-tools"                                                               ## proguard HOME                                                                                                                       proguard_home = "/usr/local/datakit/data/rum/tools/proguard"                                                                           ## android-ndk HOME                                                                                                                    ndk_home = "/usr/local/datakit/data/rum/tools/android-ndk"                                                                             ## atos or atosl bin path                                                                                                              ## for macOS datakit use the built-in tool atos default                                                                                ## for Linux there are several tools that can be used to instead of macOS atos partially,                                              ## such as https://github.com/everettjf/atosl-rs                                                                                       atos_bin_path = "/usr/local/datakit/data/rum/tools/atosl"                                                                              # Provide a list to resolve CDN of your static resource.                                                                               # Below is the Datakit default built-in CDN list, you can uncomment that and change it to your cdn list,                               # it's a JSON array like: [{"domain": "CDN domain", "name": "CDN human readable name", "website": "CDN official website"},...],        # domain field value can contains '*' as wildcard, for example: "kunlun*.com",                                                         # it will match "kunluna.com", "kunlunab.com" and "kunlunabc.com" but not "kunlunab.c.com".                                            # cdn_map = '''                                                                                                                        # [                                                                                                                                    #   {"domain":"15cdn.com","name":"some-CDN-name","website":"https://www.15cdn.com"},                                                   #   {"domain":"tzcdn.cn","name":"some-CDN-name","website":"https://www.15cdn.com"}                                                     # ]                                                                                                                                    # '''                                                                                                                                  ## Threads config controls how many goroutines an agent cloud start to handle HTTP request.                                            ## buffer is the size of jobs' buffering of worker channel.                                                                            ## threads is the total number fo goroutines at running time.                                                                          # [inputs.rum.threads]                                                                                                                 #   buffer = 100                                                                                                                       #   threads = 8                                                                                                                        ## Storage config a local storage space in hard dirver to cache trace data.                                                            ## path is the local file path used to cache data.                                                                                     ## capacity is total space size(MB) used to store data.                                                                                # [inputs.rum.storage]                                                                                                                 #   path = "./rum_storage"                                                                                                             #   capacity = 5120                                                                                                                    ## session_replay config is used to control Session Replay uploading behavior.                                                         ## cache_path set the disk directory where temporarily cache session replay data.                                                      ## cache_capacity_mb specify the max storage space (in MiB) that session replay cache can use.                                         ## clear_cache_on_start set whether we should clear all previous session replay cache on restarting Datakit.                           ## upload_workers set the count of session replay uploading workers.                                                                   ## send_timeout specify the http timeout when uploading session replay data to dataway.                                                ## send_retry_count set the max retry count when sending every session replay request.                                                 ## filter_rules set the the filtering rules that matched session replay data will be dropped,                                          ## all rules are of relationship OR, that is to day, the data match any one of them will be dropped.                                   # [inputs.rum.session_replay]                                                                                                          #   cache_path = "/usr/local/datakit/cache/session_replay"                                                                             #   cache_capacity_mb = 20480                                                                                                          #   clear_cache_on_start = false                                                                                                       #   upload_workers = 16                                                                                                                #   send_timeout = "75s"                                                                                                               #   send_retry_count = 3                                                                                                               #   filter_rules = [                                                                                                                   #       "{ service = 'xxx' or version IN [ 'v1', 'v2'] }",                                                                             #       "{ app_id = 'yyy' and env = 'production' }"                                                                                    #   ]                                       

然后重启 DataKit。

docker restart datakit-docker
docker ps

进入容器查看是否挂载成功,如下图所示已成功挂载。

docker exec -it datakit-docker /bin/bash
datakit monitor

应用接入

登录观测云控制台,进入「用户访问监测」,点击左上角「新建应用」,即可开始创建一个新的应用。

选择 Web 应用,并选择本地环境部署的 NPM 接入方式。

按需填入配置参数,点击创建,即可在应用列表查看应用。

然后,将 SDK 复制到前端项目中。

启动应用后,进行访问,相关数据会上报到观测云平台。

观测云效果

登录观测云控制台,点击「用户访问监测」 -「应用列表」,然后点击创建的应用。

点击查看器,就能查询采集到的用户访问数据。

相关文章:

在Docker中部署DataKit最佳实践

本文主要介绍如何在 Docker 中安装 DataKit。 配置和启动 DataKit 容器 登陆观测云平台,点击「集成」 -「DataKit」 - 「Docker」,然后拷贝第二步的启动命令,启动参数按实际情况配置。 拷贝启动命令: sudo docker run \--hostn…...

进程的状态 ─── linux第11课

目录 ​编辑 补充知识: 1.并行和并发 分时操作系统(Time-Sharing Systems) 实时操作系统(Real-Time Systems) 进程的状态(操作系统层面) ​编辑 运行状态 阻塞状态 状态总结: 挂起状态 linux下的进程状态 补充知识: …...

MySQL数据库基本概念

目录 什么是数据库 从软件角度出发 从网络角度出发 MySQL数据库的client端和sever端进程 mysql的client端进程连接sever端进程 mysql配置文件 MySql存储引擎 MySQL的sql语句的分类 数据库 库的操作 创建数据库 不同校验规则对查询的数据的影响 不区分大小写 区…...

什么是 jQuery

一、jQuery 基础入门 (一)什么是 jQuery jQuery 本质上是一个快速、小巧且功能丰富的 JavaScript 库。它将 JavaScript 中常用的功能代码进行了封装,为开发者提供了一套简洁、高效的 API,涵盖了 HTML 文档遍历与操作、事件处理、…...

Redis Desktop Manager(Redis可视化工具)安装及使用详细教程

一、安装包下载 直接从官网下载,官网下载链接地址:Downloads - Redis 二、安装步骤 2.1说明 Redis Desktop Manager是一款简单快速、跨平台的Redis桌面管理工具,也也被称作Redis可视化工具。 支持命令控制台操作,以及常用&…...

[KEIL]单片机技巧 01

1、查看外设寄存器的值 配合对应的芯片开发手册以查看寄存器及其每一位的意义,可以解决90%以上的单纯的片内外设bug,学会如何通过寄存器的值来排外设上的蛊是嵌入式开发从小白到入门的重要一步,一定要善于使用这个工具,而不是外设…...

云原生监控篇——全链路可观测性与AIOps实战

引言:监控即生命线 2023年某全球支付平台因一次未被捕获的数据库连接泄漏,导致每小时损失120万美元。而另一家社交巨头通过实时异常检测系统,在30秒内自动隔离了大规模DDoS攻击。这两个案例揭示了云原生时代的核心生存法则——监控不是可选项…...

C# 13与.NET 9革新及工业开发应用

摘要 微软推出的C# 13与.NET 9以“高效且智能”为导向,具备扩展类型、半自动属性、锁对象优化等十大革新。本文深入剖析新特性于工业级开发的应用场景,包含性能优化策略、AI集成方案以及EF Core实战技巧,为开发者提供从理论到实践的完整指引…...

Linux系统之DHCP网络协议

目录 一、DHCP概述 二、DHCP部署实操 2.1、安装DHCP软件 2.2、拷贝配置文件 2.3、配置文件详解 2.4、重启软件服务 2.5、新开一台服务器,查看dhcp地址获取 一、DHCP概述 DHCP(Dynamic Host Configuration Protocol)是一种应用层网络协…...

【Linux】【网络】不同子网下的客户端和服务器通信其它方式

【Linux】【网络】不同子网下的客户端和服务器通信其它方式 那么,在 NAT 环境下,应该如何让内网设备做为服务器,使内网设备被外部连接? 1 多拨 部分运营商,支持在多个设备上,通过 PPPoE 登录同一个宽带账…...

【C++/数据结构】栈

零.导言 栈是一种数据结构&#xff0c;在后续的学习中可能经常使用&#xff0c;因此我们今天就来学习如何实现栈&#xff0c;以更好地使用它。 一.栈的实现 栈的形式如下&#xff1a; #include<iostream> #include<cassert>using namespace std;typedef int Stack…...

Qt 对象树详解:从原理到运用

1. 什么是对象树&#xff1f; 对象树是一种基于父子关系的对象管理机制。在 Qt 中&#xff0c;所有继承自 QObject 的类都可以参与到对象树中。 当一个对象被设置为另一个对象的父对象时&#xff0c;子对象会被添加到父对象的内部列表中&#xff0c;形成一种树状结构。 Qt 提…...

【软路由】ImmortalWrt 编译指南:从入门到精通

对于喜欢折腾路由器&#xff0c;追求极致性能和定制化的玩家来说&#xff0c;OpenWrt 无疑是一个理想的选择。而在众多 OpenWrt 衍生版本中&#xff0c;ImmortalWrt 以其更活跃的社区、更激进的特性更新和对新硬件的支持而备受关注。 本文将带你深入了解 ImmortalWrt&#xff0…...

【智能音频新风尚】智能音频眼镜+FPC,打造极致听觉享受!【新立电子】

智能音频眼镜&#xff0c;作为一款将时尚元素与前沿科技精妙融合的智能设备&#xff0c;这种将音频技术与眼镜形态完美结合的可穿戴设备&#xff0c;不仅解放了用户的双手&#xff0c;更为人们提供了一种全新的音频交互体验。新立电子FPC在智能音频眼镜中的应用&#xff0c;为音…...

第2章 windows故障排除(网络安全防御实战--蓝军武器库)

网络安全防御实战--蓝军武器库是2020年出版的&#xff0c;已经过去3年时间了&#xff0c;最近利用闲暇时间&#xff0c;抓紧吸收&#xff0c;总的来说&#xff0c;第2章开始带你入门了&#xff0c;这里给出了几个windows重要的工具&#xff0c;说实话&#xff0c;好多我也是第一…...

深度学习笔记——线性回归的从0开始实现

记录学习到的知识&#xff1a; 语义分割是将标签或类别与图片的每个像素关联的一种深度学习算法。 它用来识别构成可区分类别的像素集合。 图像分割是一个端到端图像分析过程&#xff0c;它将数字图像分成多个片段&#xff0c;并对每个区域中包含的信息进行分类。三种图像分割…...

配置Spring Boot中的Jackson序列化

配置Spring Boot中的Jackson序列化 在开发基于Spring Boot的应用程序时&#xff0c;Jackson是默认的JSON序列化和反序列化工具。它提供了强大的功能&#xff0c;可以灵活地处理JSON数据。然而&#xff0c;Jackson的默认行为可能无法完全满足我们的需求。例如&#xff0c;日期格…...

AWS跨账号服务全解析:安全共享资源的最佳实践

在复杂的云环境中,企业常常需要将不同业务部门、项目或环境分配到独立的AWS账户中,以实现资源隔离和权限管控。然而,跨账户的资源共享与协作需求也随之而来。AWS为此提供了丰富的跨账号服务,允许不同账户之间安全、高效地共享资源。本文将深入解析这些服务,并结合实际场景…...

Rust~String、str、str、String、Box<str> 或 Box<str>

Rust语言圣经中定义 str Rust 语言类型大致分为两种&#xff1a;基本类型和标准库类型&#xff0c;前者由语言特性直接提供&#xff0c;后者在标准库中定义 str 是唯一定义在 Rust 语言特性中的字符串&#xff0c;但也是几乎不会用到的字符串类型 str 字符串是 DST 动态大小…...

SpringBoot五:JSR303校验

精心整理了最新的面试资料和简历模板&#xff0c;有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 松散绑定 意思是比如在yaml中写的是last-name&#xff0c;这个和lastName意思是一样的&#xff0c;-后的字母默认是大写的 JSR303校验 就是可以在字段增加…...

PETRV2-BEV模型训练实战:基于星图AI算力平台的完整流程解析

PETRV2-BEV模型训练实战&#xff1a;基于星图AI算力平台的完整流程解析 1. 环境准备与基础配置 1.1 创建并激活conda环境 首先我们需要创建一个专用的conda环境来管理项目依赖。推荐使用Python 3.8版本&#xff1a; conda create -n paddle3d_env python3.8 conda activate…...

中国四大高考工厂是哪四所

根据当前&#xff08;2026年4月&#xff09;可查的权威公开资料&#xff0c;‌“中国四大高考工厂”通常指以下四所中学‌&#xff1a; ‌1、河北衡水中学‌ 2、安徽毛坦厂中学‌ 3、‌河南郸城一高‌&#xff08;即郸城县第一高级中学&#xff09; 4、湖北黄冈中学 ‌ 背…...

芯片工程师如何从AI那里“榨出“隐性知识?

大语言模型里藏着很多东西&#xff0c;但大部分人只用到了表面。这些模型在训练时吃进去的不只是教科书和官方文档&#xff0c;还有大量的技术博客、论坛讨论、开源代码、甚至是一些没公开发表的技术报告。这些知识以一种隐性的方式存在于模型参数中&#xff0c;不会主动跳出来…...

Ostrakon-VL扫描终端效果:不同材质价签(纸质/塑料/金属)识别

Ostrakon-VL扫描终端效果&#xff1a;不同材质价签&#xff08;纸质/塑料/金属&#xff09;识别 1. 像素特工&#xff1a;Ostrakon-VL扫描终端介绍 这是一个基于Ostrakon-VL-8B多模态大模型开发的Web交互终端&#xff0c;专门针对零售与餐饮场景优化。与传统工业级UI不同&…...

Java车载HMI卡顿问题终极解析,GPU渲染线程阻塞+Binder调用链路断点调试(附AS+ADB定制脚本)

第一章&#xff1a;Java车载HMI卡顿问题的系统性认知车载人机交互界面&#xff08;HMI&#xff09;作为智能座舱的核心入口&#xff0c;其响应流畅度直接影响用户安全与体验。当基于Java&#xff08;如Android Automotive OS或定制JVM嵌入式框架&#xff09;构建的HMI出现卡顿&…...

玩转openrgb

缘由我的asus b760m有rgb&#xff0c;但是华硕Armoury Crate 确实比较臃肿&#xff0c;经常啥也没干它占用3-5%。而开源界有个openrgb&#xff0c;虽然看似简陋但是它小啊。于是采用python脚本openrgb来玩转它。本方案应该也适用于其他rgb主板。准备工作1、下载openrgb&#xf…...

ChatGPT+RMBG-2.0:智能图像处理工作流自动化

ChatGPTRMBG-2.0&#xff1a;智能图像处理工作流自动化 1. 当你还在手动抠图时&#xff0c;有人已经用一句话完成整套流程 上周帮朋友处理一批电商产品图&#xff0c;他花了整整两天时间在Photoshop里一张张抠背景、调边缘、换底色。最后发来消息说&#xff1a;“要是能对着图…...

Arcgis林业资源管理实战:从GPS打点到小班成图的完整工作流

ArcGIS林业资源管理实战&#xff1a;从GPS打点到小班成图的完整工作流 林业资源调查是森林经营管理的基石&#xff0c;而GIS技术正在彻底改变传统林业调查的工作模式。记得去年参与某林场资源普查时&#xff0c;我们团队用传统方法完成一个林班调查需要两周&#xff0c;而采用A…...

Simulink双矢量MPC实战:从郭磊磊论文到可运行的Matlab Function代码(调制模型预测控制详解)

Simulink双矢量MPC实战&#xff1a;从理论到代码的完整实现路径 当我在实验室第一次尝试复现郭磊磊老师那篇经典论文时&#xff0c;面对12种矢量组合和复杂的PWM生成逻辑&#xff0c;完全不知从何下手。经过三个月的反复试验和代码调试&#xff0c;终于摸清了从论文公式到可运行…...

【Polars 2.0企业级数据清洗黄金法则】:5大生产环境避坑指南+实测性能提升3.7倍基准报告

第一章&#xff1a;Polars 2.0企业级数据清洗黄金法则总览Polars 2.0 以零拷贝语义、并行执行引擎与原生 Arrow 内存布局为核心&#xff0c;重构了企业级数据清洗的性能边界与工程可靠性。其惰性 API 与 eager 模式无缝协同&#xff0c;使复杂清洗流水线既可交互调试&#xff0…...