当前位置: 首页 > article >正文

YAYI 2训练集群监控:Prometheus配置实践指南

YAYI 2训练集群监控Prometheus配置实践指南【免费下载链接】YAYI2YAYI 2 是中科闻歌研发的新一代开源大语言模型采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)项目地址: https://gitcode.com/gh_mirrors/ya/YAYI2YAYI 2是中科闻歌研发的新一代开源大语言模型采用超过2.65万亿Tokens的高质量多语言语料进行预训练在中文大模型领域表现出色。在大规模分布式训练过程中如何有效监控训练集群的健康状态和性能指标成为关键挑战。本文将详细介绍如何为YAYI 2训练集群配置Prometheus监控系统实现全方位的训练过程监控与优化。为什么需要训练集群监控 当您在16台或更多A100 GPU上运行YAYI 2全参数微调时训练过程可能持续数天甚至数周。没有合适的监控系统您将面临以下问题GPU利用率不透明无法实时了解GPU资源使用情况训练进度难追踪损失曲线、学习率变化无法可视化故障排查困难当训练中断时难以定位问题根源资源浪费无法优化资源配置导致计算资源闲置YAYI 2训练数据基础与监控关联在深入Prometheus配置之前了解YAYI 2的训练数据特点对监控指标设计至关重要YAYI 2的数据来源包括互联网数据49.6%、人工整理数据19%和领域特定数据31.4%。这种数据多样性意味着训练过程中需要监控数据加载速度、预处理效率等指标。从原始语料到最终训练数据的处理流程展示了数据清洗的重要性。监控系统需要跟踪数据处理各阶段的效率和资源消耗。Prometheus监控架构设计核心监控组件为YAYI 2训练集群构建完整的监控体系需要以下组件Prometheus Server指标收集与存储中心Node Exporter节点级系统指标收集NVIDIA DCGM ExporterGPU监控专用组件Grafana数据可视化仪表板Alertmanager告警管理安装与配置步骤1. 安装Prometheus# 下载Prometheus wget https://github.com/prometheus/prometheus/releases/download/v2.47.0/prometheus-2.47.0.linux-amd64.tar.gz tar xvf prometheus-2.47.0.linux-amd64.tar.gz cd prometheus-2.47.0.linux-amd64 # 创建配置文件 cat prometheus.yml EOF global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: - job_name: prometheus static_configs: - targets: [localhost:9090] - job_name: node static_configs: - targets: [node1:9100, node2:9100, node3:9100] - job_name: gpu static_configs: - targets: [node1:9400, node2:9400, node3:9400] - job_name: yayi-training static_configs: - targets: [training-node:8000] EOF2. 配置Node Exporter在每个训练节点上安装Node Exporter# 下载并安装 wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz tar xvf node_exporter-1.6.1.linux-amd64.tar.gz cd node_exporter-1.6.1.linux-amd64 # 创建systemd服务 sudo cat /etc/systemd/system/node_exporter.service EOF [Unit] DescriptionNode Exporter Afternetwork.target [Service] Userprometheus ExecStart/usr/local/bin/node_exporter [Install] WantedBymulti-user.target EOF3. 配置NVIDIA DCGM Exporter对于GPU监控这是最关键的部分# 安装DCGM Exporter docker run -d --gpus all --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:3.1.8-3.1.5 # 或者使用Helm安装Kubernetes环境 helm install dcgm-exporter prometheus-community/prometheus-dcgm-exporterYAYI 2训练特定监控指标关键性能指标KPIs基于YAYI 2的训练特性您需要关注以下核心指标GPU相关指标DCGM_FI_DEV_GPU_UTILGPU利用率百分比DCGM_FI_DEV_MEM_COPY_UTIL内存复制利用率DCGM_FI_DEV_POWER_USAGEGPU功耗瓦特DCGM_FI_DEV_GPU_TEMPGPU温度训练过程指标yayi_training_loss训练损失值yayi_learning_rate当前学习率yayi_gradient_norm梯度范数yayi_tokens_processed已处理的Token数量系统资源指标node_memory_MemFree_bytes可用内存node_cpu_seconds_totalCPU使用时间node_disk_io_time_seconds_total磁盘I/O时间集成YAYI 2训练脚本修改YAYI 2的训练脚本以暴露Prometheus指标。在training/trainer_yayi2.py中添加指标导出功能from prometheus_client import Counter, Gauge, start_http_server # 初始化指标 TRAINING_LOSS Gauge(yayi_training_loss, Current training loss) LEARNING_RATE Gauge(yayi_learning_rate, Current learning rate) TOKENS_PROCESSED Counter(yayi_tokens_processed, Total tokens processed) def train(): # 启动Prometheus HTTP服务器 start_http_server(8000) for epoch in range(num_epochs): for batch in dataloader: # 训练逻辑... loss compute_loss(batch) # 更新指标 TRAINING_LOSS.set(loss.item()) LEARNING_RATE.set(scheduler.get_last_lr()[0]) TOKENS_PROCESSED.inc(batch[input_ids].shape[0] * batch[input_ids].shape[1])Grafana仪表板配置创建YAYI 2训练监控仪表板GPU监控面板每节点GPU利用率热图GPU内存使用趋势GPU温度监控训练进度面板损失曲线可视化学习率变化趋势吞吐量Tokens/秒监控系统资源面板CPU/内存使用率网络I/O流量磁盘使用情况示例查询语句# GPU利用率查询 DCGM_FI_DEV_GPU_UTIL{instance~node.*} # 训练损失查询 yayi_training_loss{jobyayi-training} # 数据吞吐量计算 rate(yayi_tokens_processed[5m])告警规则配置在prometheus.yml中添加告警规则rule_files: - alerts.yml # alerts.yml内容 groups: - name: yayi_training_alerts rules: - alert: HighGPUTemperature expr: DCGM_FI_DEV_GPU_TEMP 85 for: 5m labels: severity: warning annotations: summary: GPU温度过高 description: {{ $labels.instance }}的GPU温度达到{{ $value }}°C - alert: TrainingLossSpike expr: abs(delta(yayi_training_loss[5m])) 0.5 for: 2m labels: severity: critical annotations: summary: 训练损失异常波动 description: 训练损失在5分钟内变化超过0.5 - alert: LowGPUUtilization expr: avg_over_time(DCGM_FI_DEV_GPU_UTIL[10m]) 30 for: 15m labels: severity: warning annotations: summary: GPU利用率过低 description: {{ $labels.instance }}的GPU平均利用率低于30%最佳实践与优化建议1. 监控数据保留策略# prometheus.yml中添加 storage: tsdb: retention: 30d # 保留30天数据2. 资源优化配置为Prometheus分配足够内存建议16GB使用SSD存储提高查询性能配置合适的抓取间隔训练密集期可缩短至5秒3. 集成YAYI 2训练日志通过Loki收集训练日志与Prometheus指标关联分析# promtail配置示例 scrape_configs: - job_name: yayi_logs static_configs: - targets: - localhost labels: job: yayi-training __path__: /var/log/yayi/*.log故障排查与性能调优常见问题解决方案GPU利用率低检查数据加载瓶颈验证batch size配置检查config/deepspeed.json中的优化器设置训练损失不稳定监控梯度范数变化调整学习率策略检查数据预处理质量内存泄漏检测监控节点内存使用趋势设置内存使用告警阈值定期重启长时间运行的训练进程总结为YAYI 2训练集群配置完善的Prometheus监控系统不仅能实时掌握训练状态还能提前发现潜在问题优化资源利用率。通过本文介绍的配置实践您可以✅ 实时监控GPU利用率和温度 ✅ 追踪训练损失和学习率变化✅ 设置智能告警及时发现问题 ✅ 可视化训练进度和系统资源 ✅ 优化训练性能和成本效益记住良好的监控是高效训练的基础。开始配置您的YAYI 2训练监控系统让大规模模型训练更加可控、高效提示在实际部署前请根据您的集群规模调整Prometheus资源配置并测试告警规则的有效性。【免费下载链接】YAYI2YAYI 2 是中科闻歌研发的新一代开源大语言模型采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs)项目地址: https://gitcode.com/gh_mirrors/ya/YAYI2创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

YAYI 2训练集群监控:Prometheus配置实践指南

YAYI 2训练集群监控:Prometheus配置实践指南 【免费下载链接】YAYI2 YAYI 2 是中科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。(Repo for YaYi 2 Chinese LLMs) 项目地址: https://gitcode.com/gh_mir…...

终极指南:如何在monorepo项目中高效使用ni包管理器

终极指南:如何在monorepo项目中高效使用ni包管理器 【免费下载链接】ni 💡 Use the right package manager 项目地址: https://gitcode.com/gh_mirrors/ni/ni ni包管理器是一款智能的包管理工具,它能自动检测项目使用的包管理器&#…...

VL53L0X飞行时间测距传感器嵌入式驱动详解

1. VL53L0X高精度飞行时间测距传感器嵌入式驱动深度解析1.1 器件本质与工程定位VL53L0X并非传统红外或超声波测距模块,而是STMicroelectronics推出的基于单光子雪崩二极管(SPAD)阵列与精密时间数字转换器(TDC)的飞行时…...

如何用Silicon制作透明背景的代码截图:完整步骤指南

如何用Silicon制作透明背景的代码截图:完整步骤指南 【免费下载链接】silicon Create beautiful image of your source code. 项目地址: https://gitcode.com/gh_mirrors/si/silicon Silicon是一款强大的代码截图工具,能够帮助开发者轻松创建美观…...

如何快速实现Flutter持续集成:GitHub Actions自动化部署完整指南

如何快速实现Flutter持续集成:GitHub Actions自动化部署完整指南 【免费下载链接】Flutter-Notebook FlutterDemo合集,今天你fu了吗 项目地址: https://gitcode.com/gh_mirrors/fl/Flutter-Notebook Flutter-Notebook是一个包含丰富Flutter Demo的…...

MDK开发必备:3步搞定bin文件生成与反汇编(附fromelf命令详解)

MDK开发实战:从bin生成到反汇编的深度解析与高效技巧 引言 在嵌入式开发领域,MDK(Microcontroller Development Kit)作为ARM架构下的主流开发环境,其工程配置与构建流程的掌握程度直接影响开发效率。对于刚接触MDK的开…...

为什么选择RE:DOM?5大优势解析与性能对比

为什么选择RE:DOM?5大优势解析与性能对比 【免费下载链接】redom Tiny (2 KB) turboboosted JavaScript library for creating user interfaces. 项目地址: https://gitcode.com/gh_mirrors/re/redom RE:DOM是一个仅2 KB大小的轻量级JavaScript UI库&#xf…...

高效工具:二维码处理的浏览器扩展解决方案

高效工具:二维码处理的浏览器扩展解决方案 【免费下载链接】chrome-qrcode 项目地址: https://gitcode.com/gh_mirrors/chr/chrome-qrcode 在数字化办公与生活中,二维码已成为信息传递的重要载体,但传统二维码工具往往需要切换应用或…...

Python气象数据处理实战:用gma 2.0.8计算RMI指数(附完整代码)

Python气象数据处理实战:用gma 2.0.8计算RMI指数(附完整代码) 气象数据分析在环境科研和GIS应用中扮演着关键角色。相对湿润度指数(RMI)作为评估区域干湿状况的重要指标,能够直观反映降水与潜在蒸散之间的…...

Pistache高级特性揭秘:流式处理、Cookie管理和内容编码

Pistache高级特性揭秘:流式处理、Cookie管理和内容编码 【免费下载链接】pistache A high-performance REST toolkit written in C 项目地址: https://gitcode.com/gh_mirrors/pi/pistache Pistache是一个高性能的C REST工具包,提供了丰富的高级特…...

ArcGIS热力图层制作终极指南:如何用POI数据做出会呼吸的城市医疗资源分布图

ArcGIS热力图层制作终极指南:如何用POI数据做出会呼吸的城市医疗资源分布图 城市规划师和公共卫生研究者常常面临一个核心挑战:如何将海量的医疗设施点位数据转化为直观、可操作的空间洞察。传统表格或简单点状图已无法满足现代城市分析的深度需求&#…...

Go Gin示例项目数据库连接池调优:从频繁超时到秒级响应终极指南

Go Gin示例项目数据库连接池调优:从频繁超时到秒级响应终极指南 【免费下载链接】go-gin-example An example of gin 项目地址: https://gitcode.com/gh_mirrors/go/go-gin-example 在Go Web开发中,数据库连接池的配置优化是提升应用性能的关键环…...

MCP 2.0安全基线与成本控制双轨失控真相(2024 Q2金融/政企渗透测试数据首次披露)

第一章:MCP 2.0安全基线与成本控制双轨失控真相(2024 Q2金融/政企渗透测试数据首次披露)2024年第二季度,由国家网信办联合三家头部金融级红队实验室开展的MCP 2.0(Multi-Cloud Policy 2.0)合规性渗透测试覆…...

电阻选型实战指南

一、 选型前的三个核心设计理念 在进入具体场景之前,先建立三个贯穿始终的思维框架: 1. 降额设计是可靠性的底线 核心原则:任何电阻都不要工作在极限状态。 量化标准: 功率降额:实际功耗 ≤ 额定功率 50%(消费级)或 30%(工业/车载) 电压降额:实际工作电压 ≤ 极…...

STM32F103C8T6三串口实战:从LED控制到数据回传(附完整代码)

STM32F103C8T6三串口实战:从LED控制到数据回传(附完整代码) 在嵌入式开发中,串口通信是最基础也最实用的功能之一。STM32F103C8T6作为一款性价比极高的Cortex-M3内核微控制器,内置了三个独立的USART模块,能…...

Notepad--:国产跨平台文本编辑器的终极指南

Notepad--:国产跨平台文本编辑器的终极指南 【免费下载链接】notepad-- 一个支持windows/linux/mac的文本编辑器,目标是做中国人自己的编辑器,来自中国。 项目地址: https://gitcode.com/GitHub_Trending/no/notepad-- Notepad--是一款…...

BEMD算法在图像去噪中的应用:原理与MATLAB实现对比传统方法

BEMD算法在图像去噪中的创新实践:从原理到MATLAB工程实现 当一张珍贵的医学影像被噪声污染,或是卫星传回的遥感图片出现干扰时,传统去噪方法往往面临保真度与去噪效果的权衡困境。二维经验模态分解(BEMD)作为一种自适应信号处理方法&#xff…...

全国电赛必备!MSP430F5529的USB-OTG功能开发指南(附HID设备例程)

MSP430F5529 USB-OTG开发实战:从硬件设计到HID设备实现 1. 为什么选择MSP430F5529的USB功能? 在电子设计竞赛中,MSP430F5529因其独特的USB-OTG功能而成为众多参赛队伍的首选。这款TI的16位超低功耗MCU不仅具备常规单片机的外设资源&#xff0…...

v8go调试与内存管理终极指南:解决常见问题与内存泄漏检测

v8go调试与内存管理终极指南:解决常见问题与内存泄漏检测 【免费下载链接】v8go Execute JavaScript from Go 项目地址: https://gitcode.com/gh_mirrors/v8g/v8go v8go是一个强大的Go语言绑定库,允许开发者在Go应用程序中执行JavaScript代码。作…...

Step3-VL-10B多模态模型应用场景:教育智能助教、无障碍图像描述、设计稿分析

Step3-VL-10B多模态模型应用场景:教育智能助教、无障碍图像描述、设计稿分析 1. 引言:当AI学会“看”和“想” 你有没有遇到过这样的情况? 一位老师需要批改上百份手写作业,眼睛都看花了;一位视障朋友想了解社交媒体…...

别再瞎找了!降AIGC网站 千笔·降AI率助手 VS 笔捷Ai 专科生专属

在AI技术迅速发展的今天,越来越多的学生开始借助AI工具辅助论文写作,提升效率与质量。然而,随着学术审查标准的不断提高,AI生成内容的痕迹越来越容易被识别,论文中的“AIGC率”问题也日益凸显。许多学生在完成初稿后&a…...

Wan2.2-T2V-A5B快速上手:无需复杂配置,一键生成你的第一个AI视频

Wan2.2-T2V-A5B快速上手:无需复杂配置,一键生成你的第一个AI视频 1. 为什么选择Wan2.2-T2V-A5B 在短视频内容创作爆发的时代,快速生成高质量视频内容已经成为刚需。Wan2.2-T2V-A5B作为一款轻量级文本到视频生成模型,凭借其50亿参…...

Python实战:5分钟搞定TTF转图片(附FontForge避坑指南)

Python字体处理实战:从TTF到图片的高效转换与避坑指南 在UI设计、游戏开发或自动化测试领域,字体处理是每个开发者迟早要面对的课题。想象一下这样的场景:你需要将一套精美的中文字体快速转换为图片序列用于HUD界面设计,或者为自动…...

QNAP TS-231P实战:用Docker快速搭建Aria2下载服务器(含远程访问技巧)

QNAP TS-231P实战:用Docker容器化部署Aria2全功能下载中心 在数字化资源日益丰富的今天,一个稳定高效的下载解决方案已成为许多技术爱好者的刚需。QNAP TS-231P作为一款高性价比的NAS设备,结合Docker的轻量化容器技术,能够快速搭…...

pgModeler插件开发教程:如何扩展你的数据库建模工具功能

pgModeler插件开发教程:如何扩展你的数据库建模工具功能 【免费下载链接】pgmodeler Open-source data modeling tool designed for PostgreSQL. No more typing DDL commands. Let pgModeler do the work for you! 项目地址: https://gitcode.com/gh_mirrors/pg/…...

tao-8k多场景落地:科研基金申报书智能查重、技术路线图语义相似度分析

tao-8k多场景落地:科研基金申报书智能查重、技术路线图语义相似度分析 1. 引言:当科研遇上AI查重新方案 科研工作者们经常面临这样的困扰:辛辛苦苦写好的基金申报书,怎么确保没有无意中与已有成果重复?技术路线图的创…...

ChatGLM3-6B生成质量评估:对比原版模型的语义连贯性提升

ChatGLM3-6B生成质量评估:对比原版模型的语义连贯性提升 1. 引言:从“能回答”到“会聊天”的跨越 如果你用过早期的对话模型,可能有过这样的体验:你问一个问题,它答得还行;你再追问一句,它要…...

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

Qwen3.5-35B-A3B-AWQ-4bit企业落地:银行柜面业务凭证图智能填单、证券开户材料图要素抽取

Qwen3.5-35B-A3B-AWQ-4bit企业落地:银行柜面业务凭证图智能填单、证券开户材料图要素抽取 1. 金融场景下的多模态AI应用价值 在银行柜面和证券开户业务中,每天需要处理大量纸质凭证和开户材料。传统人工录入方式存在效率低、错误率高、成本高等问题。Q…...

3个颠覆性设计:Screenbox如何重新定义Windows媒体播放体验

3个颠覆性设计:Screenbox如何重新定义Windows媒体播放体验 【免费下载链接】Screenbox LibVLC-based media player for the Universal Windows Platform 项目地址: https://gitcode.com/gh_mirrors/sc/Screenbox 在数字媒体消费日益碎片化的今天,…...