当前位置: 首页 > article >正文

kagent:把 Agent 当 Pod 来管,赌的是 Agent 的最终归宿是 K8s

我们写过用kubectl apply -f deployment.yaml起一个 Pod写过用Service把它暴露出来写过用Operator监听 CRD 自动调和状态。Solo.io 那群人 2025 年初做了一个看起来很自然、但没人提早做出来的事把同一套思路平移到 AI Agent 上——kubectl apply -f agent.yaml起一个 Agent用ToolServer接 MCP 工具用Controller监听 Agent 状态做调和。这就是 kagent。它在 2025 年 3 月 KubeCon Europe 上由 Solo.io 开源、捐给 CNCF 进了 Sandbox到本文写作时2026-05只用了 16 个月就攒到 2,717 ★、最新版 v0.9.2、67 contributors。但别把它和 HolmesGPT、k8sgpt 放进同一筐——它们解决的不是同一个层次的问题。一个反直觉的类比kagent 是 Agent 的 Kubernetes不是另一个 Agent要看清 kagent 在做什么最快的路径是把它和 K8s 本身做平行类比这张图说的是同一种思路平移到不同对象上Pod ↔ Agent CRDPod 是跑容器的最小调度单元Agent CRD 是跑一个 LLM 推理循环的最小调度单元。两者都是声明式定义YAML 一写、kubectl apply一跑剩下的交给 controller。Service ↔ ToolServer CRDService 把后端 Pod 暴露成网络入口ToolServer 把 MCP 协议下的工具集K8s API、Prometheus、Helm…暴露成 Agent 可调用的入口。ConfigMap ↔ Session CRDConfigMap 注入运行时配置Session 持久化对话状态消息历史、用户上下文。Operator ↔ kagent ControllerOperator 监听自定义资源做调和kagent Controller 监听 Agent / ToolServer / Session 做生命周期管理。这个类比的反直觉之处是HolmesGPT、k8sgpt 这些项目是应用层kagent 是运行时层——它们应该一起用不是互相替代。HolmesGPT 这种现成 SRE Agent 完全可以打包成一个 kagent 的 Agent CRD 跑在 kagent 之上反过来用 kagent 跑 HolmesGPT等于在 K8s 上跑 MySQL——一码归一码。拆开看它到底怎么工作kagent.dev/docs/concepts/architecture把整个系统切成三层。我们用一张图把控制面、数据面、外部接入串起来控制面Kubernetes 原生核心是用 Go 写的kagent Controller监听四种 CRDAgentAgent 定义、ToolServerMCP 工具入口、Session对话状态、ModelConfigLLM 配置。这一层做的事情和 Istio、Argo 这些 K8s 生态老兵做的事一样watch reconcile。Solo.io 是 Istio 的创始人公司——他们写了 10 年 controller把这套搬过来不需要学习成本。数据面双引擎 Engine跑 Agent 推理循环的运行时分两种——Python ADK默认建在 Google ADK 之上启动 ~15s资源占用偏高但生态完整、对 Python 写的 prompt/tool 友好。Go ADK高性能启动 ~2s资源占用低适合小 Agent 大量并发场景。两个 ADK 之间通过A2A 协议Agent-to-Agent通信——这是 Google 在 2025 年推的开放协议让一个 Agent 可以发现并调用另一个 Agent。kagent 把它做成了第一类协议意味着多 Agent 编排不是搭出来的是协议层保证的。外部接入MCP ToolServers预置了 K8s、Istio、Helm、Argo、Prometheus、Grafana、Cilium 这一票 CNCF 项目的工具集——选这几个不是偶然刚好是 Solo.io 服务网格圈层的共同语言。LLM ProvidersOpenAI、Anthropic、Gemini、xAI、Azure OpenAI、AWS Bedrock、Vertex AI、Ollama、vLLM、HuggingFace——主流和自托管都能接。一段最小化的AgentCRD 长这样从官方文档简化apiVersion:kagent.dev/v1alpha1kind:Agentmetadata:name:k8s-troubleshooterspec:description:排查 K8s 集群里的 Pod 问题modelConfig:gpt-4o-minisystemMessage:你是一个谨慎的 SRE先看 events 再做诊断tools:-type:McpServermcpServer:toolServer:kubernetes-tools# 引用一个已部署的 ToolServer CRDtoolNames:[get_pods,describe_pod,get_events]kubectl apply -f之后Controller 会把这个 Agent 注册到 Engine、把它暴露成一个 OpenAI-compatible HTTP 端点也支持 A2A 端点然后我们就可以从 Slack / Discord / 自己的 webhook 调它或者用 kagent CLI 在终端里直接对话。整个生命周期是声明式的——改了 YAML、kubectl applyAgent 自动滚更新跟 Deployment 一样。它能干什么四类典型用例官方主页和社区博客把 kagent 的应用场景归成四类每一类对应一个真实的我们为什么要为它建运行时的理由事故响应自动化把一个 SRE 排查流程做成 Agent CRD——监听告警 → 调 ToolServer 拉数据 → A2A 转给修复 Agent → 写 PR。这条链路在 HolmesGPT 里是写死的在 kagent 里是我们自己拼装的。可观测性助手让团队用自然语言查 Prometheus / Grafana 数据。“我们 nginx ingress 错误率最近 1h 怎样”——Agent 把它翻译成 PromQL跑、解读、回答。平台自助服务业务团队不用懂 Helm跟 Agent 说给我开个 Redis 测试实例Agent 走 ToolServer 调 Helm Argo CD 生成 PR、走审批、自动 sync。跨渠道企业 Agent同一个 Agent 同时挂在 Slack、Discord、Telegram、企业微信下——kagent 把入口做成 OpenAI-compatible前面挂什么 bot 都行。这四类有一个共同特征长生命周期 工具调用密集 状态需要持久化。Lambda 风格的短任务一次性 LLM 调用用 kagent 是杀鸡用牛刀但真正想跑事故响应、可观测、平台自助的团队没有 K8s 这一层做调度自己造一个等于重新发明轮子。它不解决什么评估值不值得学的边界kagent 不是万能的——也不该被当万能的。下面这些它显式不做搞清楚边界比堆功能重要不是开箱即用的 SRE Agent。它是给我们造 Agent 的运行时不是现成的 Agent。如果团队只想装一个能查 K8s 故障的 AI 工具HolmesGPT / k8sgpt 直接能用kagent 还要先写 Agent CRD。不教我们 prompt 工程。Agent 的指令、tool description、few-shot 例子还是我们自己写——kagent 只负责把它跑起来、调度好、暴露好。K8s 强绑定。如果 Agent 跑在 Lambda、Cloud Run、本地 Python 进程或 Edge 节点上更合适kagent 不在选项里。它的整个价值假设是K8s 是 Agent 的运行时。企业数据接入不是它的强项。Microsoft 的 Dapr Agents 走的是另一条路50 enterprise data bindingPDF、SharePoint、SAP、SQL Server……。kagent 的 ToolServers 偏 CNCF 工具业务系统接入要自己写 MCP server。多租户和细粒度权限是早期阶段。v0.9.2 版本号意味着还没到 1.0生产环境接入前先看 RBAC 与多 namespace 隔离的成熟度。回到用户最初的问题——值不值得关注和学习三个判断如果团队已经重度用 K8s Istio Argo Helm并且打算把 AI Agent 当一类长期跑的工作负载来部署kagent 几乎是当前的唯一选择。学习曲线是额外几个 CRD对会写 Operator 的人是免费迁移。如果只是想试试 Agent 给团队带来什么价值先用 HolmesGPT 这类现成 Agent——kagent 的 setup 成本对零基础团队偏重。如果在做 AI 平台技术选型、想押注一个范式押 kagent 的赔率不差Solo.io 是 Istio 团队、CNCF Sandbox 兜底、AutoGen Google ADK 双背书、A2A MCP 协议合规。它不一定赢但输的话整个K8s 是 Agent 运行时的范式都得改——这个对赌的下行有限。最后说一句务实的kagent 现在是 v0.9.22026 上半年值得跟进的开源项目里它是少数押对方向 工程团队靠谱的。但先用起来再判断——helm install kagent kagent/kagent再kubectl apply一个 Agent CRD半小时就能验证它和你的 K8s 工作流是不是一回事。

相关文章:

kagent:把 Agent 当 Pod 来管,赌的是 Agent 的最终归宿是 K8s

我们写过用 kubectl apply -f deployment.yaml 起一个 Pod,写过用 Service 把它暴露出来,写过用 Operator 监听 CRD 自动调和状态。Solo.io 那群人 2025 年初做了一个看起来很自然、但没人提早做出来的事:把同一套思路平移到 AI Agent 上——…...

一键完整网页截图终极指南:告别滚动拼接的烦恼

一键完整网页截图终极指南:告别滚动拼接的烦恼 【免费下载链接】full-page-screen-capture-chrome-extension One-click full page screen captures in Google Chrome 项目地址: https://gitcode.com/gh_mirrors/fu/full-page-screen-capture-chrome-extension …...

白炽灯非线性电阻特性在电路保护与调试中的经典应用

1. 项目概述:当白炽灯不再照明作为一名在电子工程领域摸爬滚打了十几年的老工程师,我手边的“破烂”工具箱里,除了常规的电阻、电容、芯片,还常年备着几样“非主流”玩意儿:几个不同瓦数的白炽灯泡。在很多人看来&…...

AI推理延迟超标?资源利用率不足35%?SITS2026动态编排引擎实测压测报告:单节点吞吐提升4.8倍,,附YAML配置模板

更多请点击: https://intelliparadigm.com 第一章:AI原生应用部署方案:SITS2026 SITS2026(Scalable Intelligent Training & Serving 2026)是一套面向生产环境的AI原生应用部署框架,专为大模型微服务…...

HolmesGPT 值不值得跟?把 AI SRE 的七强格局摊开看

CNCF Sandbox 在 2025-10 收了一个项目叫 HolmesGPT,定位是"开源 SRE Agent"。看着像下一个值得跟的风口——但同样进了 Sandbox 的 k8sgpt 已经 7,746 星,比它早一年;新来的 kagent 背靠 Solo.io,2,716 星只用了一年就…...

Go语言CLI工具服务化:基于JSON-RPC的进程间通信与自动化集成

1. 项目概述与核心价值最近在折腾一些自动化流程和跨平台脚本时,遇到了一个挺有意思的需求:如何让一个用Go语言写的、功能强大的命令行工具,能够被其他语言(比如Python、Node.js)或者更上层的应用(比如Web界…...

RTAB-Map实战:如何用databaseViewer分析SLAM闭环与优化你的地图质量

RTAB-Map深度优化:用databaseViewer精准诊断闭环问题与地图调优实战 当你已经能够用RTAB-Map跑通基础SLAM流程,却发现生成的地图总有些"不对劲"——走廊墙壁出现波浪形扭曲、重复区域无法正确对齐、导航时机器人总是撞上"空气墙"。这…...

OTFS系统中结构化稀疏表示与GPU优化实践

1. OTFS系统与结构化稀疏表示概述 在无线通信领域,正交时频空间(OTFS)调制技术因其在高移动性场景下的卓越性能而备受关注。与传统OFDM系统不同,OTFS将信息符号调制在时延-多普勒(DD)域,能够更好地抵抗多普勒扩展和时延扩展的影响。然而&…...

高精度正弦/余弦插值技术解析与应用

1. 高精度正弦/余弦插值技术概述在工业自动化、电机控制和精密测量领域,位置传感器是核心部件之一。这类传感器通常输出两路相位差90度的正弦和余弦模拟信号,其幅值变化与机械位置或角度呈严格对应关系。如何将这些模拟信号转换为高精度的数字位置信息&a…...

【Keras+TensorFlow+Yolo3】从零构建自定义目标检测模型:实战标注、训练与部署(TF2避坑指南)

1. 环境准备与工具安装 目标检测是计算机视觉领域的重要应用,而YOLOv3作为其中的经典算法,凭借其速度和精度的平衡备受青睐。在开始实战前,我们需要搭建好开发环境。我推荐使用Anaconda创建独立的Python环境,这样可以避免不同项目…...

Next.js App Router与React Server Components实战:构建高性能Hacker News克隆

1. 项目概述:一个基于 Next.js App Router 与 React Server Components 的 Hacker News 克隆 如果你和我一样,在过去几年里一直在用 Next.js 的 Pages Router 构建应用,那么当 App Router 和 React Server Components 这两个概念一起出现时&…...

ARM PB11MPCore USB与DVI接口设计与信号完整性分析

1. ARM PB11MPCore接口架构解析PB11MPCore作为ARM经典的嵌入式开发平台,其外设接口设计体现了工业级嵌入式系统的典型特征。我们先从整体架构入手,理解USB和DVI接口在系统中的位置。1.1 系统级接口布局开发板采用前后面板分离设计,关键接口分…...

通过curl命令直接测试Taotoken聊天接口的配置与排错指南

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过curl命令直接测试Taotoken聊天接口的配置与排错指南 基础教程类,为需要在无SDK环境或快速验证接口的开发者提供指导…...

【STM32F407启动探秘】从复位向量到main():深入剖析启动文件与BOOT模式

1. STM32F407启动过程全景图 当你按下STM32F407开发板的电源按钮时,芯片内部就像被施了魔法一样开始运转。这个看似简单的上电过程,实际上隐藏着一套精密的启动机制。作为开发者,理解这个过程就像掌握了一把打开STM32内核奥秘的钥匙。 我刚开…...

AI智能体评测指南:AgentBoard开源平台实战与多维能力评估

1. 项目概述:AgentBoard是什么,以及它为何重要最近在AI智能体评测这个圈子里,一个叫AgentBoard的开源项目讨论度挺高。这个项目由jbcrane13团队发起,本质上是一个用于系统性评估和对比AI智能体(AI Agent)性…...

GitHub Actions 工作流中的输出处理

在现代软件开发中,CI/CD(持续集成和持续交付)是确保代码质量和自动化部署的关键环节。GitHub Actions 作为 GitHub 提供的 CI/CD 工具,支持通过工作流文件定义自动化任务。本文将结合一个实际的 GitHub Actions 工作流实例,探讨如何处理 Python 脚本的输出,并根据该输出决…...

从示波器到数据记录仪:基于STM32H7+AD7606+J-Scope的实时波形采集系统搭建全流程

基于STM32H7与AD7606的高性能数据采集系统设计与实战 1. 系统架构设计理念 现代工业监测和实验室数据采集对信号采集系统提出了更高要求——需要同步捕获多通道模拟信号,并实现实时可视化分析。基于STM32H7高性能微控制器与AD7606 ADC模块的组合,配合J-S…...

告别卡顿!GNS3性能优化全攻略:VMware配置、IOU镜像使用与资源调优心得

GNS3性能优化实战:从卡顿到流畅的进阶指南 网络工程师们常常在搭建复杂实验环境时遇到GNS3性能瓶颈——设备启动缓慢、拓扑加载卡顿、CPU占用飙升。这些问题不仅拖慢实验进度,更可能影响CCIE备考和项目验证的效率。本文将分享一套经过实战检验的GNS3优化…...

从QR码到汉信码:除了日本标准,国产二维码在哪些场景更牛?

从QR码到汉信码:国产技术如何重新定义二维码应用边界 在数字化浪潮席卷全球的今天,二维码已成为连接物理世界与数字世界的隐形桥梁。当我们习惯性地掏出手机扫描各种黑白方块时,很少有人意识到这些看似简单的图案背后,隐藏着一场关…...

PyTorch数据集加载进阶:深入torchvision源码,定制你的CIFAR10本地路径

PyTorch数据集加载进阶:深入torchvision源码,定制你的CIFAR10本地路径 当你在PyTorch项目中反复下载CIFAR10数据集时,是否曾想过——为什么每次都要从远程服务器拉取数据?那些隐藏在torchvision.datasets模块背后的加载逻辑&#…...

Windows HEIC缩略图终极指南:3分钟让iPhone照片在资源管理器完美预览

Windows HEIC缩略图终极指南:3分钟让iPhone照片在资源管理器完美预览 【免费下载链接】windows-heic-thumbnails Enable Windows Explorer to display thumbnails for HEIC/HEIF files 项目地址: https://gitcode.com/gh_mirrors/wi/windows-heic-thumbnails …...

Transmission密码安全加固:从配置文件到命令行实战

1. Transmission密码安全加固的必要性 最近在帮朋友排查一个奇怪的网络问题时,意外发现他路由器上的Transmission客户端竟然还在使用默认密码。这让我惊出一身冷汗——这相当于把家门钥匙插在门锁上啊!作为一款广泛使用的BT客户端,Transmiss…...

Arm生命周期管理器(LCM)架构与安全供应实战解析

1. Arm生命周期管理器(LCM)架构解析生命周期管理器(Lifecycle Manager)是Arm安全架构中的核心安全子系统,负责管理芯片从生产到报废全生命周期的安全状态。我在多个物联网安全芯片项目中验证过,LCM的设计直接影响设备的抗攻击能力和密钥管理可靠性。1.1 …...

混合量子-经典工作流编排的云原生实践

1. 混合量子-经典工作流编排的挑战与机遇量子计算正从实验室走向实际应用,但当前NISQ(Noisy Intermediate-Scale Quantum)时代的量子设备仍面临量子比特数量有限、噪声干扰强等限制。这使得混合量子-经典工作流(Hybrid Quantum–C…...

实时代码光标同步工具:跨设备与团队协作的开发效率利器

1. 项目概述:一个为开发者设计的代码光标同步工具如果你和我一样,经常需要在多台设备、多个编辑器窗口,甚至是与同事进行远程结对编程时,保持代码编辑位置的同步,那么你肯定理解那种来回切换、手动寻找上次编辑位置的痛…...

前端工程化:代码质量监控实战指南

前端工程化:代码质量监控实战指南 前言 代码质量监控是保障项目长期健康发展的关键。一个好的代码质量监控体系能帮助团队及时发现潜在问题,防止技术债务积累。今天我就来给大家讲讲如何建立一套完整的代码质量监控体系。 为什么代码质量监控如此重要 代…...

前端工程化:开发环境配置最佳实践

前端工程化:开发环境配置最佳实践 前言 开发环境配置是前端工程化的基础。一个良好的开发环境能大大提高开发效率,减少团队协作中的环境问题。今天我就来给大家讲讲如何配置一套高效的前端开发环境。 为什么开发环境配置如此重要 开发环境是开发者日常工…...

GPT_ALL:统一AI模型接口,构建高效可维护的AI应用架构

1. 项目概述:一个面向全栈开发者的AI集成工具箱最近在GitHub上看到一个挺有意思的项目,叫“Eloquent-Algorithmics/GPT_ALL”。光看名字,你可能会觉得这又是一个围绕GPT的简单封装库,但实际深入进去,你会发现它的定位远…...

微服务核心框架设计:从Bumblecore看高可用架构与工程实践

1. 项目概述:从“Bumblecore”看现代微服务架构的演进与核心实践最近在梳理团队的技术资产时,我重新审视了一个内部代号为“Bumblecore”的微服务核心框架。这个项目并非一个开源明星,但在我们过去几年的业务高速迭代中,它扮演了至…...

调试STM32双CAN通信的5个常见坑:从TJA1050供电到过滤器配置的避坑指南

STM32双CAN通信实战:从硬件陷阱到软件优化的深度排错指南 当你在实验室里搭建好STM32F407VE与两片TJA1050组成的双CAN系统,满心期待看到数据流畅传输时,示波器上却只有死寂的直线——这种挫败感我太熟悉了。双CAN系统调试就像在雷区跳舞&…...