当前位置: 首页 > news >正文

期待已久!阿里云容器服务 ACK AI 助手正式上线

作者:行疾

大模型技术的蓬勃发展持续引领 AI 出圈潮流,各行各业都在尝试采用 AI 工具实现智能增效。

2023 年云栖大会上,阿里云容器服务团队正式发布 ACK AI 助手,带来大模型增强智能诊断,帮助企业和开发者降低 K8s 的运维复杂度。这款国内首家云原生容器场景的原生 AI 产品 —— ACK AI 助手 beta 版现已全面上线, 功能欢迎大家试用。

Kubernetes 好似一台复杂的飞机发动机

图片

Kubernetes复杂概念、运维体系犹如一台复杂的飞机发动机

“Kubernetes 是我在技术生涯中遇到的最令人沮丧、最痛苦、但却最美妙的东西。”

“Kubernetes 是一个复杂的软件,有许多可动组件和极高的可扩展性。正如你能用 Kubernetes 做很多事情一样,完成这些事情的方法也有很多种。如果你给某人一个Kubernetes 集群,却不告诉他们确切的操作方法,他们会找到你没有准备好的方法。他们会发现不同的工具,很快你们之间就会有分歧。”

这是两位 Kubernetes 用户的心声,Dimensional Research 和 Spectro Cloud 的一次联合调研报告发现,Kubernetes 为架构带来了一种独特的高复杂度,但也恰恰因此,Kubernetes才能为用户带来最为欣赏的灵活性。

CNCF 调研报告同样显示,Kubernetes 的使用者反馈使用容器服务的最大障碍和挑战是面对复杂的概念和运维体系的巨大学习成本。

参考:https://www.cncf.io/reports/cncf-annual-survey-2022/

Kubernetes 的运维体系的复杂,还体现在冗长的异常排查链路。可以看到下图为一次典型的 Kubernetes 上应用的异常恢复运维过程。

图片

一次典型的容器场景故障恢复的完整过程

故障恢复的全过程需要至少经过如下三个环节,才能最终闭环问题。

  1. 使用可观测性发现异常 (Observability)2. 运维止血 (Ops)

  2. 问题根因定位

每一个环节都需要有 Kubernetes 观测、运维经验的人员参与,才能缩短整个问题发现的流程。

当完成整个链路的排查,最终修复问题,可能需要数小时的时长,造成业务影响,甚至最终造成资损。

容器服务 ACK 团队正在探索,通过新一代的基于 AI 智能的可观测 & AIOps 能力,如何大幅缩短平均恢复时间 (Mean Time To Recovery)。

AI 能力的跨时代飞跃从“人工+自能”到人工智能

今日大语言模型 (LLM) 展现出惊人的推理、学习能力,AI 的成熟度也发生了具体大飞跃。

图片

以 ChatGPT 与 Warfare 为例的 AI 能力对比

如上图以 ChatGPT 与 Warfare 为例的 AI 能力对比,我们可以简单判断 AI 是否在成熟度上能对我们有一定的帮助 (Good/Evil):

大致 AI 的成熟度可体现在以下三个方面:

1. 可重复性 - AI 的推理和学习能力已经成熟到能帮助人胜任一些可重复的事务,并提供自动化。

2. 复杂度 - AI 能帮助我们完成一些复杂逻辑的推理。

3. 无人值守 - AI 能在没有或较少人为干涉的情况下进行工作。

所以当前随着 AI 能力的飞跃,我们可以通过 AI 能力提供下一代 AI-Powered Observability&AIOps 能力。

参考:https://www.cncf.io/blog/2023/09/05/ai-for-kubernetes-good-or-evil/

ACK AI 助手为 K8s 提供 AI 增强的 AIOps

ACK AI 助手已经上线智能快速诊断、智能问答两大能力

基于 ACK 可观测体系的监控数据,并结合容器服务 ACK 团队专业的 Kubernetes 经验沉淀,通过大模型 (LLM) 的分析推理能力进行问题的根因定位,提供更智能的 Kubernetes 产品使用体验。

图片

目前提供主要的功能场景:

  • 智能快速诊断
    • 通过和 ACK 上观测体系的结合,自动快速获取异常信息状态。
    • 结合 ACK 团队专业的 Kubernetes 经验沉淀,提供容器场景的专家知识,进行异常诊断智能判断。
    • 结合大模型 (LLM) 的推理能力,对综合监控信息进行根因定位。
    • 自动串联从问题观测发现、问题根因诊断、AIOps 的异常问题处理,与 ACK 专家诊断系统结合,闭环运维流程。
  • 智能问答
    • 结合 ACK 团队专业的 Kubernetes 经验沉淀,提供容器场景的专家知识问答。
    • 结合大模型 (LLM) 的推理能力,对综合监控信息进行整合。

AIOps 的基础来自于 ACK 可观测体系的结合

图片

示例一个异常 Deployment 的异常诊断拓扑结构

ACK AI 助手在快速故障诊断的场景下,能通过 ACK 上的可观测体系自动获取 ACK 集群上的异常监控状态信息的同时,也能根据 Kubernetes 的部署结构,智能感知下钻寻找根因。

如上图示例,用户看到某 Deployment 发生异常,实际的观测诊断信息需要结合 Kubernetes 的拓扑结构,下钻诊断 Deployment 下的某个异常 Pod,且可能还需要结合该异常 Pod 的事件,判断是否下钻诊断该异常 Pod 所在的节点 Node 等,最终下钻找到根因。最终诊断信息为一个拓扑树形结构。

由多年专家经验训练而得的 LLM

ACK AI 助手也融入了阿里云容器服务 ACK 团队沉淀的 Kubernetes 的异常诊断、故障恢复的经验。

如下是在 ACK 中一个 Pod 异常的专家系统故障诊断流程示例:

图片

示例一个 Pod 异常的专家系统故障诊断流程

ACK AI 助手在实际故障诊断的过程中,会把故障诊断大体上拆分成几个阶段:

  1. ACK AI 助手会根据可观测信息、拆分下钻问题并获取更多信息,从而浅析故障原因。

  2. ACK AI 助手会把浅析的结论,结合 ACK 已有的专业故障诊断系统(专家系统)的经验沉淀,得到更准确的诊断结论。

参考:https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/pod-troubleshooting-1

典型使用场景一:智能快速诊断

图片

如上图所示,是一个典型的 Pod 因为 Node Affinity(节点亲和性)配置,导致 Pod 无法被调度的场景。

ACK AI 助手可以通过在 ACK 控制台对应 Deployment/Pod 页面的异常状态附近找到“智能诊断”按钮,直接唤醒并发起 ACK AI 助手的快速诊断。

可以看到 ACK AI 助手会贴心的解释此异常的原因,以及给出修复建议。

如果 Deployment 的异常还是无法最终定位,ACK AI 助手也会在底部给出接下来您还可以直接对异常的 Pod 发起专家系统的故障诊断,从而给出更进一步的排查诊断结果。

目前 ACK AI 助手提供了 Deployment、Pod、Event、Node 的主要 Kubernetes 实体的智能诊断功能,您可以在发生异常时在 ACK 控制台对应页面找到“智能诊断”按钮。

典型使用场景二:智能问答

图片

如上图所示,ACK AI 助手的智能问答功能,可以在 ACK 控制台右下角的 icon 图标唤醒。您可以随时向他提问,咨询关于 Kubernetes 和 ACK 产品的相关问题。

帮助您快速了解容器领域的专家知识,有效降低用户的学习成本。

如何开启 ACK AI 助手?

ACK AI 助手的智能问答功能,可以在 ACK 控制台右下角的 icon 图标唤醒。

ACK AI 助手可以通过在 ACK 控制台对应节点列表、Deployment、Pod、Pod 事件页面的异常状态附近找到“智能诊断”按钮,直接唤醒并发起 ACK AI 助手的快速诊断。

ACK AI 助手,自阿里云容器服务团队在 2023 年云栖大会上宣发以来,作为国内首家推出云原生容器场景的原生 AI 产品功能,目前已发布 beta 版并全面对客户开放,欢迎各位用户开始试用。

我们诚邀您点击阅读原文,登录容器服务 ACK 控制台体验 ACK AI 助手能力,并加入钉钉群交流反馈您的使用体验。(钉钉群号:70080006301

相关文章:

期待已久!阿里云容器服务 ACK AI 助手正式上线

作者:行疾 大模型技术的蓬勃发展持续引领 AI 出圈潮流,各行各业都在尝试采用 AI 工具实现智能增效。 2023 年云栖大会上,阿里云容器服务团队正式发布 ACK AI 助手,带来大模型增强智能诊断,帮助企业和开发者降低 K8s …...

[BUG] Authentication Error

前言 给服务器安装了一个todesk,但是远程一直就是,点击用户,进入输入密码界面,还没等输入就自动返回了 解决 服务器是无桌面版本,或者桌面程序死掉了,重新安装就好 sudo apt install xorg sudo apt inst…...

23种设计模式概述

学习设计模式对我们有什么帮助? 1.提高代码质量和可维护性:设计模式是经过验证的解决方案,有助于解决常见的设计问题。使用设计模式可以减少代码冗余,增强代码的可读性和可维护性,并提高代码的可靠性。 2.提升开发效率…...

英文阅读-LinkedIn‘s Tips for Highly Effective Code Review

LinkedIn的CR技巧 LinkedIn团队CodeReview经验与方法,原文来自https://thenewstack.io/linkedin-code-review/ 总结 Do I Understand the “Why”? 在提交pr的同时需要描述本次修改的“动机”,有助于提高代码文档质量。 Am I Giving Positive Feedbac…...

性能优化-高通的Hexagon DSP和NPU

原文来自【 Qualcomm’s Hexagon DSP, and now, NPU 】 本文主要介绍Qualcomm Hexagon DSP和NPU,这些为处理简单大量运算而设计的硬件。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:高性能&#xf…...

第137期 Oracle的数据生命周期管理(20240123)

数据库管理137期 2024-01-23 第137期 Oracle的数据生命周期管理(20240123)1 ILM2 Heat Map3 ADO4 优点5 对比总结 第137期 Oracle的数据生命周期管理(20240123) 作者:胖头鱼的鱼缸(尹海文) Orac…...

电脑的GPU太强了,pytorch版本跟不上,将cuda驱动进行降级

我的情况: 我买的电脑的GPU版本为rtx4060,但是装上相应的驱动后,cuda的版本为12.3,而现在pytorch中cuda安装命令的最新版本为12.1,所以我将电脑的驱动进行降级为cuda版本为10.1的。 最后成功安装cuda10.1版本的驱动 …...

1 认识微服务

1.认识微服务 随着互联网行业的发展,对服务的要求也越来越高,服务架构也从单体架构逐渐演变为现在流行的微服务架构。这些架构之间有怎样的差别呢? 1.0.学习目标 了解微服务架构的优缺点 1.1.单体架构 单体架构:将业务的所有…...

PHP+SOCKET 服务端多进程处理多客户端请求 demo

服务端 $socket socket_create(AF_INET,SOCK_STREAM,SOL_TCP); socket_bind($socket,0,95012) or die( server bind fail: . socket_strerror(socket_last_error())); socket_listen($socket,5);$child 0; //初始化子进程数 while(true){$client socket_accept($socket);$pi…...

Matplotlib笔记:安装Matplotlib+常用绘图

Matplotlib Python的2D绘图库 安装Matplotlib 打开Anaconda Prompt切换环境(默认是base,无需切换)输入命令行安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple matplotlib3.5.2 绘图 导入import matplotlib.pyplot as plt …...

Confluence6+mysql5.7安装避坑详细记录

目录 一、前言 二、下载与安装 1、版本和安装环境 2、安装数据库 3、配置数据库 4、安装confluence 三、Pj confluence 1、选择语言和产品安装 2、Pj 3、上传mysql驱动 4、重启Confluence服务继续安装 四、Confluence重启卸载方法 重启方法 方法一 方法二 卸载…...

YTM32的HSM模块在信息安全场景中的应用

YTM32的HSM模块在信息安全场景中的应用 文章目录 YTM32的HSM模块在信息安全场景中的应用引言应用场景:一点点密码学基础硬件:YTM32的信息安全子系统HCU外设模块硬件特性基本的应用操作流程,以计算AES-ECB为例硬件上对处理多块数据上的一些设计…...

时间序列大模型:TimeGPT

论文:https://arxiv.org/pdf/2310.03589.pdf TimeGPT,这是第一个用于时间序列的基础模型,能够为训练期间未见过的多样化数据集生成准确的预测。 大规模时间序列模型通过利用当代深度学习进步的能力,使精确预测和减少不确定性成为…...

CloudPanel RCE漏洞复现(CVE-2023-35885)

0x01 产品简介 CloudPanel 是一个基于 Web 的控制面板或管理界面,旨在简化云托管环境的管理。它提供了一个集中式平台,用于管理云基础架构的各个方面,包括虚拟机 (VM)、存储、网络和应用程序。 0x02 漏洞概述 由于2.3.1 之前的 CloudPanel 具有不安全的文件管理器 cook…...

WPF多值转换器

背景&#xff1a;实现Slider拖动可以调整rgb 单转换器&#xff1a;WPF中数据绑定转换器Converter-CSDN博客 在View中&#xff1a; <StackPanel Orientation"Vertical"><Slider x:Name"slider_R" Minimum"0" Maximum"255" Wi…...

x-cmd pkg | perl - 具有强大的文本处理能力的通用脚本语言

目录 介绍首次用户技术特点竞品进一步阅读 介绍 Perl 是一种动态弱类型编程语言。Perl 内部集成了正则表达式的功能&#xff0c;以及巨大的第三方代码库 CPAN;在处理文本领域,是最有竞争力的一门编程语言之一 生态系统&#xff1a;综合 Perl 档案网络 (CPAN) 提供了超过 25,0…...

Jedis(一)与Redis的关系

一、Jedis介绍&#xff1a; 1、背景&#xff1a; Jedis是基于Java语言的Redis的客户端&#xff0c;Jedis Java Redis。Redis不仅可以使用命令来操作&#xff0c;现在基本上主流的语言都有API支持&#xff0c;比如Java、C#、C、PHP、Node.js、Go等。在官方网站里有一些Java的…...

K8S--安装Nginx

原文网址&#xff1a;K8S--安装Nginx-CSDN博客 简介 本文介绍K8S安装Nginx的方法。 1.创建Nginx目录及配置文件 mkdir -p /work/devops/k8s/app/nginx/{config,html} 在config目录下创建nginx.conf配置文件&#xff0c;内容如下&#xff1a; # events必须要有 events {wo…...

[BUUCTF]-PWN:babyfengshui_33c3_2016解析

又是一道堆题&#xff0c;先看保护 关键信息是32位&#xff0c;没开pie 直接看ida 大致是alloc创建堆块&#xff0c;free释放堆块&#xff0c;show查看堆块内容&#xff0c;fill填充堆块内容 其他的都没啥关键的要讲&#xff0c;但alloc那里非常需要解析一下 解释如上图 再具…...

小程序系列--9.生命周期

1. 什么是生命周期&#xff1f; 2. 生命周期的分类 3. 什么是生命周期函数 4. 生命周期函数的分类 5. 应用的生命周期函数 6. 页面的生命周期函数...

spring:实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例&#xff0c;也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下&#xff1a; 定义实例工厂类&#xff08;Java代码&#xff09;&#xff0c;定义实例工厂&#xff08;xml&#xff09;&#xff0c;定义调用实例工厂&#xff…...

Robots.txt 文件

什么是robots.txt&#xff1f; robots.txt 是一个位于网站根目录下的文本文件&#xff08;如&#xff1a;https://example.com/robots.txt&#xff09;&#xff0c;它用于指导网络爬虫&#xff08;如搜索引擎的蜘蛛程序&#xff09;如何抓取该网站的内容。这个文件遵循 Robots…...

k8s业务程序联调工具-KtConnect

概述 原理 工具作用是建立了一个从本地到集群的单向VPN&#xff0c;根据VPN原理&#xff0c;打通两个内网必然需要借助一个公共中继节点&#xff0c;ktconnect工具巧妙的利用k8s原生的portforward能力&#xff0c;简化了建立连接的过程&#xff0c;apiserver间接起到了中继节…...

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统

目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索&#xff08;基于物理空间 广播范围&#xff09;2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...

稳定币的深度剖析与展望

一、引言 在当今数字化浪潮席卷全球的时代&#xff0c;加密货币作为一种新兴的金融现象&#xff0c;正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而&#xff0c;加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下&#xff0c;稳定…...

学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”

2025年#高考 将在近日拉开帷幕&#xff0c;#AI 监考一度冲上热搜。当AI深度融入高考&#xff0c;#时间同步 不再是辅助功能&#xff0c;而是决定AI监考系统成败的“生命线”。 AI亮相2025高考&#xff0c;40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕&#xff0c;江西、…...

听写流程自动化实践,轻量级教育辅助

随着智能教育工具的发展&#xff0c;越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式&#xff0c;也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建&#xff0c;…...

Spring是如何解决Bean的循环依赖:三级缓存机制

1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...

安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖

在Vuzix M400 AR智能眼镜的助力下&#xff0c;卢森堡罗伯特舒曼医院&#xff08;the Robert Schuman Hospitals, HRS&#xff09;凭借在无菌制剂生产流程中引入增强现实技术&#xff08;AR&#xff09;创新项目&#xff0c;荣获了2024年6月7日由卢森堡医院药剂师协会&#xff0…...

IP如何挑?2025年海外专线IP如何购买?

你花了时间和预算买了IP&#xff0c;结果IP质量不佳&#xff0c;项目效率低下不说&#xff0c;还可能带来莫名的网络问题&#xff0c;是不是太闹心了&#xff1f;尤其是在面对海外专线IP时&#xff0c;到底怎么才能买到适合自己的呢&#xff1f;所以&#xff0c;挑IP绝对是个技…...