当前位置: 首页 > news >正文

Hago 的 Spark on ACK 实践

作者:华相

Hago 于 2018 年 4 月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago 融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、 3D 虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验,在东南亚、中东和南美等地区拥有广泛的用户群。

在技术层面,Hago 提供优秀的自研音视频技术,实现更加稳定、高效和优质的数字人服务。包括 3D 超写实模型、真人主播模型制作,虚拟人语音、表情驱动,自然声音的文字转语音(TTS),成熟的虚拟直播能力。

长期以来,Hago 都是在 IDC 里运行大数据任务,以支撑上面的许多产品,从 2022 年开始,Hago 开始将大数据业务迁移上云,并以 Spark on ACK 的形式来运行,本文主要针对迁移过程进行介绍。

IDC 中遇到的问题

起初,Hago 的 Spark 任务都是跑在 IDC 里的 Hadoop 集群里,当时主要面临几个问题:

  • 资源限制问题:当资源不足时,导致任务堆积、排队
  • 扩容的时效性:集群扩容逻辑比较复杂,特别是节假日有活动时,往往要提前一周准备扩容
  • 资源利用率问题:Spark 任务有明显的波峰波谷,波谷的资源浪费明显
  • 为了解决上面几个问题,Hago 决定把大数据业务用云原生的方式迁移上云

实施

Spark 项目从 3.1 开始,Spark on Kubernetes 的功能正式 GA。

所以,ACK 作为托管的 Kubernetes 发行版,提供更高的性能和更强稳定性,自然成为阿里云上 Spark 的最佳运行底座,这里为了更好的弹性效果,Hago 选择了 Serverless 版本的 ACK。

ACK Serverless

图片

在 ACK Serverless 集群中,无需购买节点即可直接部署容器应用,无需对集群进行节点维护和容量规划,并且根据应用配置的 CPU 和内存资源量进行按需付费。ACK Serverless 集群提供完善的 Kubernetes 兼容能力,同时降低了 Kubernetes 使用门槛,用户更专注于应用程序,而不是管理底层基础设施。

同时,ACK Serverless 集群中的 Pod 基于阿里云弹性容器实例 ECI 运行在安全隔离的容器运行环境中。每个 Pod 容器实例底层通过轻量级虚拟化安全沙箱技术完全强隔离,容器实例间互不影响。

在 Spark 这种大规模业务峰值脉冲和任务调度的场景,ACK Serverless 集群的弹性优势也更加明显,可以在 30s 内交付几千个 Pod。

但在真正运行之前还有一些问题需要解决:

存算分离

上面提到,Spark 任务对算力的需求不是 7*24 小时的,但是存储是一直留存的,如果用传统的方式,在虚拟机上搭建 HDFS 集群,那就需要常驻大量的算力,也意味着产生大量的浪费。

Hago 选择存算分离的方案,将数据放在 OSS 里,通过 OSS-HDFS 服务把数据用 HDFS 接口暴露出来,方便 Spark 任务读取。

详情请参阅:OSS-HDFS 服务概述 [ 1]

shuffle service 的选型

shuffle 是 Spark 中最基本的过程之一,同时,shuffle 对于 Spark 应用程序的性能至关重要。

Spark 社区提供了默认的 shuffle service [ 2] ,但存在一些问题:

  • Spark Shuffle 对本地存储有依赖,许多计算存储分离的机型、使用 ECI 的场景下没有自带本地盘,需要额外购买和挂载云盘,性价比和使用效率低
  • Spark 基于 ShuffleTracking 实现了 Dynamic Allocation,但 Executor 回收效率低下

具体表现如下:

  • Shuffle Write 在大数据量场景下会溢出,导致写放大
  • Shuffle Read 过程中存在大量的网络小包导致的 Connection reset 问题
  • Shuffle Read 过程中存在大量小数据量的 IO 请求和随机读,对磁盘和 CPU 造成高负载
  • 对于 M*N 次的连接数,在 M 和 N 数千的规模下,作业基本无法完成

EMR 推出的 RSS 服务,可以优化上述 Spark Shuffle 方案的问题,完美支持 ACK 环境下的 Dynamic Allocation。

详情请参阅:EMR Remote Shuffle Service [ 3]

落地效果

图片

最终落地的架构图大致如上所示,取得了非常理想的效果:

  • 基本不需要提前准备,扩容只需要 30s
  • 任务不再需要排队
  • 不需要关心 IDC 的硬件故障问题

相关链接:

[1] OSS-HDFS 服务概述

https://help.aliyun.com/zh/oss/user-guide/overview-1

[2] shuffle service

https://github.com/lynnyuan-arch/spark-on-k8s/blob/master/resource-managers/kubernetes/architecture-docs/external-shuffle-service.md

[3] EMR Remote Shuffle Service

https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/celeborn#task-2184004

相关文章:

Hago 的 Spark on ACK 实践

作者:华相 Hago 于 2018 年 4 月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago 融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、 3D 虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、…...

mac传输文件到windows

前言 由于mac系统与windows系统文件格式不同,通过U盘进行文件拷贝时,导致无法拷贝。官方解决方案如下,但是描述的比较模糊。看我的操作步骤即可。 https://support.apple.com/zh-cn/guide/mac-help/mchlp1657/12.0/mac/12.6 前提条件 mac与…...

trtc-electron-sdk的demo中添加更新功能以及出现的报错问题

1、官网demo下载地址 点击下载 按照官网demo说明文档进行安装和运行 2、添加electron-updater npm install electron-updater根据项目需求安装对应的版本,建议使用5.2.1 3、创建一个handleUpdater.js文件,和package.json同级 // const { ipcMain } …...

什么是流量攻击? 流量攻击怎么处理?

由于DDoS攻击往往采取合法的数据请求技术,再加上傀儡机器,造成DDoS攻击成为最难防御的网络攻击之一。据美国最新的安全损失调查报告,DDoS攻击所造成的经济损失已经跃居第一。 传统的网络设备和周边安全技术,例如防火墙和IDSs(Intr…...

【大数据】NiFi 的基本使用

NiFi 的基本使用 1.NiFi 的安装与使用1.1 NiFi 的安装1.2 各目录及主要文件 2.NiFi 的页面使用2.1 主页面介绍2.2 面板介绍 3.NiFi 的工作方式3.1 基本方式3.2 选择处理器3.3 组件状态3.4 组件的配置3.4.1 SETTINGS(通用配置)3.4.2 SCHEDULING&#xff0…...

5 分钟内搭建一个免费问答机器人:Milvus + LangChain

搭建一个好用、便宜又准确的问答机器人需要多长时间? 答案是 5 分钟。只需借助开源的 RAG 技术栈、LangChain 以及好用的向量数据库 Milvus。必须要强调的是,该问答机器人的成本很低,因为我们在召回、评估和开发迭代的过程中不需要调用大语言…...

WPF Border

在 WPF 中&#xff0c;Border 是一种常用的控件&#xff0c;用于给其他控件提供边框和背景效果。 要使用 Border 控件&#xff0c;您可以在 XAML 代码中添加以下代码&#xff1a; <Border BorderBrush"Black" BorderThickness"2" Background"Lig…...

基于博弈树的开源五子棋AI教程[4 静态棋盘评估]

引子 静态棋盘的评估是棋力的一个很重要的体现&#xff0c;一个优秀的基于博弈树搜索的AI往往有上千行工作量&#xff0c;本文没有做深入讨论&#xff0c;仅仅写了个引子用来抛砖引玉。 评估一般从两个角度入手&#xff0c;一个是子力&#xff0c;另一个是局势。 1 评估维度 …...

STL--排序与检索

题目 现有N个大理石&#xff0c;每个大理石上写了一个非负整数。首先把各数从小到大排序&#xff0c;然后回答Q个问题。每个问题是否有一个大理石写着某个整数x,如果是&#xff0c;还要回答哪个大理石写着x。排序后的大理石从左到右编写为1-N。&#xff08;样例中&#xff0c;…...

大数据处理与分析-Spark

导论 (基于Hadoop的MapReduce的优缺点&#xff09; MapReduce是一个分布式运算程序的编程框架&#xff0c;是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段&#xff1a;Map阶…...

虚拟机的下载、安装(模拟出服务器)

下载 vmware workstation&#xff08;收费的虚拟机&#xff09; 下载vbox 网址&#xff1a;Oracle VM VirtualBox&#xff08;免费的虚拟机&#xff09; 以下选择一个下载即可&#xff0c;建议下载vbox&#xff0c;因为是免费的。安装的时候默认下一步即可&#xff08;路径最好…...

K8S Pod Terminating/Unknown故障排查

一、pod异常出现现象 优雅终止周期(Graceful termination period): 当pod被删除时&#xff0c;会进入"Terminating"状态&#xff0c;等待容器优雅关闭。如果容器关闭所需时间超过默认期限(默认30秒)&#xff0c;则pod将保持在"Terminating"状态。 Finalize…...

labelme标注的json文件数据转成coco数据集格式(可处理目标框和实例分割)

这里主要是搬运一下能找到的 labelme标注的json文件数据转成coco数据集格式&#xff08;可处理目标框和实例分割&#xff09;的代码&#xff0c;以供需要时参考和提供相关帮助。 1、官方labelme实现 如下是labelme官方网址&#xff0c;提供了源代码&#xff0c;以及相关使用方…...

MySQL报错:1366 - Incorrect integer value: ‘xx‘ for column ‘xx‘ at row 1的解决方法

我在插入表数据时遇到了1366报错&#xff0c;报错内容&#xff1a;1366 - Incorrect integer value: Cindy for column name at row 1&#xff0c;下面我演示解决方法。 根据上图&#xff0c;原因是Cindy’对应的name字段数据类型不正确。我们在左侧找到该字段所在的grade_6表&…...

MySQL中MVCC的流程

参考文章一 参考文章二 当谈到数据库的并发控制时&#xff0c;多版本并发控制&#xff08;MVCC&#xff09;是一个重要的概念。MVCC 是一种用于实现数据库事务隔离性的技术&#xff0c;常见于像 PostgreSQL 和 Oracle 这样的数据库系统中。 MVCC 的核心思想是为每个数据行维护…...

朴素贝叶斯法_naive_Bayes

朴素贝叶斯法&#xff08;naive Bayes&#xff09;是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集&#xff0c;首先基于特征条件独立假设学习输入输出的联合概率分布&#xff1b;然后基于此模型&#xff0c;对给定的输入 x x x&#xff0c;利用贝叶斯定理…...

Windows下安装MongoDB实践总结

本文记录Windows环境下的MongoDB安装与使用总结。 【1】官网下载 官网下载地址&#xff1a;Download MongoDB Community Server | MongoDB 这里可以选择下载zip或者msi&#xff0c;zip是解压后自己配置&#xff0c;msi是傻瓜式一键安装。这里我们分别对比进行实践。 【2】ZI…...

华为云Stack 8.X 流量模型分析(二)

二、流量模型分析相关知识 1.vNIC ​ 虚拟网络接口卡(vNIC)是基于主机物理 NIC 的虚拟网络接口。每个主机可以有多个 NIC&#xff0c;每个 NIC 可以是多个 vNIC 的基础。 ​ 将 vNIC 附加到虚拟机时&#xff0c;Red Hat Virtualization Manager 会在虚拟机之间创建多个关联的…...

rk3588 之启动

目录 uboot版本配置修改编译 linux版本配置修改编译 启动sd卡启动制作spi 烧录 参考 uboot 版本 v2024.01-rc2 https://github.com/u-boot/u-boot https://github.com/rockchip-linux/rkbin 配置修改 使用这两个配置即可&#xff1a; orangepi-5-plus-rk3588_defconfig r…...

ARM GIC (五)gicv3架构-LPI

在gicv3中,引入了一种新的中断类型。message based interrupts,消息中断。 一、消息中断 外设,不在通过专用中断线,向gic发送中断,而是写gic的寄存器,来发送中断。 这样的一个好处是,可以减少中断线的个数。 为了支持消息中断,gicv3,增加了LPI,来支持消息中断。并且…...

告别网络依赖:CircuitJS1桌面版带你体验离线电路仿真的自由

告别网络依赖&#xff1a;CircuitJS1桌面版带你体验离线电路仿真的自由 【免费下载链接】circuitjs1 Standalone (offline) version of the Circuit Simulator with small modifications based on modified NW.js. 项目地址: https://gitcode.com/gh_mirrors/circ/circuitjs1…...

AI模型部署实战:基于FastAPI与Tauri构建OpenClaw模型GUI应用

1. 项目概述与核心价值最近在AI应用开发圈里&#xff0c;一个名为“GrahamMiranda-AI/openclaw-model-gui”的项目引起了我的注意。乍一看这个标题&#xff0c;它融合了“openclaw-model”和“gui”两个关键部分&#xff0c;这让我立刻联想到一个典型的场景&#xff1a;一个已经…...

5分钟免费获取:开源鼠标连点器MouseClick完整使用指南

5分钟免费获取&#xff1a;开源鼠标连点器MouseClick完整使用指南 【免费下载链接】MouseClick &#x1f5b1;️ MouseClick &#x1f5b1;️ 是一款功能强大的鼠标连点器和管理工具&#xff0c;采用 QT Widget 开发 &#xff0c;具备跨平台兼容性 。软件界面美观 &#xff0c;…...

Lingoose:轻量级LLM编排框架的设计哲学与工程实践

1. 项目概述&#xff1a;从“Lingo”到“Goose”&#xff0c;一个轻量级LLM编排框架的诞生最近在折腾大语言模型应用开发的朋友&#xff0c;估计都绕不开一个核心问题&#xff1a;如何高效、优雅地编排和串联多个LLM调用、工具调用以及数据处理流程&#xff1f;当你从简单的单次…...

Mantic.sh:AI驱动的智能命令行工具,让自然语言生成终端命令

1. 项目概述&#xff1a;一个为开发者打造的智能终端伴侣 如果你和我一样&#xff0c;每天有超过一半的工作时间是在终端&#xff08;Terminal&#xff09;里度过的&#xff0c;那你一定对效率有着近乎偏执的追求。敲命令、查日志、管理进程、部署服务……这些重复且琐碎的操作…...

Windows Terminal 预览版:从安装到深度配置,打造现代化命令行工作流

1. 项目概述&#xff1a;为什么我们需要一个现代化的Windows终端&#xff1f;如果你和我一样&#xff0c;在Windows上敲了十几年命令行&#xff0c;从古老的cmd.exe到后来的PowerShell&#xff0c;一个绕不开的痛点就是&#xff1a;这终端工具&#xff0c;用起来总感觉差点意思…...

ARM处理器仿真技术:Cortex-R52与Neoverse实战解析

1. ARM处理器仿真技术概述在现代芯片设计和软件开发流程中&#xff0c;处理器仿真模型已成为不可或缺的关键工具。作为Arm生态系统的重要组成部分&#xff0c;Iris仿真组件提供了对Cortex-R52和Neoverse系列处理器的精确模拟能力。这些模型不仅能够模拟指令执行流程&#xff0c…...

Excalidraw草图AI技能:从图形解析到自动化代码生成实战

1. 项目概述&#xff1a;一个能“读懂”你草图的AI技能如果你经常用Excalidraw画流程图、架构图或者UI草图&#xff0c;那你一定遇到过这样的场景&#xff1a;画完一张图&#xff0c;想把它整理成文档&#xff0c;或者想基于这张图生成一些代码&#xff0c;又或者想让它自己动起…...

GitHub宝藏项目:生成式AI公司全景导航图与实战应用指南

1. 项目概述&#xff1a;一份AI创业公司的全景导航图最近在GitHub上闲逛&#xff0c;发现了一个宝藏仓库&#xff0c;名字叫“awesome-generative-ai-companies”。这个项目&#xff0c;说白了&#xff0c;就是一个由社区驱动的、持续更新的生成式AI公司名录。它不像那些商业咨…...

K210实战:三种高效部署kmodel模型至TF卡的进阶方案

1. K210模型部署的痛点与进阶方案概览 第一次用K210做图像识别项目时&#xff0c;最让我头疼的就是模型部署问题。每次修改模型都要反复插拔TF卡&#xff0c;调试过程像在玩打地鼠游戏。后来才发现&#xff0c;基础的拷贝粘贴只是入门操作&#xff0c;真正高效的部署方式能节省…...