ApacheCon - 云原生大数据上的 Apache 项目实践
Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。
字节跳动云原生计算团队在此次 CommunityOverCode Asia 峰会中深度参与并进行相关主题演讲,由 8 位同学围绕 4 个专题下的 6 个议题,分享 Apache 开源项目在字节跳动业务中的实践经验。此外,Apache Calcite PMC Member、Apache Flink Committer 李本超将参与 Keynote 演讲,分享参与开源贡献的经验与收获。
主题演讲
开源贡献难吗?
也许很多同学都有想过参与一些开源贡献,来提升自己的技术能力和影响力。但是理想跟现实之间通常有一些距离:因为工作太忙,没有时间参与;开源项目门槛太高,不知道怎么入门;尝试过一些贡献,但是社区响应度不高,没有坚持下去。本次 keynote,李本超会结合自己的经历,分享他在贡献开源社区过程中的一些小故事和思考,如何克服这些困难,最终在开源社区取得突破,并且在工作和开源贡献之间取得平衡。
李本超
字节跳动,Flink SQL 技术负责人
Apache Calcite PMC Member,Apache Flink Committer,毕业于北京大学,目前就职于字节跳动流式计算团队,Flink SQL 技术负责人。
专题演讲
专题:数据湖与数据仓库
基于 Flink 构建实时数据湖的实践
王正 火山引擎云原生计算研发工程师
闵中元 火山引擎云原生计算研发工程师
演讲简介:实时数据湖是现代数据架构的核心组成部分,它允许企业实时分析和查询大量数据。在这场分享中,我们将首先介绍实时数据湖目前存在的痛点,比如数据的高时效性,多样性,一致性和准确性等。然后介绍我们如何基于 Flink 和 Iceberg 构建实时数据湖,主要通过如下两部分展开:如何将数据实时入湖、如何使用 Flink 进行 OLAP 临时查询。最后介绍一下字节跳动在实时数据湖中的一些实践收益。
讲师简介:王正,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink 等方向研发;
闵中元,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink ,Flink OLAP 等方向研发。
专题:人工智能 / 机器学习
字节跳动深度学习批流一体训练实践
毛洪玥 字节跳动基础架构工程师
演讲简介:随着公司业务发展,算法复杂度不断提升,越来越多的算法模型在离线更新的基础上探索实时训练以提升模型效果。为实现复杂的离线和实时训练灵活编排、自由切换,能在更大范围内调度在离线计算资源,机器学习模型训练逐渐趋于批流一体化.本次将分享包括字节跳动机器学习训练调度框架的架构演进、批流一体实践、异构弹性训练等部分内容。并着重介绍在 MFTC(批流一体协同训练)场景下,多阶段多数据源混合编排、流式样本全局 Shuffle、全链路 Native 化,训练数据洞察等实践经验。
讲师简介:于 2022 年加入字节跳动,从事机器学习训练研发工作,主要负责大规模云原生批流一体 AI 模型训练引擎,支撑了包括抖音视频推荐、头条推荐、穿山甲广告、千川图文广告等业务。
字节跳动 Spark 支持万卡模型推理实践
刘畅 字节跳动基础架构工程师
张永强 字节跳动机器学习系统工程师
演讲简介:随着云原生的发展,Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes,使得作业云原生化运行。同时搜索有大量 GPU 需求量极大的离线批处理任务,随着潮汐任务上量,发现一系列问题:GPU 算力供给(卡时数)仍有较大缺口、单机房资源池规模无法匹配业务单位任务计算量增长、在线资源池算力浪费问题、缺乏统一平台入口。Spark 和 AML(应用机器学习)合作,通过 GPU 共享技术、混部 GPU 调度、Spark 引擎增强,平台及周边生态完善等途径,支持万张卡混部 GPU 模型推理离线计算,支持作业 80 亿多模态训练数据使用混部 GPU 7k 卡 7.5h 完成模型打分数据清洗,并且资源使用效率、稳定性均得到了显著提升。
讲师简介:刘畅,于 2020 年加入字节跳动,就职于基础架构批式计算团队,主要负责 Spark 云原生方向工作,Spark On Kubernetes 等方向研发;
张永强,于 2022 年加入字节跳动,就职于 AML 机器学习系统团队,参与构建大规模机器学习平台。
专题:数据存储与计算
字节跳动 MapReduce -> Spark 平滑迁移实践
魏中佳 字节跳动基础架构工程师
演讲简介:随着业务发展,字节跳动内部每天线上约运行 120 万 个 Spark 作业,与之相对比的是,线上每天依然约有两万到三万个 MapReduce 任务。作为一个历史悠久的批处理框架,从大数据研发的角度来看,MapReduce 引擎的运维面临了一系列问题。例如,框架更新迭代的的 ROI 较低,对于新的计算调度框架适配性较差等等。而从用户的角度来看, MapReduce 引擎的使用也存在一系列的问题。例如,计算性能不佳,需要额外的 Pipeline 工具管理串行运行的 Job,希望迁移 Spark 但是存量作业数量多且大量作业使用了 Spark 本身不支持的各种脚本。在此背景下,字节跳动 Batch 团队设计并实现了一套 MapReduce 任务平滑迁移 Spark 的方案,该方案使用户仅需对存量作业增加少量的参数或环境变量即可完成从 MapReduce 到 Spark 的平缓迁移,大大降低了迁移成本,并且取得了不错的成本收益。
讲师简介:2018 年加入字节跳动,现任字节跳动基础架构大数据开发工程师,专注大数据分布式计算领域,主要负责 Spark 内核开发、字节自研 Shuffle Service 开发。
字节跳动千亿文件 HDFS 集群实践
熊睦 火山引擎大数据存储研发工程师
演讲简介:随着大数据技术的深入发展,数据规模和使用复杂度越来越高,Apache HDFS 面临着新的挑战。在字节跳动,HDFS 即是传统 Hadoop 数仓业务的存储,也是存算分离架构计算引擎的底座,还是机器学习模型训练的存储底座。在字节跳动,HDFS 既搭建了服务于大规模计算资源调度跨多地区的存储调度能力提升计算任务稳定性;也提供了统合用户侧缓存、常规三副本、冷存的数据识别和冷热调度能力。本次分享介绍字节跳动内部如何认识新兴场景对传统大数据存储的新要求,并通过技术演进和运维体系建设,支持不同场景下的系统稳定。
讲师简介:主要负责大数据存储 HDFS 元数据服务演进和上层计算生态支持。
专题:云原生
字节跳动云原生 YARN 实践
邵凯阳 火山引擎云原生计算研发工程师
演讲简介:字节跳动内部离线业务具有庞大的规模,线上每天有数十万节点、数百万任务运行,每天使用的资源量达千万量级,内部由离线调度系统和在线调度系统分别负责离线业务和在线业务的调度管理。但随着业务规模发展,这一套系统暴露了一些短板:在离线属于两套系统,一些重大活动场景需要通过运维方式进行在离线资源转换,运维负担繁重,转换周期长;资源池不统一使得整体资源利用率不高,配额管控、机器运维等无法复用;大数据作业无法享受到云原生的各种好处,例如:可靠稳定的隔离能力、便捷的运维能力等。在离线系统亟待统一,而传统大数据引擎不是针对云原生设计难以直接云原生部署,各计算引擎和任务需要进行深度改造才能支持原先在 YARN 上的各种特性,改造成本巨大。基于此背景,字节跳动提出基于云原生的 YARN 解决方案 —— Serverless YARN,其 100% 兼容 Hadoop YARN 协议, Hadoop 生态下的大数据作业无需修改即可透明迁移到云原生系统上,在线资源和离线资源间可以高效灵活转换、分时复用,集群整体资源利用率得到显著提升。
讲师简介:在字节跳动基础架构负责离线调度相关工作,具有多年工程架构经验。
相关文章:

ApacheCon - 云原生大数据上的 Apache 项目实践
Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。 字节跳动云原生计算团队在此次 CommunityOve…...

Git 代码分支规范
目的 俗话说:没有规矩,不成方圆。遵循一个好的规章制度能让你的工作事半功倍。同时也可以展现出你做事的认真的态度以及你的专业性,不会显得杂乱无章,管理困难。Git分支规范也是一样。当遵循了某种约定的Git分支,在代…...

ATFX汇评:美7月通胀率数据基本符合预期,美指仍无法站稳103关口
ATFX汇评:据美劳工部,美国7月未季调CPI年率,最新值3.2,高于前值3%,低于预期值3.3%,这标志着连续12个月的下降已经停止;7月未季调核心CPI年率,最新值4.7%,低于前值4.8%&am…...

系统架构设计专业技能 · 软件工程(一)【系统架构设计师】
系列文章目录 系统架构设计高级技能 软件架构概念、架构风格、ABSD、架构复用、DSSA(一)【系统架构设计师】 系统架构设计高级技能 系统质量属性与架构评估(二)【系统架构设计师】 系统架构设计高级技能 软件可靠性分析与设计…...

C语言 指针的运算
目录 一、介绍 二、指针 整数 、指针 - 整数 二、指针 - 指针 四、指针的关系运算 一、介绍 在C语言中,指针的运算分为三类 1、指针 整数 、指针 - 整数2、指针 - 指针3、指针的关系运算 二、指针 整数 、指针 - 整数 因为数组在…...

【JAVA基础】- 同步非阻塞模式NIO详解
【JAVA基础】- 同步非阻塞模式NIO详解 文章目录 【JAVA基础】- 同步非阻塞模式NIO详解一、概述二、常用概念三、NIO的实现原理四、NIO代码实现客户端实现服务端实现 五、同步非阻塞NIO总结 一、概述 NIO(Non-Blocking IO)是同步非阻塞方式来处理IO数据。…...

dingding机器人
“自定义机器人”只支持消息发送,自动回复需要“企业内部机器人” 消息发送 import requests import jsonres requests.post(https://oapi.dingtalk.com/robot/send?access_token036a339axxx,data json.dumps({"text": {"content":"h…...

6.6 实现卷积神经网络LeNet训练并预测手写体数字
模型架构 代码实现 import torch from torch import nn from d2l import torch as d2lnet nn.Sequential(nn.Conv2d(1,6,kernel_size5,padding2),nn.Sigmoid(),#padding2补偿5x5卷积核导致的特征减少。nn.AvgPool2d(kernel_size2,stride2),nn.Conv2d(6,16,kernel_size5),nn.S…...

Django路由Router
文章目录 一、路由router路由匹配命名空间反向解析 二、实践创建用户模型Model添加子路由 - 创建用户首页页面跳转 - 使用反向解析和命名空间1. 不使用命名空间的效果2. 使用命名空间的效果 用户详情页面跳转 - 路由传参路由传递多个参数re_path 以前写法,了解即可重定向Redire…...

蜜蜂路线 P2437
蜜蜂路线 题目背景 无 题目描述 一只蜜蜂在下图所示的数字蜂房上爬动,已知它只能从标号小的蜂房爬到标号大的相邻蜂房,现在问你:蜜蜂从蜂房 m 开始爬到蜂房 n,m<n,有多少种爬行路线?(备注:题面有误&…...

无脑——010 复现yolov8 使用yolov8和rt detr 对比,并训练自己的数据集
1.配置环境 1. 首先去官网下载yolov8的zip https://github.com/ultralytics/ultralytics 存放在我的目录下G:\bsh\yolov8 然后使用conda创建新的环境 conda create -n yolov8 python3.8 #然后激活环境 conda activate yolov8然后安装pytorch,注意 ,py…...

如何给Google Chrome增加proxy
1. 先打开https://github.com/KaranGauswami/socks-to-http-proxy/releases 我的电脑是Liunx系统所以下载第一个 2. 下载完之后把这个文件变成可执行文件,可以是用这个命令 chmod x 文件名 3. 然后执行这个命令: ./sthp-linux -p 8080 -s 127.0.0.1:…...
设计模式——原型模式
原型模式就是有时我们需要多个类的实例,但是一个个创建,然后初始化,这样太麻烦了,此时可以使用克隆,来创建出克隆对象,就能大大的提高效率。具体就是要让此类实现Cloneable接口,然后重写Object类…...
Spring框架中的Bean生命周期
目录 Bean的实例化 BeanFactoryPostProcessor 属性赋值 循环依赖 初始化 处理各种Aware接口 执行BeanPostProcessor前置处理 执行InitializingBean初始化方法或执行init-method自定义初始化方法 执行BeanPostProcessor后置处理 销毁 Spring Bean 的生命周期总体分为…...
async和await修饰符
async和await是JavaScript中用来处理异步操作的关键字 。 async和await也是解决回调地域的终极方案,简单,而Promise链混杂难以看懂。 async关键字用于定义一个函数,使其返回一个Promise对象。这意味着该函数可以通过await关键字来暂停执行&…...

vivado tcl创建工程和Git管理
一、Tcl工程创建 二、Git版本管理 对于创建完成的工程需要Git备份时,不需要上传完整几百或上G的工程,使用tcl指令创建脚本,并只将Tcl脚本上传,克隆时,只需要克隆tcl脚本,使用vivado导入新建工程即可。 优…...

田间农业数字管理系统-高标准农田建设
政策背景 2019年11月,国务院办公厅印发的《国务院办公厅关于切实加强高标准农田建设提升粮食安全保障能力的意见》明确提出,到2022年,全国要建成10亿亩高标准农田。 2021年9月16日,由农业农村部印发的《全国高标准农田建设规划&a…...

【网络安全】等保测评系列预热
【网络安全】等保测评系列预热 前言1. 什么是等级保护?2. 为什么要做等保?3. 路人甲疑问? 一、等保测试1. 渗透测试流程1.1 明确目标1.2 信息搜集1.3 漏洞探索1.4 漏洞验证1.5 信息分析1.6 获取所需1.7 信息整理1.8 形成报告 2. 等保概述2.1 …...

解决: git拉取报错 git 未能顺利结束 (退出码 1)
拉取代码失败信息 解决方法: 执行一下"git push -f origin master"命令即可 步骤: 1.项目文件夹右击选择"Git Bash Here",打开命令窗口 2. 输入"git push -f origin master"后,回画 执行结束 3.再拉取代码,成功...

【深度学习中的批量归一化BN和层归一化LN】BN层(Batch Normalization)和LN层(Layer Normalization)的区别
文章目录 1、概述2、BN层3、LN层4、Pytorch的实现5、BN层和LN层的对比 1、概述 归一化(Normalization) 方法:指的是把不同维度的特征(例如序列特征或者图像的特征图等)转换为相同或相似的尺度范围内的方法,比如把数据特征映射到[…...

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析
1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具,该工具基于TUN接口实现其功能,利用反向TCP/TLS连接建立一条隐蔽的通信信道,支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式,适应复杂网…...
Admin.Net中的消息通信SignalR解释
定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...
服务器硬防的应用场景都有哪些?
服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式,避免服务器受到各种恶意攻击和网络威胁,那么,服务器硬防通常都会应用在哪些场景当中呢? 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...
c++ 面试题(1)-----深度优先搜索(DFS)实现
操作系统:ubuntu22.04 IDE:Visual Studio Code 编程语言:C11 题目描述 地上有一个 m 行 n 列的方格,从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子,但不能进入行坐标和列坐标的数位之和大于 k 的格子。 例…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
Neo4j 集群管理:原理、技术与最佳实践深度解析
Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)
引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...
unix/linux,sudo,其发展历程详细时间线、由来、历史背景
sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...

智能仓储的未来:自动化、AI与数据分析如何重塑物流中心
当仓库学会“思考”,物流的终极形态正在诞生 想象这样的场景: 凌晨3点,某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径;AI视觉系统在0.1秒内扫描包裹信息;数字孪生平台正模拟次日峰值流量压力…...