【大数据】大数据学习路线
职位选择
首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重,保证自己兴趣所致并重点关注。
方向1:ETL工程师
ETL:数据抽取、转换、加载
ETL工作属于业务与数据的交点、需要处理上下游的关系,首先,需要对业务层面非常熟悉,其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。
方向2:数据仓库工程师
数仓会细化离线数仓和实时数仓、目前离线数仓方向发展的已经很成熟了,实时数仓是未来趋势和方向。
方向3:数据治理工程师(国企岗位居多)
数据治理的工作内容主要是对数据进行分类处理、指标整理、熟悉业务流程。
基
方向4:大数据开发工程师
大数据开发需要有良好的Java后端开发能力以及不错的源码阅读能力
大数据学习路线
系统的学习大数据相关的课程,可按照如下顺序学习
需要先掌握 Java SE 阶段,Linux 基础命令,MySQL数据库
如果上述基础技能没有掌握,可网上搜索相关课程进行学习(这类基础课程网上免费的特别多)
Java可以先学习 Java SE
会在虚拟机中安装Linux发行版本(建议安装 CentOS),学完Linux基础即可。
MySQL需要学习 sql 语法,范式,事务等。(Sql能力是必备的,没有上限)
如果以上技能你都掌握的话,接下来就进入大数据框架
可按照如下顺序进行学习(涵盖ETL、数仓、开发等岗位)
Hadoop -> Zookeeper -> Hive -> Flume && Sqoop && DataX-> Azkaban && DolphinScheduler -> 数仓建模理论+实践 ->离线数仓项目 ->Kafka -> Hbase -> Spark -> Doris-> Flink -> 实时数仓项目 ->数据治理相关知识 ->数据湖(Hudi,Iceberg)
注1.橙色为优先学习组件
** 2.大家一定要重视自己的后端开发能力,要至少做到不比后端同学差,不要让这方面的能力成为制约你职业发展的束缚。**
学习视频推荐
编程语言
关于编程语言这部分,大部分同学都是Java附带Scala技能加点,当然如果你学了一点Python的东西也是一个加分项。那么关于Java语言你可以参考下面这个视频,尤其是如果你的语言基础极差,都没有用过Java语言。
《Java基础到高级-宋红康》
https://www.bilibili.com/video/BV1Qb411g7cz
数据结构
《数据结构-浙江大学》
https://www.bilibili.com/video/BV1JW411i731
Linux基础
Linux基础这块对于数据开发非常重要,因为大家平时接触过的数据框架的搭建过程涉及大量的Linux命令操作,并且在系统级别的调优还会接触atime、ulimit这种比较高级的命令。
《史上最牛的Linux视频教程—兄弟连》
https://www.bilibili.com/video/av18156598
数据库入门
基于MySQL了解常见的SQL语法,大数据领域SQL化是未来的发展方向。
MySQL数据库教程天花板
https://www.bilibili.com/video/BV1Kb411W75N
Hadoop
尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优)
https://www.bilibili.com/video/BV1Qp4y1n7EN/
Hive
尚硅谷大数据Hive 3.x教程
https://www.bilibili.com/video/BV1g84y147sX/?
Kafka
尚硅谷Kakfa3.X教程
https://www.bilibili.com/video/BV1vr4y1677k/
Spark
尚硅谷大数据Spark教程从入门到精通
https://www.bilibili.com/video/BV11A411L7CK
Flink
【尚硅谷】Flink1.13实战教程(Java)
https://www.bilibili.com/video/BV133411s7Sa/
【尚硅谷】Flink1.13实战教程(Scala)
https://www.bilibili.com/video/BV1zr4y157XV/
Hudi
Hudi数据湖
https://www.bilibili.com/video/BV1ue4y1i7n
Doris
【尚硅谷】大数据Apache Doris教程
https://www.bilibili.com/video/BV15S4y1h7Kt
Sqoop
尚硅谷Sqoop教程(sqoop大数据开发标配)
https://www.bilibili.com/video/BV1jb411A7tc/
Flume
【尚硅谷】大数据技术之Flume教程从入门到实战
https://www.bilibili.com/video/BV1wf4y1G7EQ
DataX
【尚硅谷】Alibaba开源数据同步工具DataX技术教程
https://www.bilibili.com/video/BV1H44y1x76X
Atlas
【尚硅谷】大数据技术之Atlas数据治理
https://www.bilibili.com/video/BV1jA411F76d/
项目学习
离线数仓
尚硅谷大数据项目【电商数仓5.0】
https://www.bilibili.com/video/BV1AT411j7hu
实时数仓
尚硅谷大数据之Flink实时数仓3.0
https://www.bilibili.com/video/BV1TG411a7nL
数据中台
大数据九章云台项目
https://www.bilibili.com/video/BV1vR4y1z79G
注:电商数仓项目早已烂大街,尽量不要把这两个项目写到自己的简历上。
相关文章:
【大数据】大数据学习路线
职位选择 首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数…...
【Python爬虫案例教学】采集某网站壁纸,实现壁纸自由
前言 (。・∀・)ノ゙嗨 大家好,这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 👇 顺便瞧一眼 这里的…...
波卡2022年第四季度报告
本文将介绍Messari最新发布的波卡Polkadot 2022年第四季度报告内容。 1 Messari已经发布关于波卡Polkadot最新的报告:显示了2022年第四季度的日活账户增加了64%,新用户增长49%。 2 Messari指出,波卡中继链在2022第四季度的环比增长令人印象…...
第一章:初始化react项目+antd+less
初始化react项目 我们首先使用react脚手架创建一个项目 Ant Design less creact-react-app中文文档 creact-react-app demo生产环境打包运行 当我们执行了 npm run build 打包后直接访问index.html 看效果白屏 这时候就需要安装一个serve包 npm install -g serve当我们安…...
图的基本概念
1、图的概念 G(V,E) 图G由节点集合VV(G)和边集合EE(G)组成,其中V为非空有限集合。 集合V中的节点(node)用红色标出,通过集合E中黑色的边(edge)连接。 G的边:E中的每个顶点对&#x…...
MySQL必会四大函数-窗口函数
在了解窗口函数之前,我们必须了解聚合函数。常见的聚合函数,包括 AVG、COUNT、MAX、MIN、SUM 以及 GROUP_CONCAT,常和GROUP BY 函数一起使用。聚合函数的作用就是对一组数据行进行汇总计算,并且返回单个分析结果。 窗口函数和聚合…...
各CCF期刊点评网站/学术论坛的信息汇总及个人评价
CCF中文期刊投稿选择之篇章一:各CCF期刊点评网站/学术论坛的信息汇总及个人评价中文科技期刊A类(EI检索)中文期刊投稿点评网站整理1.小木虫学术论坛2. Letpub3. Justscience4. 发表记5. 会伴(Conference Partner)6. ijouranl7. 掌桥科研这是以…...
深度解析 JavaScript 严格模式:利弊长远的考量
前言 ECMAScript 5首次引入严格模式的概念。严格模式用于选择以更严格的条件检查JavaScript代码错误,可以应用到全局,也可以应用到函数内部。 严格模式的好处是可以提早发现错误,因此可以捕获某些 ECMAScript 问题导致的编程错误。 理解严格…...
Vue.js 循环语句
Vue.js 循环语句 在Vue开发中,for循环是我们最常遇见的场景之一,我们知道常见的遍历方式有for循环,for of、forEach、for in.虽然在开发过程中,这几种方式基本上可以满足我们大多数的场景,但是你真的知道他们之间的区…...
家政服务小程序实战教程12-详情页
我们的家政服务小程序已经完成了首页和分类展示页面的开发,接下来就需要开发详情页了。在详情页里我们展示我们的各项服务内容,让用户可以了解每项家政服务可以提供的内容。 低码开发不像传统开发,如果开发详情页需要考虑每个字段的类型&…...
十四、平衡二叉树
1、看一个案例(说明二叉排序树可能的问题) 给你一个数列{1,2,3,4,5,6},要求创建一棵二叉排序树(BST),并分析问题所在。 上面二叉排序树存在问题分析: 左子树全部为空,从形式上看&…...
AC/DC 基础
一、概念: AC转换成DC的基本方法有变压器方式和开关方式,如下图1、2所示;整流的基本方法有全波整流和半波整流,如下图3所示。 图1 变压器方式 图2 开关方式 图3 整流方式 二、转换方式 1、变压器方式 变压器方式首先需要通过变压…...
集成电路相关书籍
注:从此开始,文中提到的书籍都会在公众号对应文章末尾给出链接,不需要在微信后台获取,当然还是可以通过在微信后台回复相关书名获取对应的电子书。 在后台看到很多人回复集成电路相关的一些书籍,所以本文就提供一些书籍…...
前端开发之防抖与节流
前端开发中我们经常会通过监听某些事件来完成项目需求 1.通过监听 scroll 事件,检测滚动位置,根据滚动位置显示返回顶部按钮 2.通过监听 resize 事件,对某些自适应页面调整DOM的渲染(通过CSS实现的自适应不再此范围内)…...
大公司如何用A/B测试解决增长问题?
摘要:上线六年,字节跳动的短视频产品——抖音已成为许多人记录美好生活的平台。除了抖音,字节跳动旗下还同时运营着数十款产品,从资讯、游戏,到房产、教育等横跨多个领域。在产品迭代速度和创新能力的快速发展下&#…...
【Airplay_BCT】Bonjour API架构
Bonjour API 架构 OS X 和 iOS 为 Bonjour 服务应用程序提供了多层应用程序编程接口 (API): Foundation 框架中的 NSNetService 和 NSNetServiceBrowser 类; CFNetServices,Core Services 中 CFNetwork 框架的一部分; Java 的 DN…...
为什么sleeping的会话会造成阻塞(2)
背景客户反馈系统突然从11:10开始运行非常缓慢,在SQL专家云中看到大量的产生阻塞的活动会话,KILL掉阻塞的源头马上又出现新的源头,实在没有办法只能重启应用程序断开所有数据库连接才解决,请我们协助分析根本的原因。现象登录SQL专…...
从矩阵中提取对角线元素;将一维数组转换为对角线矩阵:np.diag()函数
【小白从小学Python、C、Java】【计算机等级考试500强双证书】【Python-数据分析】从矩阵中提取对角线元素将一维数组转换为对角线矩阵np.diag()函数选择题下列说法错误的是?import numpy as npmyarray1 np.array([1,2,3])print("【显示】myarray1")print(myarray1…...
JavaSE学习day7_02 封装和构造方法
4. 封装 面向对象的三大特征: 封装、继承、多态 封装:对象代表什么,就得封装对应的数据,并提供数据对应的行为。 比如人画圆:”画“这个行为应该封装在圆这个类,为什么?因为”画“圆要知道圆…...
2022年FIT2CLOUD飞致云开源成绩单
2023年2月15日,中国领先的开源软件公司FIT2CLOUD飞致云发布《2022年开源成绩单》,盘点公司2022年全年在开源软件产品与社区运营方面的表现。目前,飞致云旗下的核心开源软件组合包括JumpServer开源堡垒机、DataEase开源数据可视化分析平台、Me…...
Windows 10/11 环境下 OpenClaw v2.7.1 安装避坑与常见问题解决方案
🦞 OpenClaw v2.7.1 Windows 一键部署教程|5 分钟搭建本地 AI 智能体 在本地 AI 自动化工具快速普及的当下,OpenClaw(小龙虾)凭借全程可视化、一键部署、本地运行的特点,成为 Windows 平台上易用性突出的 …...
车载以太网调试‘直连’方案揭秘:不用MCU,如何用两颗PHY芯片搞定100M转换?
车载以太网调试直连方案:两颗PHY芯片实现100M转换的技术解析 在车载电子系统日益复杂的今天,以太网技术凭借其高带宽和可靠性优势,正逐步取代传统的CAN总线成为车载网络的主流选择。然而,当工程师需要调试这些车载以太网设备时&am…...
AI原生图计算应用落地全景图(SITS 2026权威白皮书核心精要)
更多请点击: https://intelliparadigm.com 第一章:AI原生图计算应用:SITS 2026图神经网络工程化方案 SITS 2026 是面向大规模动态图场景的AI原生图计算框架,深度融合GNN训练、图拓扑实时更新与边缘-云协同推理能力。其核心设计摒…...
基于LLM的Python脚本自我进化:构建AI驱动的代码优化框架
1. 项目概述:当Python脚本学会自我进化几年前,如果有人告诉我,我写的Python脚本能在我喝咖啡的时候自己给自己“打补丁”、优化逻辑,我肯定会觉得这是科幻小说里的情节。但今天,这已经是我日常工作流的一部分。这个项目…...
从音频处理到IoT数据:用scipy.signal.resample_poly搞定实际项目中的采样率转换
从音频处理到IoT数据:用scipy.signal.resample_poly搞定实际项目中的采样率转换 采样率转换是数字信号处理中的常见需求,无论是音频处理、传感器数据分析还是通信系统仿真,都会遇到不同采样率设备间的数据交互问题。想象一下,当你…...
LocalChat:零门槛本地部署开源大语言模型,实现隐私安全的离线AI对话
1. 项目概述与核心价值如果你和我一样,对ChatGPT这类大语言模型的能力感到兴奋,但又对数据隐私、服务依赖和网络延迟心存顾虑,那么LocalChat这个项目可能就是为你量身打造的。简单来说,LocalChat是一个让你能在自己电脑上…...
Arm CoreLink GFC-200 Flash控制器架构与优化实践
1. Arm CoreLink GFC-200 Flash控制器架构解析在嵌入式系统设计中,非易失性存储管理是核心挑战之一。作为Arm CoreLink系列的重要成员,GFC-200通用Flash控制器通过创新的总线架构和分区管理机制,为SoC设计提供了高效的Flash存储解决方案。这款…...
别再满世界找旧版了!用JetBrains Toolbox App一键管理所有IDE版本(含IDEA/PyCharm/WebStorm)
高效管理开发环境:JetBrains Toolbox App 的进阶使用指南 每次打开编辑器都要重新配置环境?项目组里有人用新版有人用旧版导致协作困难?插件突然不兼容最新版本?这些问题困扰着许多开发者。JetBrains Toolbox App 作为官方推出的管…...
OpenAccess十年:EDA互操作性标准如何重塑芯片设计流程
1. 从愿景到现实:OpenAccess十年之路的深度复盘十年前,也就是2002年的12月,当Si2(硅集成倡议组织)首次向联盟成员发布OpenAccess 2.0时,恐怕没有多少人能预料到,这个源于半导体巨头内部需求的“…...
AAAI‘2026 模型记错了,检索也救不了?KG+TruthfulRAG想解决这个死结
背景介绍 近年来,大语言模型(LLM)在生成与理解任务上表现突出,但其内部“参数化知识”具有静态、滞后的特点: 面对时效性知识、专业知识、隐私知识等,模型可能缺乏覆盖;即便检索增强生成&#…...
