【大数据】大数据学习路线
职位选择
首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重,保证自己兴趣所致并重点关注。
方向1:ETL工程师
ETL:数据抽取、转换、加载
ETL工作属于业务与数据的交点、需要处理上下游的关系,首先,需要对业务层面非常熟悉,其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。
方向2:数据仓库工程师
数仓会细化离线数仓和实时数仓、目前离线数仓方向发展的已经很成熟了,实时数仓是未来趋势和方向。
方向3:数据治理工程师(国企岗位居多)
数据治理的工作内容主要是对数据进行分类处理、指标整理、熟悉业务流程。
基
方向4:大数据开发工程师
大数据开发需要有良好的Java后端开发能力以及不错的源码阅读能力
大数据学习路线
系统的学习大数据相关的课程,可按照如下顺序学习
需要先掌握 Java SE 阶段,Linux 基础命令,MySQL数据库
如果上述基础技能没有掌握,可网上搜索相关课程进行学习(这类基础课程网上免费的特别多)
Java可以先学习 Java SE
会在虚拟机中安装Linux发行版本(建议安装 CentOS),学完Linux基础即可。
MySQL需要学习 sql 语法,范式,事务等。(Sql能力是必备的,没有上限)
如果以上技能你都掌握的话,接下来就进入大数据框架
可按照如下顺序进行学习(涵盖ETL、数仓、开发等岗位)
Hadoop -> Zookeeper -> Hive -> Flume && Sqoop && DataX-> Azkaban && DolphinScheduler -> 数仓建模理论+实践 ->离线数仓项目 ->Kafka -> Hbase -> Spark -> Doris-> Flink -> 实时数仓项目 ->数据治理相关知识 ->数据湖(Hudi,Iceberg)
注1.橙色为优先学习组件
** 2.大家一定要重视自己的后端开发能力,要至少做到不比后端同学差,不要让这方面的能力成为制约你职业发展的束缚。**
学习视频推荐
编程语言
关于编程语言这部分,大部分同学都是Java附带Scala技能加点,当然如果你学了一点Python的东西也是一个加分项。那么关于Java语言你可以参考下面这个视频,尤其是如果你的语言基础极差,都没有用过Java语言。
《Java基础到高级-宋红康》
https://www.bilibili.com/video/BV1Qb411g7cz
数据结构
《数据结构-浙江大学》
https://www.bilibili.com/video/BV1JW411i731
Linux基础
Linux基础这块对于数据开发非常重要,因为大家平时接触过的数据框架的搭建过程涉及大量的Linux命令操作,并且在系统级别的调优还会接触atime、ulimit这种比较高级的命令。
《史上最牛的Linux视频教程—兄弟连》
https://www.bilibili.com/video/av18156598
数据库入门
基于MySQL了解常见的SQL语法,大数据领域SQL化是未来的发展方向。
MySQL数据库教程天花板
https://www.bilibili.com/video/BV1Kb411W75N
Hadoop
尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优)
https://www.bilibili.com/video/BV1Qp4y1n7EN/
Hive
尚硅谷大数据Hive 3.x教程
https://www.bilibili.com/video/BV1g84y147sX/?
Kafka
尚硅谷Kakfa3.X教程
https://www.bilibili.com/video/BV1vr4y1677k/
Spark
尚硅谷大数据Spark教程从入门到精通
https://www.bilibili.com/video/BV11A411L7CK
Flink
【尚硅谷】Flink1.13实战教程(Java)
https://www.bilibili.com/video/BV133411s7Sa/
【尚硅谷】Flink1.13实战教程(Scala)
https://www.bilibili.com/video/BV1zr4y157XV/
Hudi
Hudi数据湖
https://www.bilibili.com/video/BV1ue4y1i7n
Doris
【尚硅谷】大数据Apache Doris教程
https://www.bilibili.com/video/BV15S4y1h7Kt
Sqoop
尚硅谷Sqoop教程(sqoop大数据开发标配)
https://www.bilibili.com/video/BV1jb411A7tc/
Flume
【尚硅谷】大数据技术之Flume教程从入门到实战
https://www.bilibili.com/video/BV1wf4y1G7EQ
DataX
【尚硅谷】Alibaba开源数据同步工具DataX技术教程
https://www.bilibili.com/video/BV1H44y1x76X
Atlas
【尚硅谷】大数据技术之Atlas数据治理
https://www.bilibili.com/video/BV1jA411F76d/
项目学习
离线数仓
尚硅谷大数据项目【电商数仓5.0】
https://www.bilibili.com/video/BV1AT411j7hu
实时数仓
尚硅谷大数据之Flink实时数仓3.0
https://www.bilibili.com/video/BV1TG411a7nL
数据中台
大数据九章云台项目
https://www.bilibili.com/video/BV1vR4y1z79G
注:电商数仓项目早已烂大街,尽量不要把这两个项目写到自己的简历上。
相关文章:
【大数据】大数据学习路线
职位选择 首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数…...

【Python爬虫案例教学】采集某网站壁纸,实现壁纸自由
前言 (。・∀・)ノ゙嗨 大家好,这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 👇 顺便瞧一眼 这里的…...

波卡2022年第四季度报告
本文将介绍Messari最新发布的波卡Polkadot 2022年第四季度报告内容。 1 Messari已经发布关于波卡Polkadot最新的报告:显示了2022年第四季度的日活账户增加了64%,新用户增长49%。 2 Messari指出,波卡中继链在2022第四季度的环比增长令人印象…...

第一章:初始化react项目+antd+less
初始化react项目 我们首先使用react脚手架创建一个项目 Ant Design less creact-react-app中文文档 creact-react-app demo生产环境打包运行 当我们执行了 npm run build 打包后直接访问index.html 看效果白屏 这时候就需要安装一个serve包 npm install -g serve当我们安…...

图的基本概念
1、图的概念 G(V,E) 图G由节点集合VV(G)和边集合EE(G)组成,其中V为非空有限集合。 集合V中的节点(node)用红色标出,通过集合E中黑色的边(edge)连接。 G的边:E中的每个顶点对&#x…...

MySQL必会四大函数-窗口函数
在了解窗口函数之前,我们必须了解聚合函数。常见的聚合函数,包括 AVG、COUNT、MAX、MIN、SUM 以及 GROUP_CONCAT,常和GROUP BY 函数一起使用。聚合函数的作用就是对一组数据行进行汇总计算,并且返回单个分析结果。 窗口函数和聚合…...

各CCF期刊点评网站/学术论坛的信息汇总及个人评价
CCF中文期刊投稿选择之篇章一:各CCF期刊点评网站/学术论坛的信息汇总及个人评价中文科技期刊A类(EI检索)中文期刊投稿点评网站整理1.小木虫学术论坛2. Letpub3. Justscience4. 发表记5. 会伴(Conference Partner)6. ijouranl7. 掌桥科研这是以…...

深度解析 JavaScript 严格模式:利弊长远的考量
前言 ECMAScript 5首次引入严格模式的概念。严格模式用于选择以更严格的条件检查JavaScript代码错误,可以应用到全局,也可以应用到函数内部。 严格模式的好处是可以提早发现错误,因此可以捕获某些 ECMAScript 问题导致的编程错误。 理解严格…...
Vue.js 循环语句
Vue.js 循环语句 在Vue开发中,for循环是我们最常遇见的场景之一,我们知道常见的遍历方式有for循环,for of、forEach、for in.虽然在开发过程中,这几种方式基本上可以满足我们大多数的场景,但是你真的知道他们之间的区…...

家政服务小程序实战教程12-详情页
我们的家政服务小程序已经完成了首页和分类展示页面的开发,接下来就需要开发详情页了。在详情页里我们展示我们的各项服务内容,让用户可以了解每项家政服务可以提供的内容。 低码开发不像传统开发,如果开发详情页需要考虑每个字段的类型&…...

十四、平衡二叉树
1、看一个案例(说明二叉排序树可能的问题) 给你一个数列{1,2,3,4,5,6},要求创建一棵二叉排序树(BST),并分析问题所在。 上面二叉排序树存在问题分析: 左子树全部为空,从形式上看&…...

AC/DC 基础
一、概念: AC转换成DC的基本方法有变压器方式和开关方式,如下图1、2所示;整流的基本方法有全波整流和半波整流,如下图3所示。 图1 变压器方式 图2 开关方式 图3 整流方式 二、转换方式 1、变压器方式 变压器方式首先需要通过变压…...

集成电路相关书籍
注:从此开始,文中提到的书籍都会在公众号对应文章末尾给出链接,不需要在微信后台获取,当然还是可以通过在微信后台回复相关书名获取对应的电子书。 在后台看到很多人回复集成电路相关的一些书籍,所以本文就提供一些书籍…...

前端开发之防抖与节流
前端开发中我们经常会通过监听某些事件来完成项目需求 1.通过监听 scroll 事件,检测滚动位置,根据滚动位置显示返回顶部按钮 2.通过监听 resize 事件,对某些自适应页面调整DOM的渲染(通过CSS实现的自适应不再此范围内)…...

大公司如何用A/B测试解决增长问题?
摘要:上线六年,字节跳动的短视频产品——抖音已成为许多人记录美好生活的平台。除了抖音,字节跳动旗下还同时运营着数十款产品,从资讯、游戏,到房产、教育等横跨多个领域。在产品迭代速度和创新能力的快速发展下&#…...

【Airplay_BCT】Bonjour API架构
Bonjour API 架构 OS X 和 iOS 为 Bonjour 服务应用程序提供了多层应用程序编程接口 (API): Foundation 框架中的 NSNetService 和 NSNetServiceBrowser 类; CFNetServices,Core Services 中 CFNetwork 框架的一部分; Java 的 DN…...

为什么sleeping的会话会造成阻塞(2)
背景客户反馈系统突然从11:10开始运行非常缓慢,在SQL专家云中看到大量的产生阻塞的活动会话,KILL掉阻塞的源头马上又出现新的源头,实在没有办法只能重启应用程序断开所有数据库连接才解决,请我们协助分析根本的原因。现象登录SQL专…...

从矩阵中提取对角线元素;将一维数组转换为对角线矩阵:np.diag()函数
【小白从小学Python、C、Java】【计算机等级考试500强双证书】【Python-数据分析】从矩阵中提取对角线元素将一维数组转换为对角线矩阵np.diag()函数选择题下列说法错误的是?import numpy as npmyarray1 np.array([1,2,3])print("【显示】myarray1")print(myarray1…...

JavaSE学习day7_02 封装和构造方法
4. 封装 面向对象的三大特征: 封装、继承、多态 封装:对象代表什么,就得封装对应的数据,并提供数据对应的行为。 比如人画圆:”画“这个行为应该封装在圆这个类,为什么?因为”画“圆要知道圆…...

2022年FIT2CLOUD飞致云开源成绩单
2023年2月15日,中国领先的开源软件公司FIT2CLOUD飞致云发布《2022年开源成绩单》,盘点公司2022年全年在开源软件产品与社区运营方面的表现。目前,飞致云旗下的核心开源软件组合包括JumpServer开源堡垒机、DataEase开源数据可视化分析平台、Me…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...

【Oracle APEX开发小技巧12】
有如下需求: 有一个问题反馈页面,要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据,方便管理员及时处理反馈。 我的方法:直接将逻辑写在SQL中,这样可以直接在页面展示 完整代码: SELECTSF.FE…...

Python:操作 Excel 折叠
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)
CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...

2.Vue编写一个app
1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...
MVC 数据库
MVC 数据库 引言 在软件开发领域,Model-View-Controller(MVC)是一种流行的软件架构模式,它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系,以…...
工业自动化时代的精准装配革新:迁移科技3D视觉系统如何重塑机器人定位装配
AI3D视觉的工业赋能者 迁移科技成立于2017年,作为行业领先的3D工业相机及视觉系统供应商,累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成,通过稳定、易用、高回报的AI3D视觉系统,为汽车、新能源、金属制造等行…...

MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...

Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)
引言 工欲善其事,必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后,我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集,就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...
上位机开发过程中的设计模式体会(1):工厂方法模式、单例模式和生成器模式
简介 在我的 QT/C 开发工作中,合理运用设计模式极大地提高了代码的可维护性和可扩展性。本文将分享我在实际项目中应用的三种创造型模式:工厂方法模式、单例模式和生成器模式。 1. 工厂模式 (Factory Pattern) 应用场景 在我的 QT 项目中曾经有一个需…...