大数据导论(3)---大数据技术
文章目录
- 1. 大数据技术概述
- 2. 数据采集与预处理
- 2.1 数据采集
- 2.2 预处理
- 3. 数据存储和管理
- 3.1 分布式基础架构Hadoop
- 3.2 分布式文件系统HDFS
- 3.3 分布式数据库HBase
- 3.4 非关系型数据库NoSQL
- 4. 数据可视化与保护
1. 大数据技术概述
大数据技术主要包括数据采集与预处理、数据存储、数据处理与分析、数据可视化、数据安全和隐私保护等几个层面的内容。
| 技术层面 | 功能 |
|---|---|
| 数据采集与预处理 | 利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;利用日志采集工具(如 Flume、Kafka 等)把实时采集的数据作为流计算系统的输入,进行实时处理分析;利用网页爬虫程序到互联网网站中爬取数据 |
| 数据存储和管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 |
| 数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理与分析 |
| 数据可视化 | 对并行结果进行可视化呈现,帮助人们更好地理解数据、分析数据 |
| 数据安全和隐私保护 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 |
2. 数据采集与预处理
2.1 数据采集
1. 数据采集,又称 “数据获取”,是数据分析的入口,也是数据分析过程中相当重要的一个环节,它通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。
2. 数据采集的3大特点:① 全面性。 ② 多维性。 ③ 高效性。
3. 数据采集的主要数据源包括传感器数据、互联网数据、日志文件、企业业务系统数据。
4. 传统的数据采集与大数据采集区别:
| 传统的数据采集 | 大数据采集 | |
|---|---|---|
| 数据源 | 来源单一、数据量相对较少 | 来源广泛、数据量巨大 |
| 数据类型 | 结构单一 | 数据类型丰富,包括结构化、半结构化、非结构化 |
| 数据存储 | 关系数据库和并行数据库 | 分布式数据库、分布式文件系统 |
2.2 预处理
1. 数据清洗(预处理)是将大量原始数据中的 “脏” 数据 “洗掉”,它是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
2. 需要清洗的数据的主要类型:① 残缺数据。 ② 错误数据。 ③ 重复数据。
3.数据清洗主要包括以下内容:
- 一致性检查。
- 无效值和缺失值的处理。常用方法有:估算、整例删除、变量删除、成对删除。
3. 数据存储和管理
存储与管理贯穿大数据处理过程的始终,数据非结构化的特征明显,需要依靠分布式文件系统、分布式数据库、NoSQL 数据库、云数据库等技术来实现。
- 分布式基础架构Hadoop
- 分布式文件系统HDFS
- 分布式数据库HBase
- 非关系型数据库NoSQL
3.1 分布式基础架构Hadoop
1. Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。

2. Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop在企业中的应用架构如下图所示。

3.2 分布式文件系统HDFS
1. 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
2. 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫 “主节点”(Master Node)或者也被称为 “名称结点”(NameNode),另一类叫 “从节点”(Slave Node)或者也被称为 “数据节点”(DataNode)。
- 在HDFS中,名称节点(NameNode)负责管理分布式文件系统的命名空间,名称节点记录了每个文件中各个块所在的数据节点的位置信息。
- 数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据
客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期
发送自己所存储的块的列表。

3. HDFS默认一个块128MB,一个文件被分成多个块,以块作为存储单位(块存储)块的大小远远大于普通文件系统,可以最小化寻址开销。
3.3 分布式数据库HBase
1. HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

2. 最基本的存储单位是列(Column),一个或者多个列构成一行(row)。若干个列组成一个列族(Column family)。传统关系数据库中行的结构是相同的。在HBase中两行的结构可以不同,甚至可以完全不同。

3.4 非关系型数据库NoSQL
1. 通常,NoSQL数据库具有以下几个特点:(1)灵活的可扩展性。(2)灵活的数据模型。(3)与云计算紧密融合。

2. NoSQL与关系数据库的比较总结:
(1) 关系数据库
优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持。
劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等。
(2) NoSQL数据库
优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等。
劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等。
3. NoSQL数据库虽然数量众多,但是归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库。

4. 数据可视化与保护
1. 数据可视化的作用:让 “茫茫数据” 以可视化的方式呈现,让枯燥的数据以简单友好的图表形式展现出来,可以让数据变得更加通俗易懂,有助于用户更加方便快捷地理解数据的深层含义,有效参与复杂的数据分析过程,提升数据分析效率,改善数据分析效果。
2. 数据安全技术:(1) 身份认证技术。 (2) 防火墙技术。 (3) 访问控制技术。 (4) 人脸检测技术。 (5) 加密技术。
参考资源:林子雨编著的《大数据导论》
相关文章:
大数据导论(3)---大数据技术
文章目录 1. 大数据技术概述2. 数据采集与预处理2.1 数据采集2.2 预处理 3. 数据存储和管理3.1 分布式基础架构Hadoop3.2 分布式文件系统HDFS3.3 分布式数据库HBase3.4 非关系型数据库NoSQL 4. 数据可视化与保护 1. 大数据技术概述 大数据技术主要包括数据采集与预处理、数据存…...
Vue-Clipboard3:轻松实现复制到粘贴板功能
一、前言 在现代Web开发中,剪贴板操作变得越来越重要。用户经常需要在浏览器中进行复制、粘贴等操作,而这些操作可以通过JavaScript实现。Vue-Clipboard3是一个基于Clipboard.js的粘贴板操作库,使用 Vue-Clipboard3 可以在Vue 3(…...
【Linux系统编程】进程优先级
文章目录 1. 优先级的基本概念2. 为什么存在优先级3. 查看系统进程4. PRI and NI5. top命令修改已存在进程的nice值6. 其他概念 1. 优先级的基本概念 本篇文章讲解进程优先级,首先我们来了解一下进程优先级的概念: cpu资源分配的先后顺序,就…...
华为HCIE课堂笔记第十六章 Qos基本原理
第十六章 Qos基本原理 16.1 Qos背景 Qos:在带宽有限的情况下,为不同的业务需求,提供不同的网络的服务质量。 影响Qos的不同的因素: 带宽,链路在单位时间可以传输数据的bit数量,单位bps 一般上传下载速…...
79、avx2 向量指令集优化卷积运算
上一节 介绍了 avx2 向量指令集中的 load/store 操作,本节介绍如何使用 avx2 的向量指令集来实现乘累加运算。 因为我们实战中用到的 resnet50 神经网络中,卷积运算在整个模型中的比例占据是相当高,而卷积运算的核心计算就是乘累加计算。因此,只要将最核心的乘累加计算效率…...
【AI】人工智能和图像编码(2)
传统图像编解码与智能图像编解码,都是要编码和解码,但还是有一些区别的。 相关相同点和要点描述如下: 一、区别 1.1 技术原理 传统图像编解码:主要依赖于固定的算法和标准,如JPEG、MPEG等,进行图像的压…...
2023 巅峰之作 | AIGC、AGI、GhatGPT、人工智能大语言模型的崛起与挑战
文章目录 01 《ChatGPT 驱动软件开发》内容简介 02 《ChatGPT原理与实战》内容简介 03 《神经网络与深度学习》04 《AIGC重塑教育》内容简介 05 《通用人工智能》目 录 2023年是人工智能大语言模型大爆发的一年,一些概念和英文缩写也在这一年里集中出现ÿ…...
com域名注册腾讯云价格
腾讯云com域名首年价格,企业新用户注册com域名首年1元,个人新用户注册com域名33元首年,非新用户注册com域名首年元85元一年,优惠价75元一年,com域名续费85元一年。腾讯云百科txybk.com分享腾讯云com域名注册优惠价格&a…...
mysql从库重新搭建的流程
背景 生产环境上的主从集群,因为一些异常原因,导致主从同步失败。现记录下通过重做mysql从库的方式来解决,重做过程不影响主库。 步骤 1、在主库上的操作步骤 备份主库所有数据,并将dump.sql文件拷贝到从库/tmp目录 mysqldump …...
用户ssh正确密码登陆树莓派镜像均报错Permission denied, please try again.处理方法
一个树莓派镜像,启动后发现没有 sshd 功能,于是 启用 openssh,重新启动,又发现树莓派拒绝 ssh 连接请求。 我的一台树莓派IP是:192.168.59.133任何服务器使用任何用户ssh均报错,甚至连自己都不能ssh自己。 …...
SpringBoot 统计API接口用时该使用过滤器还是拦截器?
统计请求的处理时间(用时)既可以使用 Servlet 过滤器(Filter),也可以使用 Spring 拦截器(Interceptor)。两者都可以在请求处理前后插入自定义逻辑,从而实现对请求响应时间的统计。 …...
Python sleep函数用法:线程睡眠
如果需要让当前正在执行的线程暂停一段时间,并进入阻塞状态,则可以通过调用 time 模块的 sleep(secs) 函数来实现。该函数可指定一个 secs 参数,用于指定线程阻塞多少秒。 当前线程调用 sleep() 函数进入阻塞状态后,在其睡眠时间…...
50-Js控制元素显示隐藏
1.使用style样式,两个按钮:显示按钮,隐藏按钮 <style>div{width: 300px;height: 300px;background-color: red;transition: .4s;}</style></head><body><button>显示</button><button>隐藏</button><div></div>…...
LC213. 打家劫舍 II
代码随想录 class Solution {public int rob(int[] nums) {if(nums null || nums.length 0){return 0;}int len nums.length;if(len 1){return nums[0];}return Math.max(robAction(nums,0,len-1),robAction(nums,1,len));}public int robAction(int [] nums, int start, …...
Django REST Framework入门之序列化器
文章目录 一、概述二、安装三、序列化与反序列化介绍四、之前常用三种序列化方式jsonDjango内置Serializers模块Django内置JsonResponse模块 五、DRF序列化器序列化器工作流程序列化(读数据)反序列化(写数据) 序列化器常用方法与属…...
AI对比:ChatGPT与文心一言的异同与未来
文章目录 📑前言一、ChatGPT和文心一言概述1.1 ChatGPT1.2 文心一言 二、ChatGPT和文心一言比较2.1 训练数据与知识储备2.2 语义理解与生成能力2.2 应用场景与商业化探索 三、未来展望3.1 模型规模与参数数量不断增加3.2 多模态交互成为主流3.3 知识图谱与大模型的结…...
elasticsearch备份恢复,elasticdump使用
准备环境 1. 将node-v10.23.1-linux-x64.tar.xz上传到服务器/usr/local目录下 2. tar xf node-v10.23.1-linux-x64.tar.xz 3. 将node_modules.tar.gz上传到服务器/usr/local目录 4. tar -zxvf node_modules.tar.gz 5. 设置NODE环境 5.1 vim /etc/profile export NODEJS_…...
【C++干货铺】C++11新特性——右值引用、移动构造、完美转发
个人主页点击直达:小白不是程序媛 C系列专栏:C干货铺 代码仓库:Gitee 目录 左值与左值引用 右值与右值引用 左值引用和右值引用的比较 左值引用总结: 右值引用总结: 左值引用的作用和意义 右值引用的使用场景和…...
5G_射频测试_基础概念(二)
定义了测试参考点,不同的RRU类型 C类型传统RRU Conducted and radiated requirement reference points 4.3.1 BS type 1-C(传统RRU一般测试点就是连接天线的射频接头) 4.3.2 BS type 1-H(宏站MassiveMIMO 矩阵天线ÿ…...
【笔记】Helm-3 主题-10 Kubernetes分发指南
Kubernetes分发指南 Helm应该适用于任何 符合标准的Kubernetes版本 (无论是否经过 认证 )。 https://github.com/cncf/k8s-conformance Certified Kubernetes Software Conformance | CNCF 该文档捕获在特定Kubernetes环境中使用Helm的有关信息。如果…...
为什么你需要FFmpeg Batch AV Converter:视频批量处理的终极解决方案
为什么你需要FFmpeg Batch AV Converter:视频批量处理的终极解决方案 【免费下载链接】ffmpeg_batch FFmpeg Batch AV Converter 项目地址: https://gitcode.com/gh_mirrors/ff/ffmpeg_batch 如果你经常需要处理大量视频文件,一定经历过这样的烦恼…...
在Blender中创建逼真流体模拟:FLIP Fluids插件完全指南
在Blender中创建逼真流体模拟:FLIP Fluids插件完全指南 【免费下载链接】Blender-FLIP-Fluids The FLIP Fluids addon is a tool that helps you set up, run, and render high quality liquid fluid effects all within Blender, the free and open source 3D crea…...
抖音无水印视频下载技术深度解析:双架构设计与性能优化方案
抖音无水印视频下载技术深度解析:双架构设计与性能优化方案 【免费下载链接】douyin_downloader 抖音短视频无水印下载 win编译版本下载:https://www.lanzous.com/i9za5od 项目地址: https://gitcode.com/gh_mirrors/dou/douyin_downloader 抖音无…...
首次使用Taotoken从注册到发出第一个API请求的全流程指南
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 首次使用Taotoken从注册到发出第一个API请求的全流程指南 对于初次接触大模型API的开发者来说,从注册平台到成功发出第…...
联想笔记本BIOS隐藏设置解锁工具:专业指南与深度解析
联想笔记本BIOS隐藏设置解锁工具:专业指南与深度解析 【免费下载链接】LEGION_Y7000Series_Insyde_Advanced_Settings_Tools 支持一键修改 Insyde BIOS 隐藏选项的小工具,例如关闭CFG LOCK、修改DVMT等等 项目地址: https://gitcode.com/gh_mirrors/le…...
TTK插件系统扩展指南:自定义Golden生成函数和输入数据生成函数的完整教程
TTK插件系统扩展指南:自定义Golden生成函数和输入数据生成函数的完整教程 【免费下载链接】ops-test-kit TTK(Ops Test Tool Kit)是CANN算子库提供的全链路、自动化、批量化算子测试框架,帮助开发者快速完成算子批量功能验证、性能…...
高斯过程回归预测:从“黑箱”到“白盒”,手把手教你用sklearn调参与可视化
高斯过程回归实战:从数学原理到工业级调优指南 金融时序预测中,当业务方质疑模型给出的波动区间时,工程师该如何解释那条逐渐收窄的置信带?设备剩余寿命预测场景下,为什么修改length_scale参数会显著改变退化曲线的拐点…...
一键永久保存:B站缓存视频转换终极方案,让珍贵内容不再消失
一键永久保存:B站缓存视频转换终极方案,让珍贵内容不再消失 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾有过…...
3步解锁PowerToys文本提取器:Windows用户的智能OCR终极指南
3步解锁PowerToys文本提取器:Windows用户的智能OCR终极指南 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...
百万至千万级参与者的人类暴露组计划,准备好了没
化学暴露组学是否已为人类暴露组计划做好准备? 本文梳理了暴露组学的学科发展历程,阐明化学暴露组是解析环境致病因素、补齐健康研究短板的核心要素;总结了以高分辨质谱为核心的化学暴露组学在检测、采样与数据分析上的技术突破;…...
