【大数据技术】大数据技术概念及概述
1. 大数据概念
数据
- 是实时或观察的结果
- 是对客观事务的逻辑归纳
- 是用于表示客观事物的未经加工的原始素材
数据的产生
- 对客观事务的计量和记录尝试的数据
| 单位 | 换算 |
|---|---|
| 1 byte | 8 bit |
| 1 k | 1024 byte |
| 1 mb | 1024 k |
| 1 g | 1024 m |
| 1 t | 1024 g |
| 1 p | 1024 t |
| 1 e | 1024 p |
| 1 z | 1024 e |
| 1 y | 1024 z |
| 1 b | 1024 y |
| 1 n | 1024 b |
| 1 d | 1024 n |
1.1 大数据的特点(5V 特征)

1.2 大数据应用场景
-
电商领域
- 精准广告位
- 个性化推荐
- 大数据杀熟
-
传媒领域
- 精准营销
- 猜你喜欢
- 交互推荐
-
金融领域
- 信用评估
- 风险管控
- 客户细分
- 精细化营销
-
交通领域
- 拥堵预测
- 智能红绿灯
- 导航最优规划
-
电信领域
- 基站选址优化
- 舆情监控
- 客户用户画像
-
安防领域
- 犯罪预防
- 天网监控
-
医疗领域
- 智慧医疗
- 疾病预防
- 病原追踪
1.3 流程

1.3.1 明确分析目的和思路
-
目的是整个分析流程的七点:为数据的收集、处理及分析提供清晰的指引方向
-
思路是使分析框架体系化:先分析什么,后分析什么,使各分析点质检具有逻辑联系
保证分析维度的完整性,分析结果的有效性以及正确性
-
数据分析方法论:营销管理相关理论用户行为理论、PEST分析法、5W2H分析法等
数据分析方法论主要用来知道数据分析师进行一次完整的数据分析,它更多的是指数据分析思路
数据分析法则是指具体的分析方法,例如:对比分析、交叉分析、相关分析、回归分析、聚类分析等
用户行为理论
1.3.2 数据收集
-
数据从无到有的过程
如:传感器收集气象数据、埋点收集用户行为数据
-
数据传输搬运的过程
如:采集数据库数据到数据分析平台

1.3.3 数据处理
-
收集到的数据进行加工整理,形成适合数据分析的样式
主要包括数据清洗、数据转化、数据提取、数据计算
-
保证数据的一致性和可靠性
1.3.4 数据分析
-
用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
需要掌握各种数据分析方法,还要熟悉数据分析软件的曹祖
-
数据挖掘本质是一种高级的数据分析方法
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律
1.3.5 数据展现
- 数据通过表格和图形的方式来呈现
1.3.6 报告撰写
- 数据分析报告是对整个数据分析过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整的呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
1.4 大数据部门组织架构

2. 分布式技术
2.1 为什么需要分布式技术
-
科学技术的发展推动下
应用和系统架构的变迁:单机单一架构迈向多机分布式架构
- 单一架构

-
分布式架构

-
数据大爆炸,海量数据处理场景面临问题
-
如何存储?
多台集齐分布式存储
-
如何计算?
多台集齐分布式计算
-
2.2 分布式系统概述
-
分布式系统是一个硬件或软件组件分布在不同的网络计算机上
-
彼此质检仅仅通过消息传递进行通信和协调的系统
-
一群互相独立计算机集合共同对外提供服务
-
对于系统的用户来说,就像是一台计算机在提供服务一样

2.3 分布式(Distributed)与集群(Cluster)
- 分布式与集群式两种概念
分布式:
- 多台机器
- 每台机器上部署不同组件
集群:
- 多台集齐
- 每台集群部署相同组件
2.4 负载均衡(Load Balance)
- 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行
- 解决了单个无法处理所有任务,多个一起处理的问题

2.5 故障转移
- 当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们的工作
- 故障转移系统也称之为
容错系统,所谓容错指的是可以容忍错误的发生 - 故障转移的核心是设置备份 出现故障时,主备切换
- 主备切换的前提是数据状态保持一致

2.6 伸缩性(Scalability)
-
伸缩性也叫做弹性,可扩展性
-
指系统可以根据需求动态的扩容、缩容
比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器
相关文章:
【大数据技术】大数据技术概念及概述
1. 大数据概念 数据 是实时或观察的结果是对客观事务的逻辑归纳是用于表示客观事物的未经加工的原始素材 数据的产生 对客观事务的计量和记录尝试的数据 单位换算1 byte8 bit1 k1024 byte1 mb1024 k1 g1024 m1 t1024 g1 p1024 t1 e1024 p1 z1024 e1 y1024 z1 b1024 y1 n10…...
高等数学-第七版-上册 选做记录 习题7-4
1. 2....
Python库()
1.概念 Matplotlib 库:是一款用于数据可视化的 Python 软件包,支持跨平台运行,它能够根据 NumPy ndarray 数组来绘制 2D 图像,它使用简单、代码清晰易懂 Matplotlib 图形组成: Figure:指整个图形…...
AI知识补全(八):多模态大模型是什么?
名人说:人生如逆旅,我亦是行人。 ——苏轼《临江仙送钱穆父》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 上一篇:AI知识补全(七):AI Agent 智能…...
复习MySQL20250327
第一章 基本操作 一、管理数据库 难点:创建数据库 输入cmd的MySQL安装路径C:\Program Files\MySQL\MySQL Server 8.0\bin 1.查看所有数据库 show databases; 2.创建数据库 create database hsusers default charset utf8 collate utf8_general_ci;create data…...
Docker-MySQL安装-命令解读-常见命令-数据卷挂载-本地目录挂载-自定义镜像-网络-前端部署-DockerCompose
目录 Docker: 安装MySQL: 镜像容器: 镜像仓库: 编辑命令解读: 镜像命名规范: docker run中常见参数: Docker常见命令: 编辑数据卷: 编辑数据卷-操作命令&…...
Docker 安装部署Harbor 私有仓库
Docker 安装部署Harbor 私有仓库 系统环境:redhat x86_64 一、首先部署docker 环境 定制软件源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y yum-utils device-mapper-persistent-data lvm2…...
linux基本命令(1)--linux下的打包命令 -- tar 和gzip
tar 解压 ,打包 语法:tar [主选项辅选项] 文件或者目录 使用该命令时,主选项是必须要有的,它告诉tar要做什么事情,辅选项是辅助使用的,可以选用。 主选项: c 创建新的档案文件。如果用户想备…...
Linux 文件系统全解析
笔记整理自 【双语视界】Linux文件系统全解析:从混乱到标准,一览核心目录! 可执行文件目录 /bin(基本系统命令) 包含核心操作系统程序,在系统启动时必须可用,即使没有挂载 /usr 也能运行。 这里…...
StarRocks 存算分离在京东物流的落地实践
康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor 导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时…...
英伟达GB300新宠:新型LPDDR5X SOCAMM内存
随着人工智能(AI)、机器学习(ML)和高性能计算(HPC)应用的快速发展,对于高效能、大容量且低延迟内存的需求日益增长。NVIDIA在其GB系列GPU中引入了不同的内存模块设计,以满足这些严格…...
HTML布局
HTML布局元素 <header>定义文档或者节的页眉 <nav>定义导航链接的容器 <section>定义文档中的一部分 <article>定义单独的文章 <aside>定义内容边栏(如侧边栏) footer定义文档或节的页脚 <details>定义额外的细节 …...
vue搭建一个树形菜单项目
首先搭建项目需要先通过步骤搭建一个vue的项目,然后创建一个component文件,里面新建一个index.vue页面来。 这是引入的element-ui组件库里的组件,来实现我的路由,渲染的是我存储的动态路由,所以需要先安装并且引用。 …...
具身智能 - Diffusion Policy:技术解析与应用实践
具身智能之 Diffusion Policy:技术解析与应用实践 一、Diffusion Policy 的核心概念 Diffusion Policy 是一种基于扩散模型(Diffusion Models)的决策生成框架,专为具身智能(Embodied Intelligence)设计。其核心思想是通过逐步去噪的过程,在复杂环境中生成鲁棒的动作序列…...
[C++] 智能指针 进阶
标题:[C] 智能指针 进阶 水墨不写bug 在很久之前我们探讨了智能指针的浅显认识,接下来会更加深入,从源码角度认识智能指针,从而了解智能指针的设计原理,并应用到以后的工作项目中。 本文将会按照C智能指针的发展历史&…...
kubernetes》》k8s》》 kubeadm、kubectl、kubelet
kubeadm 、kubectl 、kubelet kubeadm、kubectl和kubelet是Kubernetes中不可或缺的三个组件。kubeadm负责集群的快速构建和初始化,为后续的容器部署和管理提供基础;kubectl作为命令行工具,提供了与Kubernetes集群交互的便捷方式;而…...
AI日报 - 2025年3月30日
🌟 今日概览(60秒速览) ▎🤖 模型进展 | Qwen2.5-Omni多模态实时交互,Gemini 2.5 Pro/GPT-4o低调升级,Claude内部思考过程揭秘。 新模型和升级持续涌现,多模态与内部机制理解成焦点。 ▎&#x…...
C++中的new、malloc、realloc、calloc——特点?函数原型?释放方式?区别?校招面试常问内容?
作者:求一个demo 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 内容通俗易懂,没有废话,文章最后是面试常问内容(建议通过标题目录学习) 废话不多…...
27_promise
插入一下前端助手测试,顺手可以用来做安全 promise promise 是一个es6新增的语法 汉语:承诺的意思 作用:是专门用来解决回调地狱!!!! 什么是回调函数? <script>// 回调函数 callback回调// 就是把函数A当作参数传递到函数B中// 在函…...
leetcode刷题日记——跳跃游戏 II
[ 题目描述 ]: [ 思路 ]: 题目要求在一个一定能达到数组末尾的跳跃数组中(见55题 跳跃游戏),找出能够跳到末尾的最小次数要求次数最少,那肯定是选取能选步数中最大的数。也就是在当前能够达到的距离中,选择能够达到的…...
无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通-
无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通- 瑞士拥有1,400 多公里长的高速公路网络。这些公路将人和货物从山谷高原运送到阿尔卑斯山的最高山口。维护这些高速公路使国家得以顺利运转。高速公路维护的重要性显而易见,但在…...
注意力蒸馏技术
文章目录 摘要abstract论文摘要简介方法预备知识注意力蒸馏损失注意力引导采样 实验结论总结参考文献 摘要 本周阅读了一篇25年二月份发表于CVPR 的论文《Attention Distillation: A Unified Approach to Visual Characteristics Transfer》,论文开发了Attention Distillation…...
PERL开发环境搭建>>Windows,Linux,Mac OS
特点 简单 快速 perl解释器直接对源代码程序解释执行,是一个解释性的语言, 不需要编译器和链接器来运行代码>>速度快 灵活 借鉴了C/C, Basic, Pascal, awk, sed等多种语言, 定位于实用性语言,既具备了脚本语言的所有功能,也添加了高级语言功能 开源.免费 没有&qu…...
赛博威智慧导购平台,融合AI激活一线导购效能,破局增长瓶颈
导购管理≠“管人”,价值释放才是终极命题 在快消行业,一线导购是链接品牌与消费者的核心触点,更是市场洞察与销售转化的关键枢纽。然而,许多企业对导购的管理仍停留在“管人”的初级阶段:基础考勤、任务下发、薪资核…...
鸿蒙项目源码-记账本app个人财物管理-原创!原创!原创!
鸿蒙记账项目源码个人财务管理含文档包运行成功ArkTS语言。 我一个月写的原创作品,请尊重原创。 原创作品,盗版必究!!! api12 SDK5.0.0仅适用于最新的2024版本DevEco studio 共9个页面:广告倒计时页、登录、…...
深入理解 `git pull --rebase` 与 `--allow-unrelated-histories`:区别、原理与实战指南
🚀 git pull --rebase vs --allow-unrelated-histories 全面解析 在日常使用 Git 时,我们经常遇到两种拉取远程代码的方式:git pull --rebase 和 git pull --allow-unrelated-histories。它们的区别是什么?各自适用哪些场景&…...
ExpTimerApcRoutine函数分析之作用是ActiveTimerListHead里面移除定时器_etimer
第一部分: VOID ExpTimerApcRoutine ( IN PKAPC Apc, IN PKNORMAL_ROUTINE *NormalRoutine, IN PVOID *NormalContext, IN PVOID *SystemArgument1, IN PVOID *SystemArgument2 ) /* Routine Description: This function is the special …...
Ovito的python脚本
在 OVITO 里,Python 对象是构建脚本化操作的基础。下面为你详细介绍 OVITO 中 Python 对象的基本概念: 1. 数据管道(Pipeline) 数据管道是 OVITO 里最核心的对象之一。它就像一个流水线,把数据输入进来,经过一系列处理步骤,最后输出处理好的数据。 创建管道:借助 imp…...
【免费】2007-2019年各省地方财政文化体育与传媒支出数据
2007-2019年各省地方财政文化体育与传媒支出数据 1、时间:2007-2019年 2、来源:国家统计局、统计年鉴 3、指标:行政区划代码、地区、年份、地方财政文化体育与传媒支出 4、范围:31省 5、指标说明:地方财政在文化、…...
3PL EDI:SA Piper Logistics EDI需求分析
SA Piper Logistics成立于2005年,是一家专注于全球供应链管理的第三方物流服务商(3PL),总部位于美国芝加哥。公司以“优化物流效率,重塑供应链价值”为使命,提供仓储管理、运输规划、订单履行及跨境清关等一…...

