大数据|大数据基础(概念向)
目录
📚大数据概念
🐇常见数据存储单位
🐇大数据的特点(5V)
🐇大数据 VS 数据库
🌟数据库
🌟大数据
📚大数据业务分析基本步骤
🐇收集数据
🐇整理数据
🐇分析数据
🐇数据可视化
📚大数据概念
- 所有感官可以察觉的事物,能被记下来的,能够被查询到,就是数据(date)
- 数据分析的前提是有数据,数据存储的目的是支撑数据分析
- 大数据主要解决的问题:海量数据的存储和海量数据的计算问题
🐇常见数据存储单位

🐇大数据的特点(5V)
🥕Volume(大):大数据的采集,计算,存储量都非常庞大。
🥕Variety(多):多种类和来源多样化。
🥕Value(值):大数据价值密度相对较低(抓小偷一大堆监控视频可能就一小段有用)
🥕Velocity(快):数据增长速度快,处理速度也快,获取速度的速度也要快。处理数据的效率是企业的生命。
🥕Veracity(信):数据的准确性和可信赖度,即数据的质量。
- 全样而非抽样✔️
- 效率而非精确✔️
- 相关而非因果✔️
🐇大数据 VS 数据库
🌟数据库
类似于一个池塘养鱼,它数据规模小,类型单一,先有模式后有数据(先有池塘后有鱼),处理对象为数据(池塘里的鱼)
🌟大数据
类似于大海捕鱼,它数据规模大,类型繁多,先有数据后有模式(模式随数据增多不断演变),处理对象为“鱼”,并通过某些“鱼”判断其他鱼是否存在。
大数据应用场景:电商精确广告位;用户偏好精准营销等等。大数据监控我🤡
大数据处理面临的挑战:数据安全、数据存储和处理能力限制、数据完整性、隐私保护、数据质量(垃圾数据的泛滥)、广泛的异构性(变化与多样化)、新硬件给大数据处理带来的变革等。
📚大数据业务分析基本步骤

🐇收集数据
数据收集是按确定的数据分析框架,以收集相关数据的过程,它为数据分析提供了素材和依据。一般的数据来源主要有以下几种方式:
- 数据库:每个公司都有自己的业务数据库
- 公开出版物:可用于收集数据的公开出版物
- 互联网,市场调查
🐇整理数据
数据处理是指对收集到的数据进行加工处理,形成适合数据分析的样式。即在一堆数据中找出有价值有意义的数据。主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
🐇分析数据
数据分析是指用适当的分析方法及工具,对处理的数据进行分析,提取有效信息,形成有效结论的过程。数据挖掘是一种高效的数据分析方法。一般来说,数据挖掘侧重解决四类数据分析问题:分类,聚类,关联和预测。
🐇数据可视化
数据展现的过程,将数据可视化为图表。

流处理是指按照流水线的方式处理数据,它能够快速处理大量的数据。而批处理是指按照批次的方式处理数据,通常在处理时间较长的情况下使用。
相关文章:
大数据|大数据基础(概念向)
目录 📚大数据概念 🐇常见数据存储单位 🐇大数据的特点(5V) 🐇大数据 VS 数据库 🌟数据库 🌟大数据 📚大数据业务分析基本步骤 🐇收集数据 Ǵ…...
若依配置教程(九)若依前后端分离版部署到服务器Nginx(Windows版)
搭建若依环境 要部署到服务器上,首先要在本地运行若依系统 文章目录搭建若依环境后端部署1.在application.yml中修改后台端口,这里默认是8080。2.在application-druid.yml中修改正式环境数据库。3.后端打包部署前端部署下载安装NginxNginx代理配置启动N…...
【仔细理解】计算机视觉基础1——特征提取之Harris角点
Harris角点是图像特征提取中最基本的方法,本篇内容将详细分析Harris角点的定义、计算方法、特点。 一、Harris角点定义 在图像中,若以正方形的小像素窗口为基本单位,按照上图可以将它们划分三种类型如下: 平坦区域:在任…...
Elasticsearch7.8.0版本进阶——近实时搜索
目录一、近实时搜索的概述1.1、按段(per-segment)搜索1.2、更轻量的方式搜索二、为什么Elasticsearch是 近 实时搜索三、如何解决索引了一个文档然后却没有搜到四、哪种情况不需要每秒刷新4.1、使用 Elasticsearch 索引大量的日志文件4.2、使用 Elastics…...
OAK相机深度流探测草莓距离
编辑:OAK中国 首发:oakchina.cn 喜欢的话,请多多👍⭐️✍ 内容可能会不定期更新,官网内容都是最新的,请查看首发地址链接。 ▌前言 Hello,大家好,这里是OAK中国,我是助手…...
文件共享服务器(CIFS)的相关知识及指令
文件共享服务器(CIFS) 微软开发的 共享服务器概述 通过网络提供文件共享拂去,提供文件下载和上传服务(类似于FTP服务器) 创建共享 通过本地登录时,仅受NTFS权限的控制通过网络访问时,受共享…...
springcloud-2service consumer
创建使用会员微服务模块-service consumer思路分析/图解创建Moduel(member-service-consumer-80) & 完成配置new Module->member-service-consumer-80->finish检查父子项目的pom是否添加相应的对应module和parent本项目的pom.xml可以参考provider的,并删掉…...
JavaScript 进阶--charater3
文章目录前言一、编程思想1.1 面向过程介绍1.2 面向对象编程 (oop)对比二、构造函数三、原型3.1原型3.2 constructor 属性3.3 对象原型3.4 原型继承3.5 原型链总结前言 🆑学习目标 理解面向对象思想,掌握函数原型对象运用面向对象封装继承特点…...
Solon2 之基础:三、启动参数说明
启动参数,在应用启动后会被静态化(为了内部更高效的利用)。比如,想通过体外扩展加载配置,是不能改掉它们的。 1、启动参数 启动参数对应的应用配置描述–envsolon.env环境(可用于内部配置切换)…...
引入防关联浏览器以防止数据盗窃
目前,互联网已成为我们生活中不可缺少的且不断发展的一部分。因此,互联网变得更加复杂和多样化,每天都有新的技术、服务和应用推出。在这个不断变化的环境中,虚拟浏览器最近作为一种革命性的新方式出现在互联网上。 简而言之&…...
Spring的一些知识点
什么是Spring? Spring是一种轻量级的开发框架,旨在提高开发人员的开发效率以及系统的可维护性。 Spring的核心模块 Spring Core是基础模块,可以说Spring的其他功能都要依赖于该类库,主要提供IOC的依赖注入功能; Spri…...
使用WordPress快速搭建外贸网站教程
一、下载安装 1、首先前往官方下载wordPress框架,下载地址:Download | WordPress.org 2、把下载好的安装包上传到我们的服务器,解压 3、我使用的搭建环境是宝塔Linux CentOS 7.9(Apache2.4mysql5.6php7.4)…...
在 vue 或 react 项目中使用 mockjs 搭建 mock server
有时候,在公司里一些项目开发前,后端接口没那么快给到前端时,前端可以先跟后端约定好各个接口的请求路径、请求参数以及返回数据格式,先整理出一份接口文档,这样前端可以通过mockjs参考接口文档,自己先模拟…...
【十一届蓝桥杯】
ans 0for i in range(1,2021):ans (str(i).count(2))print(ans)第二个def check(s):return s 2020matrix []s input()while 1 not in s:matrix.append(list(s))s input()n,m len(matrix),len(matrix[0])ans 0for i in range(n):for j in range(m):if i 3 < n and c…...
vm 网络配置
点击NAT设置,配置本台虚拟机ip(注意网关要在同一个网段),配置对应端口 然后添加映射端口: 然后选择网络适配器 选择vm8网卡 配置网卡静态ip #查看网卡 ip addr #修改网卡配置 cd /etc/sysconfig/network-scripts…...
2023年CDGA考试-第11章-数据仓库和商务智能(含答案)
2023年CDGA考试-第11章-数据仓库和商务智能(含答案) 单选题 1.商务智能是在构建好数据仓库以后,支撑业务决策 风险管理等更高层面的分析,以下描述不符合的是: A.提供数据查询、分析和报表等珈能 B.通过收集。整合 分析和探索数据来支持决策 C.对数据进行可视化 D.从数据中…...
从0-1搭建流媒体系统之live555 安装、运行、转发、拉流
流媒体开发系列文章 文章目录 流媒体开发系列文章前言一、环境准备?二、安装编译过程三、vscode调试代码四、代码分析总结前言 目前、比较有名的流媒体服务器有ZLMediaKit、srs、live555、eadydarwin等。因为srs是单线程服务、对于多核服务器的支持需要通过部署多个服务来充分…...
搭建个人博客保姆级教程(二)
文章目录一. Springboot项目打包成jar包二. mySql部署三. UI 项目部署一. Springboot项目打包成jar包 使用IDEA进行打包,当然也有其他部署方式,如使用maven进行打包,可自行查询资料。 1.打开项目,右击项目选中Open Module Settin…...
数字图像处理与Python实现-Pillow图像处理
Pillow图像处理 文章目录 Pillow图像处理1、Pillow介绍2、 Pillow 中的Image模块和Image类2.1 读取图像2.2 图像大小调整2.3 图像保存2.4 图像旋转2.5 图像储存模式与转换3、图像滤波处理3.1 使用卷积核进行滤波3.2 图像模糊、锐化和平滑3.3 边缘检测、边缘增强和浮雕效果3.4 图…...
HMM隐马尔可夫模型 | 关键原理+面试知识点
😄 HMM之前跟人生导师:李航学习过,这里结合自己的理解,精简一波HMM,总结一下面试中高频出现的要点。 文章目录 1、何为HMM?2、HMM三要素:3、HMM两大强假设4、HMM三个基本问题 :5、HMM中涉及的算法6、HMM缺点7、面试高频题7.1、HMM中为何引入维特比算法作为预测算法?…...
2026年HR招聘偏好白皮书:这5项附加技能出现频率暴涨
2026 年的招聘市场,正在从“看你会什么岗位技能”,转向“看你能不能把岗位做得更智能”。HR筛简历时,越来越关注候选人的AI应用能力、数据化思维和业务落地能力。人社部近年发布的新职业中,已经出现生成式人工智能系统应用员、人工…...
从入门到上岗,Java+AI 复合型人才养成攻略
当下编程行业格局正在悄然改变,纯 Java 后端岗位内卷日趋严重,薪资增长逐步放缓;纯粹的 AI 算法岗门槛居高不下,对学历、数理功底要求严苛,普通开发者很难入局。 而Java+AI 复合型开发顺势成为行业刚需岗位,既依托成熟的 Java 体系承接业务开发,又能融入人工智能技术实…...
【2026最新】应对Turnitin查重:实测5大英文查降AI宝藏工具,一站式搞定初稿
现在的英文初稿,无论是期刊文章、SCI 还是普通的 Course Essay,基本都需要评估内容的原创度,进行文章 AI 率检测。很多伙伴以为纯手敲就能过,结果一查数据依然不尽如人意。 针对英文内容,咱们必须使用专门的英文检测和…...
【紧急预警】92%的DeepSeek测试用例生成失败源于这4个隐性配置缺陷——资深SDET连夜整理修复清单
更多请点击: https://codechina.net 第一章:DeepSeek测试用例生成的现状与危机本质 当前,DeepSeek系列大模型(如DeepSeek-Coder、DeepSeek-VL)在代码生成与理解任务中展现出强大能力,但其测试用例自动生成…...
基于声卡与电流互感器的安全交流功率测量系统设计与实践
1. 项目概述:用声卡安全测量交流功率我一直对各种测量技术抱有浓厚的兴趣,毕竟“测量即认知”这句老话在今天依然适用。对于电力消耗和产出,没有什么比直接测量更能说明问题了。交流功率的测量,核心在于同时获取电压和电流的瞬时值…...
【MySQL数据库 | 第一篇】 概述
数据库相关概念: 数据库(Database):数据库是指一组有组织的数据的集合,通过计算机程序进行管理和访问。数据库管理系统:操纵和管理数据库的大型软件SQL:操作关系型数据库的编程语言,定义了一套操作关系型数…...
Claude SWOT分析(内部风控文档流出版):3类高危使用场景+2个监管红线预警
更多请点击: https://intelliparadigm.com 第一章:Claude SWOT分析(内部风控文档流出版):3类高危使用场景2个监管红线预警 高危使用场景识别 在企业级AI应用中,Claude模型若未经严格风控适配,…...
Arcmap实操:如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例
Arcmap实操:如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例 想象一下,医生通过CT扫描将人体内部结构分层呈现,而GIS中的"渔网"工具同样能对城市路网进行"切片式"分析。这种空间离散化技术&…...
Ubuntu经常安装软件
1、垃圾清理工具stacer sudo apt updatesudo apt install stacer apt cleanapt autocleanapt autoremove 2、类似与everything的工具Fsearcch 1sudo add-apt-repository ppa:christian-boxdoerfer/fsearch-stable 2sudo apt update 3sudo apt install fsearch (注…...
告别手动预约:i茅台自动预约系统5分钟部署指南
告别手动预约:i茅台自动预约系统5分钟部署指南 【免费下载链接】campus-imaotai i茅台app自动预约,每日自动预约,支持docker一键部署(本项目不提供成品,使用的是已淘汰的算法) 项目地址: https://gitcode…...
