当前位置: 首页 > article >正文

关于大数据的基础知识(一)——定义特征结构要素

成长路上不孤单😊😊😊😊😊😊

【14后😊///计算机爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】

今日分享关于大数据的基础知识(一)——定义&特征&结构&要素的相关内容!

关于【大数据的基础知识(一)——定义&特征&结构&要素】

目录:

  • 一、大数据的定义
  • 二、大数据的特征
  • 三、大数据的结构
  • 四、大数据的要素

一、大数据定义

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 

“大数据”一词列出了商务印书馆推出的《汉语新词语词典(2000—2020)》中国这20年生命活力指数最高的十大“时代新词”。 

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

它们按照进率1024(2的十次方)来计算:

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

1 MB = 1,024 KB = 1,048,576 Bytes

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

二、大数据的特征

下面用一张表格来总结大数据所具备的几点特征:

三、大数据的结构

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。 [6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。 [7]

其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。

在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。

在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。

在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。 

四、大数据的要素

1、概念

数据技术的发展伴随着数据应用需求的演变,影响着数据投入生产的方式和规模,数据在相应技术和产业背景的演变中逐渐成为促进生产的关键要素。因此,“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调。即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴。 

1、数据产品

(1)数据库商品:数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中,数据、DBMS 及关联应用一起被称为数据库系统,通常简称为数据库。 

(2)数据库分类:

  • 关系数据库——关系数据库在 20 世纪 80 年代成为了主流。在关系数据库中,项被组织为一组具有列和行的表。这为访问结构化信息提供了一种有效、灵活的方法。
  • 面向对象数据库——面向对象数据库中的信息以对象的形式表示,这与面向对象的编程相类似。
  • 分布式数据库——分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个物理位置,或分散在不同的网络上。
  • 数据仓库——数据仓库是数据的中央存储库,是专为快速查询和分析而设计的数据库。
  • NoSQL 数据库——NoSQL 或非关系数据库,支持存储和操作非结构化及半结构化数据(与关系数据库相反,关系数据库定义了应如何组合插入数据库的数据)。随着 Web 应用的日益普及和复杂化,NoSQL 数据库得到了越来越广泛的应用。
  • 图形数据库——图形数据库根据实体和实体之间的关系来存储数据。
  • OLTP 数据库——OLTP 数据库是一种高速分析数据库,专为多个用户执行大量事务而设计。
  • 云数据库——云数据库指基于私有云、公有云或混合云计算平台的结构化或非结构化数据集合,可分为传统云数据库和数据库即服务 (DBaaS) 两种类型。在 DBaaS 中,管理和维护工作均由服务提供商负责。
  • 多模型数据库——多模型数据库指的是将不同类型的数据库模型整合到一个集成的后端中,以此来满足各种不同的数据类型的需求。
  • 文档/JSON 数据库——文档数据库专为存储、检索和管理面向文档的信息而设计,它是一种以 JSON 格式(而不是采用行和列)存储数据的现代方法。
  • 自治驾驶数据库——基于云的自治驾驶数据库(也称作自治数据库)是一种全新的极具革新性的数据库,它利用机器学习技术自动执行数据库调优、保护、备份、更新,以及传统上由数据库管理员 (DBA) 执行的其他常规管理任务。 [25]
  • 向量数据库(Vector Database)——向量数据库是专门用来存储和查询向量的数据库。这些向量通常来自于对文本、语音、图像、视频等的向量化。与传统数据库相比,向量数据库可以处理更多非结构化数据。在机器学习和深度学习中,数据通常以向量形式表示,因此向量数据库在这些领域中非常有用。

2、核验接口

(1)概念/定义

核验接口是指通过网络或其他方式,将需要核验的信息传输到指定的接口,进行核验并返回核验结果的一种接口。在实名认证、身份验证、数据安全等方面,核验接口都有着广泛的应用。

(2)常见的核验接口

  • 身份信息核验接口——用于核验身份证号码和姓名是否一致,可以包括身份证二要素核验(核验姓名、身份证号是否一致)和身份证四要素核验(核验姓名、身份证号、有效期始、有效期止是否一致)。
  • 个人实名认证接口——用于进行个人实名认证,验证个人身份信息的真实性和合法性。
  • 企业四要素核验接口——用于核验企业的组织机构代码、营业执照号码、纳税人识别号码等信息是否一致。
  • 银行卡信息核验接口——用于银行卡类型查询、银行卡真伪核验,校验银行卡四要素(姓名、手机号码、身份证号码和银行卡号)信息是否一致。

3、查询接口

(1)概念/定义

查询接口是指通过网络或其他方式,将查询请求传输到指定的接口,进行查询并返回查询结果的一种接口。在数据库中,查询接口可以用于查询数据表中的数据。

(2)常见的查询接口

  • 公共信息查询接口——天气查询、国内油价查询、交通违章代码查询和空气质量查询等数据查询接口。
  • 常识类信息查询接口——如星座查询、垃圾分类识别查询、节假日信息查询和邮编查询等数据查询接口。
  • 企业信息查询接口——包括企业简介信息查询、企业工商信息变更查询、企业LOGO、企业专利信息等数据查询接口。

4、数据模型结果

(1)概念/定义

数据模型结果是指数据建模过程的输出结果,它是对数据对象及其之间关系的结构化表示。在数据产品中,数据模型结果可以包括表格、图表、图形等可视化形式,帮助用户理解数据及其关联关系。

(2)常见的数据模型结果应用

  • 在金融业中,数据模型结果可以用于分析市场趋势和客户需求,从而实现精准营销和风险管理。
  • 在零售业中,数据模型结果可以用于分析商品销售情况、顾客行为和偏好,进行优化库存管理、改善定价策略并提供个性化推荐服务等应用。
  • 在电信行业中,数据模型结果可以用于分析网络流量分析从而提升网络质量和网络利用率、用于用户行为和偏好分析管理客户关系以及精准营销等应用。
  • 在医疗行业中,数据模型结果可以分析患者病历数据,实现疾病预测,以及发展个性化治疗,考虑个人的遗传变异因素,改善医疗保健效果,减少副作用,降低医疗成本。

相关文章:

关于大数据的基础知识(一)——定义特征结构要素

成长路上不孤单😊😊😊😊😊😊 【14后😊///计算机爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于大数据的基础知识(一&a…...

chrome使用手机调试触屏web

chrome://inspect/#devices 1、手机开启调试模式、打开usb调试 2、手机谷歌浏览器打开网站 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/f1ef2d2c017c477ba55a57338ae13fc8.jpeg#pic_center 使用谷歌浏览器打开chrome://inspect/#devices 刷新浏览器点击inspect…...

浅谈量子计算:从实验室突破到产业落地的中国实践

引言:量子霸权争夺战的中国坐标 2025年5月30日,中国量子科技梦之队再次刷新世界纪录——潘建伟院士团队在量子京沪干线完成全球首个跨省量子密钥分发实验,成功实现北京金融数据中心与上海政务云平台间的绝对安全通信。这标志着我国在量子通信…...

68道Hbase高频题整理(附答案背诵版)

简述什么是Hbase数据库? Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它利用HBase技术在HDFS上提供了类似于Bigtable的能力。换句话说,Hbase是Apache Hadoop生态系统中的一部分,可以为大数据应用提供快速的随机…...

python版若依框架开发:项目结构解析

python版若依框架开发 从0起步,扬帆起航。 python版若依部署代码生成指南,迅速落地CURD!项目结构解析 文章目录 python版若依框架开发前端后端 前端 后端...

国产linux系统(银河麒麟,统信uos)使用 PageOffice在线编辑word文件保存数据同时保存文件

在实际应用中,例如在线签订合同的时候,合同的签订日期,合同号等等这些信息既要保存到数据库,合同签订后又要将整个合同文件保存起来。这时候就需要用到PageOffice的保存数据区域数据的同时保存整个文件的功能。 后端代码 后端打…...

day34- 系统编程之 网络编程(TCP)

一、补充 ip地址:除了本机地址如:192.168.0.151还可以使用(自己测试)本地回环地址(127.0.0.1)或者使用htonl(INADDR_ANY); 二、模式 C/S 模式 ->服务器/客户端模型:TCP传输控制协议 2.1 …...

鸿蒙jsonToArkTS_工具exe版本来了

前言导读 相信大家在学习鸿蒙开发过程中最痛苦的就是编写model 类 特别是那种复杂的json的时候对不对, 这时候有一个自动化的工具给你生成model是不是很开心。我们今天要分享的就是这个工具 JsonToArkTs 的用法 工具地址 https://gitee.com/qiuyu123/jsontomodel…...

DeviceNet转Modbus TCP网关的远程遥控接收端连接研究

在港口码头作业中,遥控器因其精确的操作控制和稳定的性能,已成为起重机货物装卸作业的重要辅助工具。然而,在某港口码头实施无线遥控器远程控制掘进机的过程中,由于通信协议的不兼容,遭遇了技术难题。具体而言&#xf…...

ASP.NET Core 中间件深度解析:构建灵活高效的请求处理管道

在现代Web应用开发中,请求处理管道的设计和实现至关重要。ASP.NET Core通过其中间件(Middleware)系统提供了一种高度灵活、可扩展的方式来构建请求处理管道。本文将全面深入地探讨ASP.NET Core中间件的概念、工作原理、实现方式以及最佳实践,帮助开发者掌…...

开关机、重启、改密、登录:图解腾讯云CVM日常管理核心操作,轻松掌控你的云主机

更多服务器知识,尽在hostol.com 嘿,各位腾讯云的“新晋地主”们!恭喜你成功“开垦”了自己的第一片“云端沃土”——拥有了一台崭新的云服务器CVM!现在,这台CVM就像一部功能强大的超级智能电视,已经送到你…...

从0到1认识ElasticStack

一、ES集群部署 操作系统Ubuntu22.04LTS/主机名IP地址主机配置elk9110.0.0.91/244Core8GB100GB磁盘elk9210.0.0.92/244Core8GB100GB磁盘elk9310.0.0.93/244Core8GB100GB磁盘 1. 什么是ElasticStack? # 官网 https://www.elastic.co/ ElasticStack早期名称为elk。 elk分别…...

I2C 外设知识体系:从基础到 STM32 硬件实现

文章目录 I2C外设简介I2C 通信实现方式对比1. 软件模拟 I2C2. 硬件实现 I2C STM32 I2C 外设核心功能1. 硬件特性2. 寄存器与引脚 I2C框图一、引脚接口二、数据处理模块三、时钟控制模块四、控制逻辑模块五、辅助功能 I2C基本结构主机发送一、7 位主发送序列二、10 位主发送序列…...

vue和uniapp聊天页面右侧滚动条自动到底部

1.vue右侧滚动条自动到底部 <div ref"newMessage1"></div> <!-- 定义<div ref"newMessage1"></div>与<div v-for”item in list“>循环同级定义-->定义方法 scrollToBottomCenter(){this.$nextTick(() > {this.$re…...

文件索引:数组、二叉树、二叉排序树、平衡树、红黑树、B树、B+树

参考链接&#xff1a;https://www.bilibili.com/video/BV1mY4y1W7pS 数据结构可视化工具&#xff1a;https://www.cs.usfca.edu/~galles/visualization/Algorithms.html 问题引出&#xff1a;一般是什么原因导致从磁盘查找数据效率低&#xff1f; 通过索引来更快的查询数据&a…...

PHP的namespace

文章目录 环境Java的packagepackage关键字包结构和目录结构访问权限import关键字总结 PHP的namespacenamespace关键字在同一个文件里使用资源限定&#xff0c;完全限定&#xff0c;非限定限定完全限定非限定 use关键字use VS 直接指定资源在不同的文件里使用总结 环境 Windows…...

《仿盒马》app开发技术分享-- 商品搜索页(顶部搜索bar热门搜索)(端云一体)

开发准备 随着开发功能的逐渐深入&#xff0c;我们的应用逐渐趋于完善&#xff0c;现在我们需要继续在首页给没有使用按钮以及组件添加对应的功能&#xff0c;这一节我们要实现的功能是商品搜索页面&#xff0c;这个页面我们从上到下开始实现功能&#xff0c;首先就是一个搜索…...

10_聚类

描述 聚类&#xff08;clustering&#xff09;是将数据集划分成组的任务&#xff0c;这些组叫作簇&#xff08;cluster&#xff09;。其目标是划分数据&#xff0c;使得一个簇内的数据点非常相似且不同簇内的数据点非常不同。与分类算法类似&#xff0c;聚类算法为每个数据点分…...

网络安全:网页密码防护与记住密码功能的安全

引言 在数字化时代&#xff0c;网页应用已成为人们生活和工作中不可或缺的一部分。用户登录作为网页应用的第一道防线&#xff0c;其密码防护机制至关重要。而 “记住密码” 功能虽然极大提升了用户体验&#xff0c;但也带来了诸多安全风险。从密码存储漏洞导致的数据泄露&…...

Tensorborad

一、tensorboard的基本操作 1.1 发展历史 TensorBoard 是 TensorFlow 生态中的官方可视化工具&#xff08;也可无缝集成 PyTorch&#xff09;&#xff0c;用于实时监控训练过程、可视化模型结构、分析数据分布、对比实验结果等。它通过网页端交互界面&#xff0c;将枯燥的训练…...

Kafka存储机制核心优势剖析

文章目录 Kafka存储机制核心优势剖析1. **写入路径:Page Cache vs. 应用层缓存**2. **Page Cache工作原理解析**3. **顺序写盘 vs. 随机写盘**4. **资源利用最优化****为什么Page Cache方案更优?**1. **双缓存问题彻底解决**2. **读写路径统一优化**3. **故障恢复优势****生产…...

day027-Shell自动化编程-基础

文章目录 1. 修改vim配置文件自动添加注释2. 故障案例&#xff1a;Windows上写的Shell脚本上传到Linux系统上运行报错3. 脚本运行方法4. 变量4.1 普通变量4.2 环境变量4.3 特殊变量4.4 案例&#xff1a;书写ping检查脚本&#xff0c;检查脚本传入的第一个参数4.5 面试题&#x…...

工业自动化DeviceNET从站转Ethernet/IP主站网关赋能冶金行业工业机器人高效运行

在冶金行业高速发展的当下&#xff0c;对生产效率与精度的要求不断攀升。工业机器人凭借其精准、高效的特性&#xff0c;在钻孔、铣削、切割、弯曲、冲压等加工工艺中广泛应用。然而&#xff0c;不同设备间的通信协议差异常成为制约系统协同的瓶颈。JH-DVN-EIP疆鸿智能DeviceNE…...

STM32启动文件学习(startup_stm32f40xx.s)

原代码 ;******************** (C) COPYRIGHT 2016 STMicroelectronics ******************** ;* File Name : startup_stm32f40xx.s ;* Author : MCD Application Team ;* version : V1.8.0 ;* date : 09-November-2016 ;* Desc…...

构建高效可靠的电商 API:设计原则与实践指南

引言 在数字化浪潮中&#xff0c;电商 API 接口技术已成为连接不同系统、实现数据高效流通的核心桥梁。通过标准化的协议和工具集合&#xff0c;API 不仅支撑了商品管理、订单处理等基础功能&#xff0c;还为个性化推荐、全球供应链协同等创新场景提供了底层支持。本文将结合行…...

开源数据库MySQL 与 PostgreSQL的巅峰对决。

MySQL 与 PostgreSQL 是两大主流开源关系型数据库&#xff0c;其核心差异主要体现在架构设计、功能特性、性能优化及适用场景上。结合最新技术对比和行业实践&#xff0c;以下为深度解析&#xff1a; &#x1f9e0; ​​一、架构与设计哲学​​ ​​维度​​​​PostgreSQL​​…...

从 LeetCode 到日志匹配:一行 Swift 实现规则识别

文章目录 摘要描述题解答案题解代码分析示例测试及结果时间复杂度空间复杂度总结 摘要 在开发中我们经常遇到“模式匹配”的问题&#xff0c;比如日志分类、用户意图识别、甚至是在一些权限系统中做规则映射判断。这类问题的本质是判断两个结构是否具有一致的对应关系。LeetCo…...

前端js获取当前经纬度(H5/pc/mac/window都可用)

前端JS获取当前位置的经纬度&#xff08;H5/PC/mac/window都可用&#xff0c;亲测&#xff01;&#xff09;&#xff0c;效果如下。 完整代码如下&#xff1a; <!-- 用原生api获取经纬度&#xff0c;转化为百度经纬度与服务端交互&#xff0c; 只支持https&#xff01; --&g…...

Meta计划借助AI实现广告创作全自动化

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…...

AI编程规范失控?三大策略用Cursor Rules精准约束

​在 AI 编程时代,如何让助手精准理解您的项目规范?当团队协作时,如何确保每位开发者生成的代码风格统一?Cursor Rules 正是您需要的终极解决方案——它如同一位永不疲倦的架构师,通过预设规则控制 AI 的每一次代码生成、重构与补全行为。 本教程将带您深入 Cursor Rules…...