什么是数据
一、数据的本质定义
-
哲学视角
- 亚里士多德《形而上学》中"未加工的观察记录"
- 现代认知科学:人类感知系统接收的原始刺激信号(如视网膜光信号、听觉神经电信号)
- 信息论奠基人香农:消除不确定性的度量载体
-
技术定义
- 国际标准ISO/IEC 2382:可被计算机处理的符号表示
- 三元结构:
符号(Symbol) + 语义(Semantic) + 载体(Medium)
示例:体温计数字(符号)→ 健康状态(语义)→ LCD显示屏(载体)
-
与信息的关系
维度 数据 信息 存在形式 原始记录(离散、碎片化) 结构化关联(有序、逻辑) 认知价值 潜在价值(需加工) 实际价值(已解释) 转化过程 原料(Input) 产品(Output) 示例 传感器温度读数 设备故障预警报告
二、数据的核心属性
-
基本特征
- 原子性:不可分割的最小信息单元(如单个像素值)
- 多态性:可转化为数字、文本、图像等多种形态
- 时效性:价值随时间衰减(如实时交通数据 vs 历史路况)
-
价值维度
- 经济价值:数据交易市场规模(2023年全球达2,340亿美元)
- 战略价值:国家数据主权(GDPR法规体现)
- 科学价值:LHC对撞机年产生50PB粒子数据支持物理发现
-
质量标准
- ACID原则:
Atomicity(原子性)
Consistency(一致性)
Isolation(隔离性)
Durability(持久性) - FAIR原则(科学数据):
Findable(可发现)
Accessible(可获取)
Interoperable(可互操作)
Reusable(可重用)
- ACID原则:
三、数据分类体系
-
结构化维度
类型 特征 典型场景 结构化数据 行列矩阵(SQL表) 银行交易记录 半结构化数据 标签层级(XML/JSON) 网页爬虫数据 非结构化数据 自由格式(文本/图像) 医疗影像档案 -
生成方式
- 观测数据:IoT传感器、实验仪器记录
- 交互数据:用户点击流、社交媒体互动
- 衍生数据:算法生成的合成数据(GAN生成人脸)
-
领域特异性
- 科学数据:基因序列、天文观测数据
- 商业数据:CRM客户画像、供应链日志
- 社会数据:人口普查、交通流量统计
四、数据生命周期
-
全周期流程
采集 → 存储 → 处理 → 分析 → 可视化 → 归档
现代数据湖架构可实现PB级数据全流程管理 -
关键技术栈
- 采集层:Apache Kafka(实时流处理)
- 存储层:分布式文件系统(HDFS/Ceph)
- 计算层:Spark/Flink(批流一体计算)
- 分析层:Python生态(Pandas/NumPy)
- 可视化层:Tableau/Power BI
-
治理挑战
- 存储爆炸:全球数据总量预计2025年达175ZB(1ZB=10^21字节)
- 隐私悖论:个性化服务需求与GDPR合规的平衡
- 能源消耗:数据中心占全球用电量约1.5%
五、数据科学范式
-
方法论演进
- 第一范式:经验科学(实验观察)
- 第二范式:理论推演(数学模型)
- 第三范式:计算仿真(超级计算机)
- 第四范式:数据驱动(大数据分析)
-
核心方法论
- CRISP-DM(跨行业数据挖掘标准流程)
- KDD(Knowledge Discovery in Databases)
- DataOps:敏捷式数据流水线管理
-
前沿方向
- 联邦学习:数据不动模型动的隐私计算
- 数字孪生:物理世界的虚拟数据镜像
- 量子数据:量子比特表示的新型数据形态
六、数据伦理框架
-
基本原则
- 透明性:算法决策可解释(如欧盟AI法案要求)
- 公平性:防止数据偏见(COMPAS再犯风险评估系统争议)
- 问责制:数据滥用追责机制(Facebook数据门事件)
-
典型困境
- 监控资本主义:用户行为数据的商业利用边界
- 数字遗产:逝者社交账号数据继承权
- 深度伪造:GAN生成虚假视频的法律定性
-
治理体系
- 技术手段:差分隐私、同态加密
- 法律框架:中国《数据安全法》、欧盟《数字市场法》
- 伦理委员会:企业数据使用伦理审查机制
结语
数据已成为继土地、劳动力、资本后的"第四生产要素",其概念外延从简单的观测记录扩展到包含物质载体、处理流程、价值转换的复杂生态系统。理解数据的多维度本质,需要融合信息技术、哲学认知、法律伦理等多学科视角。在数字化转型浪潮中,构建数据采集、治理、应用的良性循环,将是推动社会进步的关键能力。
相关文章:
什么是数据
一、数据的本质定义 哲学视角 亚里士多德《形而上学》中"未加工的观察记录"现代认知科学:人类感知系统接收的原始刺激信号(如视网膜光信号、听觉神经电信号)信息论奠基人香农:消除不确定性的度量载体 …...
C++基于rapidjson的Json与结构体互相转换
简介 使用rapidjson库进行封装,实现了使用C对结构体数据和json字符串进行互相转换的功能。最短只需要使用两行代码即可无痛完成结构体数据转换为Json字符串。 支持std::string、数组、POD数据(int,float,double等)、std::vector、嵌套结构体…...
OpenStack Yoga版安装笔记(十七)安全组笔记
一、安全组与iptables的关系 OpenStack的安全组(Security Group)默认是通过Linux的iptables实现的。以下是其主要实现原理和机制: 安全组与iptables的关系 OpenStack的安全组规则通过iptables的规则链实现。每条安全组规则会被转换为相应的i…...
通义万相2.1 图生视频:为AI绘梦插上翅膀,开启ALGC算力领域新纪元
通义万相2.1图生视频大模型 通义万相2.1图生视频技术架构万相2.1的功能特点性能优势与其他工具的集成方案 蓝耘平台部署万相2.1核心目标典型应用场景未来发展方向 通义万相2.1ALGC实战应用操作说明功能测试 为什么选择蓝耘智算蓝耘智算平台的优势如何通过API调用万相2.1 写在最…...
Debezium日常分享系列之:Debezium3.1版本之增量快照
Debezium日常分享系列之:Debezium3.1版本之增量快照 按需快照触发一次临时增量快照触发临时阻塞快照增量快照增量快照过程如何 Debezium 解决具有相同主键的记录之间的冲突快照窗口触发增量快照使用附加条件运行临时增量快照使用 Kafka 信号通道触发增量快照临时增量…...
聊聊Spring AI的RedisVectorStore
序 本文主要研究一下Spring AI的RedisVectorStore 示例 pom.xml <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-vector-store-redis</artifactId> </dependency>配置 spring:ai:vectorstore:…...
Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(4)
运行官方代码库中提供的Colab代码:vision-based environment(二)(4) 十六、函数unnormalize_data,继承自torch.utils.data.Dataset十六.1 def __init__()十六.2 def __len__ ()十六.3 def __getitem__()总体…...
52.个人健康管理系统小程序(基于springbootvue)
目录 1.系统的受众说明 2.开发环境与技术 2.1 MYSQL数据库 2.2 Java语言 2.3 微信小程序技术 2.4 SpringBoot框架 2.5 B/S架构 2.6 Tomcat 介绍 2.7 HTML简介 2.8 MyEclipse开发工具 3.系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作…...
学习比较JVM篇(六):解读GC日志
一、前言 在之前的文章中,我们对JVM的结构、垃圾回收算法、垃圾回收器做了一些列的讲解,同时也使用了JVM自带的命令行工具进行了实际操作。今天我们继续讲解JVM。 我们学习JVM的目的是为了了解JVM,然后优化对应的参数。那么如何了解JVM运行…...
I²S协议概述与信号线说明
IIS协议概述 IS(Inter-IC Sound)协议,又称 IIS(Inter-IC Sound),是一种专门用于数字音频数据传输的串行总线标准,由飞利浦(Philips)公司提出。该协议通常用于微控制器…...
b4a安卓开发技术和建议,VB6开发Android APK
b4a功能建议实现方法想法创意Wait For可以在参数中直接返回结果吗?Wait For (cam.OpenCamera(front)) Complete (TaskIndex As Int) Wait For B4XPage_PermissionResult (Permission As String, Result As Boolean) 函数别名,减少代码,通用函…...
计算机网络-子网划分试题七
计算机网络中IP地址为172.16.20.60、172.16.30.60、172.16.80.60,子网掩码为255.255.192.0的三台计算机的网络号,子网号及主机号,并确定三台计算机是否处于同一个子网,如果不是请指出哪些在同一个子网,哪些不是&#x…...
免费Deepseek-v3接口实现Browser-Use Web UI:浏览器自动化本地模拟抓取数据实录
源码 https://github.com/browser-use/web-ui 我们按照官方教程,修订几个环节,更快地部署 步骤 1:克隆存储库 git clone https://github.com/browser-use/web-ui.git cd web-ui Step 2: Set Up Python Environment 第 2 步:设置…...
[蓝桥杯] 求和
题目链接 P8772 [蓝桥杯 2022 省 A] 求和 - 洛谷 题目理解 这道题就是公式题,我们模拟出公式后,输出最终结果即可。 本题不难,相信很多同学第一次见到这道题都是直接暴力解题。 两个for循环,测试样例,直接拿下。 #in…...
大数据学习(100)-kafka详解
🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一…...
通过Ollama本地部署DeepSeek R1模型(Windows版)
嗨,大家好,我是心海 以下是一份详细的Windows系统下通过Ollama本地部署DeepSeek R1模型的教程,内容简洁易懂,适合新手用户参考 本地部署大模型,就有点像在你自己的电脑或者服务器上,安装并运行这样一个“私…...
【C++】vector的底层封装和实现
目录 目录前言基本框架迭代器容量第一个测试,野指针异常第二轮测试,浅拷贝的问题 元素访问修改操作push_backinsert迭代器失效问题 erase 默认成员函数构造函数双重构造引发调用歧义 拷贝构造赋值重载析构函数 源码end 目录 前言 废话不多说࿰…...
Open CASCADE学习|读取点集拟合样条曲线(续)
问题 上一篇文章已经实现了样条曲线拟合,但是仍存在问题,Tolerance过大拟合成直线了,Tolerance过大头尾波浪形。 正确改进方案 1️⃣ 核心参数优化 通过调整以下参数控制曲线平滑度: Standard_Integer DegMin 3; // 最低阶…...
ARM Cortex-M用于控制中断和异常处理的寄存器:BASEPRI、PRIMASK 和 FAULTMASK
在ARM Cortex-M处理器中,BASEPRI、PRIMASK 和 FAULTMASK 是用于控制中断和异常处理的系统级寄存器。它们的主要区别在于作用范围和灵活性,以下是详细说明: 1. PRIMASK • 功能: 禁用除以下情况的异常和所有中断(Maska…...
Kafka 中的生产者分区策略
Kafka 中的 生产者分区策略 是决定消息如何分配到不同分区的机制。这个策略对 Kafka 的性能、负载均衡、消息顺序性等有重要影响。了解它对于高效地使用 Kafka 进行消息生产和消费至关重要。 让我们一起来看 Kafka 中 生产者的分区策略,它如何工作,以及…...
【Django】教程-11-ajax弹窗实现增删改查
【Django】教程-1-安装创建项目目录结构介绍 【Django】教程-2-前端-目录结构介绍 【Django】教程-3-数据库相关介绍 【Django】教程-4-一个增删改查的Demo 【Django】教程-5-ModelForm增删改查规则校验【正则钩子函数】 【Django】教程-6-搜索框-条件查询前后端 【Django】教程…...
结构化需求分析:专业方法论与实践
结构化需求分析是一种用于软件开发或其他项目中的系统分析方法,旨在全面、准确地理解和描述用户对系统的需求。以下是关于结构化需求分析的详细介绍: 一、概念 结构化需求分析是采用自顶向下、逐步分解的方式,将复杂的系统需求分解为若干个…...
R语言:气象水文领域的数据分析与绘图利器
R 语言是一门由统计学家开发的用于统计计算和作图的语言(a Statistic Language developed for Statistic by Statistician),由 S 语言发展而来,以统计分析功能见长。R 软件是一款集成 了数据操作、统计和可视化功能的优秀的开源软…...
Kotlin与HttpClient编写视频爬虫
想用Apache HttpClient库和Kotlin语言写一个视频爬虫。首先,我需要确定用户的具体需求。视频爬虫通常涉及发送HTTP请求,解析网页内容,提取视频链接,然后下载视频。可能需要处理不同的网站结构,甚至可能需要处理动态加载…...
图形化编程语言:低代码赛道的技术革命与范式突破
在 2024 年 Gartner 低代码平台魔力象限报告中,传统低代码厂商市场份额增速放缓至 12%,而图形化编程语言赛道融资额同比激增 370%。本文深度剖析低代码平台的技术瓶颈,系统阐释图形化编程语言的核心优势,揭示其如何重构软件开发范…...
蓝桥杯每日刷题c++
目录 P9240 [蓝桥杯 2023 省 B] 冶炼金属 - 洛谷 (luogu.com.cn) P8748 [蓝桥杯 2021 省 B] 时间显示 - 洛谷 (luogu.com.cn) P10900 [蓝桥杯 2024 省 C] 数字诗意 - 洛谷 (luogu.com.cn) P10424 [蓝桥杯 2024 省 B] 好数 - 洛谷 (luogu.com.cn) P8754 [蓝桥杯 2021 省 AB2…...
快速上手示例(以BEVFormer为例)
快速上手示例(以BEVFormer为例) 安装依赖: bash git clone https://github.com/fundamentalvision/BEVFormer.git cd BEVFormer pip install -r requirements.txt下载预训练模型: wget https://github.com/fundament…...
GitHub 上开源一个小项目的完整指南
GitHub 上开源一个小项目的完整指南 🚀 第一步:准备你的项目 在开源之前,确保项目是可用且有一定结构的: ✅ 最低要求 项目文件清晰、结构合理(比如:src/、README.md、LICENSE)项目能在本地正…...
当实体类中的属性名和表中的字段名不一样 ,怎么办
在不同的持久化框架中,当实体类中的属性名和表中的字段名不一致时,有不同的解决办法,下面为你详细介绍: 1. MyBatis MyBatis 是一个流行的持久层框架,有两种主要方式来处理属性名和字段名不一致的情况。 方式一&…...
arthas之dump/classloader命令的使用
文章目录 1. dump2. classloader 1. dump 作用:将已加载类的字节码文件保存到特定目录:logs/arthas/classdump/ 参数 数名称参数说明class-pattern类名表达式匹配[c:]类所属 ClassLoader 的 hashcode[E]开启正则表达式匹配,默认为通配符匹…...
