当前位置: 首页 > news >正文

数据工程流程

** 数据工程流程图**

API调用 / 爬取数据
处理缺失值 / 异常值
生成统计报告 / 可视化
标注任务与审核
特征工程 / 数据增强
数据采集
数据清洗
数据分析
人工标注
数据构造
输出数据集

各步骤详解与具体实现

1. 数据采集

数据采集是获取数据的第一步。以下是常见的采集方式及其实现示例:

具体实现:
  1. 通过 API 采集数据

    • 示例:从公开 API 获取天气数据。
    import requestsapi_url = "http://api.weatherapi.com/v1/current.json"
    params = {"key": "your_api_key","q": "London"
    }
    response = requests.get(api_url, params=params)
    if response.status_code == 200:data = response.json()print(data)
    else:print("Failed to fetch data")
    
  2. 爬取网页数据

    • 示例:使用 BeautifulSoup 抓取新闻标题。
    import requests
    from bs4 import BeautifulSoupurl = "https://news.ycombinator.com/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')titles = [title.get_text() for title in soup.find_all('a', class_='storylink')]
    print(titles)
    
注意事项:
  • 确保数据来源合法,遵守隐私和数据采集政策。
  • 针对大规模数据采集,考虑使用并发工具如 aiohttpscrapy

2. 数据清洗

数据清洗是数据工程中的关键环节,用于提升数据质量,便于后续分析。

具体实现:
  1. 去重与填充缺失值

    import pandas as pddata = pd.DataFrame({'Name': ['Alice', 'Bob', 'Alice', None],'Age': [25, 30, 25, 29],'Score': [90, None, 90, 85]
    })# 去除重复值
    data = data.drop_duplicates()# 填充缺失值
    data['Score'] = data['Score'].fillna(data['Score'].mean())
    data['Name'] = data['Name'].fillna("Unknown")print(data)
    
  2. 格式转换与异常值处理

    # 转换日期格式
    data['Date'] = pd.to_datetime(data['Date'], errors='coerce')# 检测异常值
    z_scores = (data['Score'] - data['Score'].mean()) / data['Score'].std()
    data = data[z_scores.abs() < 3]  # 去除 Z-score 超过 3 的异常值
    
注意事项:
  • 缺失值的填充策略应根据业务需求选择(如均值、插值、特定值填充)。
  • 异常值检测可以使用统计方法(如箱型图或 Z-score)。

3. 数据分析

数据分析包括探索性数据分析(EDA)和统计建模,目的是挖掘数据特征,为决策提供依据。

具体实现:
  1. 生成数据统计报告

    import pandas as pddata = pd.read_csv('data.csv')
    print(data.describe())  # 生成统计摘要
    
  2. 可视化分析

    • 示例:使用 Seaborn 绘制数据分布图。
    import seaborn as sns
    import matplotlib.pyplot as pltsns.histplot(data['Score'], bins=30, kde=True)
    plt.show()
    
  3. 相关性分析

    correlation = data.corr()
    sns.heatmap(correlation, annot=True)
    plt.show()
    
注意事项:
  • 分析应紧密围绕业务目标,避免冗余或无关分析。
  • 数据可视化可以提高结果的直观性。

4. 人工标注

人工标注用于生成有监督学习所需的数据集。高质量标注是构建模型的重要基础。

具体实现:
  1. 使用 Label Studio 配置标注任务

    • 安装与启动:
      pip install label-studio
      label-studio start
      
  2. 示例:文本分类标注

    • 在 Label Studio 中上传数据集,设置分类任务(如情感分类)。
注意事项:
  • 确保标注人员对任务有清晰的理解,提供标注标准。
  • 对复杂任务,建议进行多轮校对以提高标注一致性。

5. 数据构造

数据构造包括特征工程、数据增强和数据集划分。

具体实现:
  1. 数据划分

    from sklearn.model_selection import train_test_splittrain, test = train_test_split(data, test_size=0.2, random_state=42)
    print("训练集大小:", len(train))
    print("测试集大小:", len(test))
    
  2. 数据增强

    • 示例:图像翻转与旋转。
    from torchvision import transformstransform = transforms.Compose([transforms.RandomHorizontalFlip(),transforms.RandomRotation(10)
    ])
    augmented_image = transform(image)
    
  3. 特征工程

    • 示例:提取日期特征。
    data['Year'] = data['Date'].dt.year
    data['Month'] = data['Date'].dt.month
    
注意事项:
  • 数据增强适用于深度学习任务,需避免引入噪声。
  • 特征构造应基于业务逻辑,确保对模型有正向贡献。

流程关键点总结

步骤核心任务工具与技术
数据采集从数据源获取原始数据requestsScrapy
数据清洗提高数据质量,处理缺失与异常值PandasNumpy
数据分析挖掘数据特征,生成统计与可视化SeabornMatplotlib
人工标注标注数据,为模型提供训练集Label Studio
数据构造特征工程、数据增强、划分数据集sklearntorchvision

以上流程不仅涵盖了每个阶段的理论与实践,还为具体实现提供了代码示例,便于理解和应用!

相关文章:

数据工程流程

** 数据工程流程图** #mermaid-svg-ArT55xCISSfZImy3 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ArT55xCISSfZImy3 .error-icon{fill:#552222;}#mermaid-svg-ArT55xCISSfZImy3 .error-text{fill:#552222;stroke…...

Linux宝塔部署wordpress网站更换服务器IP后无法访问管理后台和打开网站页面显示错乱

一、背景&#xff1a; wordpress网站搬家&#xff0c;更换服务器IP后&#xff0c;如果没有域名时&#xff0c;使用服务器IP地址无法访问管理后台和打开网站页面显示错乱。 二、解决方法如下&#xff1a; 1.wordpress搬家后&#xff0c;在新服务器上&#xff0c;新建站点时&am…...

区块链知识体系

1. 区块链基础知识 Q: 什么是区块链&#xff1f; A: 区块链是一种去中心化的分布式账本技术&#xff0c;通过加密算法保证数据的不可篡改性和透明性。它由一系列按时间顺序链接的区块组成&#xff0c;每个区块包含一批交易记录。 Q: 区块链的主要特点是什么&#xff1f; 去…...

力扣第 66 题 “加一”

题目描述 给定一个由 非负整数组成的非空数组&#xff0c;表示一个整数。在该整数的基础上加一。 最高位数字在数组的首位&#xff0c;数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外&#xff0c;这个整数不会以零开头。 示例 1: 输入: digits [1,2,3] 输出:…...

C语言数据结构与算法--简单实现队列的入队和出队

&#xff08;一&#xff09;队列的基本概念 和栈相反&#xff0c;队列(Queue)是一种先进先出&#xff08;First In First Out&#xff09;的线性表。只 允许在表的一端进行插入&#xff0c;而在另一端删除元素&#xff0c;如日常生活中的排队现象。队列中 允许插入的一端叫队尾…...

代码美学:MATLAB制作渐变色

输入颜色个数n&#xff0c;颜色类型&#xff1a; n 2; % 输入颜色个数 colors {[1, 0, 0], [0, 0, 1]}; createGradientHeatmap(n, colors); 调用函数&#xff1a; function createGradientHeatmap(n, colors)% 输入检查if length(colors) ~ nerror(输入的颜色数量与n不一…...

排序算法之冒泡排序篇

冒泡排序的思想&#xff1a; 是一个把元素从小到大排的一个算法思想 相邻的两个元素两两比较&#xff0c;大的那一个元素向后移&#xff0c;小的那个元素向前移 核心逻辑&#xff1a; 比较所有相邻的两个项&#xff0c;如果第一个比第二个大&#xff0c;就交换它们 从头开始…...

WPF ItemsControl控件

ItemsControl 是 WPF 中一个非常灵活的控件&#xff0c;用于显示一组数据项。它是一个基类&#xff0c;许多其他控件&#xff08;如 ListBox, ListView, ComboBox 等&#xff09;都是从 ItemsControl 继承而来。ItemsControl 的主要特点是它可以自定义数据项的显示方式&#xf…...

CentOS 上安装各种应用的命令行总结

在 CentOS 上安装各种应用的命令行方法可以通过不同的软件包管理工具完成&#xff0c;最常用的是 yum&#xff08;CentOS 7及以前版本&#xff09;和 dnf&#xff08;CentOS 8及以上版本&#xff09;。以下是一些常见应用的安装命令总结。 目录 1. 基本的包管理命令 2. 安装…...

Java中的JSONObject详解

文章目录 Java中的JSONObject详解一、引言二、JSONObject的创建与基本操作1、创建JSONObject2、添加键值对3、获取值 三、JSONObject的高级特性1、遍历JSONObject2、从字符串创建JSONObject3、JSONObject与JSONArray的结合使用4、更新和删除键值对 四、错误处理1. 键值存在性检…...

音视频流媒体直播/点播系统EasyDSS互联网视频云平台介绍

随着互联网技术的飞速发展&#xff0c;音视频流媒体直播已成为现代社会信息传递与娱乐消费的重要组成部分。在这样的背景下&#xff0c;EasyDSS互联网视频云平台应运而生&#xff0c;它以高效、稳定、便捷的特性&#xff0c;为音视频流媒体直播领域带来了全新的解决方案。 1、产…...

shell编程3,参数传递+算术运算

声明&#xff01; 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec团队无关&#…...

自动泊车“哐哐撞大墙”,小米SU7智驾功能bug缠身?

文/王俣祺 导语&#xff1a;小米SU7&#xff0c;自带热度与科技光环的“流量神车”&#xff0c;近日却以一种极为“狼狈”的方式闯入大众视野。多达70余辆小米SU7陷入“泊车魔咒”&#xff0c;瞬间在网络上炸开了锅。从“科技控”到“惹祸精”的背后&#xff0c;究竟藏着怎样的…...

RAG 与 HyDE

传统 RAG 与 HyDE&#xff0c;直观解释&#xff01; 传统 RAG 系统的一个关键问题是问题在语义上与答案不相似。 考虑以下示例&#xff0c;您想要找到类似于“什么是 ML&#xff1f;”的句子。 “什么是 AI&#xff1f;” 可能看起来比“机器学习很有趣”更相似。 这种语义差…...

在WPF程序中实现PropertyGrid功能

使用C#开发过Windows Forms的都知道&#xff0c;在Windows Forms程序中&#xff0c;有一个PropertyGrid控件&#xff0c;可以用于显示对象的属性&#xff0c;在WPF中并没有默认提供此功能的控件&#xff0c;今天以一个简单的小例子&#xff0c;简述在WPF中借助WinForm的Propert…...

【R语言管理】Pycharm配置R语言及使用Anaconda管理R语言虚拟环境

目录 使用Anaconda创建R语言虚拟环境1. 安装Anaconda2. 创建R语言虚拟环境 Pycharm配置R语言1. 安装Pycharm2. R Language for IntelliJ插件 参考 使用Anaconda创建R语言虚拟环境 1. 安装Anaconda Anaconda的安装可参见另一博客-【Python环境管理工具】Anaconda安装及使用教程…...

.Net与C#

.NET 与 C# 的关系 .NET 是一个由微软开发的软件框架&#xff0c;它提供了一套用于开发、运行和部署应用程序的工具和库。C# 是一种面向对象的编程语言&#xff0c;它是专门为.NET平台设计的。以下是.NET与C#之间关系的详细说明&#xff1a; 目标平台&#xff1a;C# 是.NET平…...

使用ElementUI中的el-table制作可编辑的表格

在前端开发时&#xff0c;可能会需要用到可编辑的表格控件。一些原生的UI框架并不支持Table控件的可编辑功能&#xff0c;所以只能自己实现。 以下用Vue3Element-Plus进行示例开发。 一、实现可编辑的单元格 我想要实现的效果是&#xff0c;鼠标移动到el-table的某行时&…...

开放性技术的面试题该如何应对?

1. 上线出现问题如何解决&#xff1f; 步骤&#xff1a; 立即响应&#xff1a;迅速确认问题的存在和影响范围。回滚&#xff1a;如果问题严重影响用户&#xff0c;考虑立即回滚到上一个稳定版本。日志分析&#xff1a;查看服务器日志、应用日志和前端日志&#xff0c;定位问题…...

Leetcode 面试150题 88.合并两个有序数组 简单

系列博客目录 文章目录 系列博客目录88. 合并两个有序数组 简单示例 1:示例 2:示例 3:提示:问题: 88. 合并两个有序数组 简单 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2&#xff0c;另有两个整数 m 和 n&#xff0c;分别表示 nums1 和 nums2 中的元素数目。 请你…...

Spring Boot 实现流式响应(兼容 2.7.x)

在实际开发中&#xff0c;我们可能会遇到一些流式数据处理的场景&#xff0c;比如接收来自上游接口的 Server-Sent Events&#xff08;SSE&#xff09; 或 流式 JSON 内容&#xff0c;并将其原样中转给前端页面或客户端。这种情况下&#xff0c;传统的 RestTemplate 缓存机制会…...

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

屋顶变身“发电站” ,中天合创屋面分布式光伏发电项目顺利并网!

5月28日&#xff0c;中天合创屋面分布式光伏发电项目顺利并网发电&#xff0c;该项目位于内蒙古自治区鄂尔多斯市乌审旗&#xff0c;项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站&#xff0c;总装机容量为9.96MWp。 项目投运后&#xff0c;每年可节约标煤3670…...

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效&#xff0c;它能挖掘数据中的时序信息以及语义信息&#xff0c;但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN&#xff0c;但是…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界&#xff1a;MCP协议与服务器的工作原理 MCP&#xff08;Model Context Protocol&#xff09;是一种创新的通信协议&#xff0c;旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天&#xff0c;MCP正成为连接AI与现实世界的重要桥梁。…...

Java线上CPU飙高问题排查全指南

一、引言 在Java应用的线上运行环境中&#xff0c;CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时&#xff0c;通常会导致应用响应缓慢&#xff0c;甚至服务不可用&#xff0c;严重影响用户体验和业务运行。因此&#xff0c;掌握一套科学有效的CPU飙高问题排查方法&…...

Redis的发布订阅模式与专业的 MQ(如 Kafka, RabbitMQ)相比,优缺点是什么?适用于哪些场景?

Redis 的发布订阅&#xff08;Pub/Sub&#xff09;模式与专业的 MQ&#xff08;Message Queue&#xff09;如 Kafka、RabbitMQ 进行比较&#xff0c;核心的权衡点在于&#xff1a;简单与速度 vs. 可靠与功能。 下面我们详细展开对比。 Redis Pub/Sub 的核心特点 它是一个发后…...

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列&#xff1f;2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...

JVM 内存结构 详解

内存结构 运行时数据区&#xff1a; Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器&#xff1a; ​ 线程私有&#xff0c;程序控制流的指示器&#xff0c;分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 ​ 每个线程都有一个程序计数…...

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中&#xff0c;科研绘图是必不可少的&#xff0c;一张好看的图形会是文章很大的加分项。 为了便于使用&#xff0c;本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中&#xff0c;获取方式&#xff1a; R 语言科研绘图模板 --- sciRplothttps://mp.…...