数据工程流程
** 数据工程流程图**
各步骤详解与具体实现
1. 数据采集
数据采集是获取数据的第一步。以下是常见的采集方式及其实现示例:
具体实现:
-
通过 API 采集数据:
- 示例:从公开 API 获取天气数据。
import requestsapi_url = "http://api.weatherapi.com/v1/current.json" params = {"key": "your_api_key","q": "London" } response = requests.get(api_url, params=params) if response.status_code == 200:data = response.json()print(data) else:print("Failed to fetch data") -
爬取网页数据:
- 示例:使用
BeautifulSoup抓取新闻标题。
import requests from bs4 import BeautifulSoupurl = "https://news.ycombinator.com/" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser')titles = [title.get_text() for title in soup.find_all('a', class_='storylink')] print(titles) - 示例:使用
注意事项:
- 确保数据来源合法,遵守隐私和数据采集政策。
- 针对大规模数据采集,考虑使用并发工具如
aiohttp或scrapy。
2. 数据清洗
数据清洗是数据工程中的关键环节,用于提升数据质量,便于后续分析。
具体实现:
-
去重与填充缺失值:
import pandas as pddata = pd.DataFrame({'Name': ['Alice', 'Bob', 'Alice', None],'Age': [25, 30, 25, 29],'Score': [90, None, 90, 85] })# 去除重复值 data = data.drop_duplicates()# 填充缺失值 data['Score'] = data['Score'].fillna(data['Score'].mean()) data['Name'] = data['Name'].fillna("Unknown")print(data) -
格式转换与异常值处理:
# 转换日期格式 data['Date'] = pd.to_datetime(data['Date'], errors='coerce')# 检测异常值 z_scores = (data['Score'] - data['Score'].mean()) / data['Score'].std() data = data[z_scores.abs() < 3] # 去除 Z-score 超过 3 的异常值
注意事项:
- 缺失值的填充策略应根据业务需求选择(如均值、插值、特定值填充)。
- 异常值检测可以使用统计方法(如箱型图或 Z-score)。
3. 数据分析
数据分析包括探索性数据分析(EDA)和统计建模,目的是挖掘数据特征,为决策提供依据。
具体实现:
-
生成数据统计报告:
import pandas as pddata = pd.read_csv('data.csv') print(data.describe()) # 生成统计摘要 -
可视化分析:
- 示例:使用
Seaborn绘制数据分布图。
import seaborn as sns import matplotlib.pyplot as pltsns.histplot(data['Score'], bins=30, kde=True) plt.show() - 示例:使用
-
相关性分析:
correlation = data.corr() sns.heatmap(correlation, annot=True) plt.show()
注意事项:
- 分析应紧密围绕业务目标,避免冗余或无关分析。
- 数据可视化可以提高结果的直观性。
4. 人工标注
人工标注用于生成有监督学习所需的数据集。高质量标注是构建模型的重要基础。
具体实现:
-
使用 Label Studio 配置标注任务:
- 安装与启动:
pip install label-studio label-studio start
- 安装与启动:
-
示例:文本分类标注:
- 在 Label Studio 中上传数据集,设置分类任务(如情感分类)。
注意事项:
- 确保标注人员对任务有清晰的理解,提供标注标准。
- 对复杂任务,建议进行多轮校对以提高标注一致性。
5. 数据构造
数据构造包括特征工程、数据增强和数据集划分。
具体实现:
-
数据划分:
from sklearn.model_selection import train_test_splittrain, test = train_test_split(data, test_size=0.2, random_state=42) print("训练集大小:", len(train)) print("测试集大小:", len(test)) -
数据增强:
- 示例:图像翻转与旋转。
from torchvision import transformstransform = transforms.Compose([transforms.RandomHorizontalFlip(),transforms.RandomRotation(10) ]) augmented_image = transform(image) -
特征工程:
- 示例:提取日期特征。
data['Year'] = data['Date'].dt.year data['Month'] = data['Date'].dt.month
注意事项:
- 数据增强适用于深度学习任务,需避免引入噪声。
- 特征构造应基于业务逻辑,确保对模型有正向贡献。
流程关键点总结
| 步骤 | 核心任务 | 工具与技术 |
|---|---|---|
| 数据采集 | 从数据源获取原始数据 | requests、Scrapy |
| 数据清洗 | 提高数据质量,处理缺失与异常值 | Pandas、Numpy |
| 数据分析 | 挖掘数据特征,生成统计与可视化 | Seaborn、Matplotlib |
| 人工标注 | 标注数据,为模型提供训练集 | Label Studio |
| 数据构造 | 特征工程、数据增强、划分数据集 | sklearn、torchvision |
以上流程不仅涵盖了每个阶段的理论与实践,还为具体实现提供了代码示例,便于理解和应用!
相关文章:
数据工程流程
** 数据工程流程图** #mermaid-svg-ArT55xCISSfZImy3 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ArT55xCISSfZImy3 .error-icon{fill:#552222;}#mermaid-svg-ArT55xCISSfZImy3 .error-text{fill:#552222;stroke…...
Linux宝塔部署wordpress网站更换服务器IP后无法访问管理后台和打开网站页面显示错乱
一、背景: wordpress网站搬家,更换服务器IP后,如果没有域名时,使用服务器IP地址无法访问管理后台和打开网站页面显示错乱。 二、解决方法如下: 1.wordpress搬家后,在新服务器上,新建站点时&am…...
区块链知识体系
1. 区块链基础知识 Q: 什么是区块链? A: 区块链是一种去中心化的分布式账本技术,通过加密算法保证数据的不可篡改性和透明性。它由一系列按时间顺序链接的区块组成,每个区块包含一批交易记录。 Q: 区块链的主要特点是什么? 去…...
力扣第 66 题 “加一”
题目描述 给定一个由 非负整数组成的非空数组,表示一个整数。在该整数的基础上加一。 最高位数字在数组的首位,数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外,这个整数不会以零开头。 示例 1: 输入: digits [1,2,3] 输出:…...
C语言数据结构与算法--简单实现队列的入队和出队
(一)队列的基本概念 和栈相反,队列(Queue)是一种先进先出(First In First Out)的线性表。只 允许在表的一端进行插入,而在另一端删除元素,如日常生活中的排队现象。队列中 允许插入的一端叫队尾…...
代码美学:MATLAB制作渐变色
输入颜色个数n,颜色类型: n 2; % 输入颜色个数 colors {[1, 0, 0], [0, 0, 1]}; createGradientHeatmap(n, colors); 调用函数: function createGradientHeatmap(n, colors)% 输入检查if length(colors) ~ nerror(输入的颜色数量与n不一…...
排序算法之冒泡排序篇
冒泡排序的思想: 是一个把元素从小到大排的一个算法思想 相邻的两个元素两两比较,大的那一个元素向后移,小的那个元素向前移 核心逻辑: 比较所有相邻的两个项,如果第一个比第二个大,就交换它们 从头开始…...
WPF ItemsControl控件
ItemsControl 是 WPF 中一个非常灵活的控件,用于显示一组数据项。它是一个基类,许多其他控件(如 ListBox, ListView, ComboBox 等)都是从 ItemsControl 继承而来。ItemsControl 的主要特点是它可以自定义数据项的显示方式…...
CentOS 上安装各种应用的命令行总结
在 CentOS 上安装各种应用的命令行方法可以通过不同的软件包管理工具完成,最常用的是 yum(CentOS 7及以前版本)和 dnf(CentOS 8及以上版本)。以下是一些常见应用的安装命令总结。 目录 1. 基本的包管理命令 2. 安装…...
Java中的JSONObject详解
文章目录 Java中的JSONObject详解一、引言二、JSONObject的创建与基本操作1、创建JSONObject2、添加键值对3、获取值 三、JSONObject的高级特性1、遍历JSONObject2、从字符串创建JSONObject3、JSONObject与JSONArray的结合使用4、更新和删除键值对 四、错误处理1. 键值存在性检…...
音视频流媒体直播/点播系统EasyDSS互联网视频云平台介绍
随着互联网技术的飞速发展,音视频流媒体直播已成为现代社会信息传递与娱乐消费的重要组成部分。在这样的背景下,EasyDSS互联网视频云平台应运而生,它以高效、稳定、便捷的特性,为音视频流媒体直播领域带来了全新的解决方案。 1、产…...
shell编程3,参数传递+算术运算
声明! 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&#…...
自动泊车“哐哐撞大墙”,小米SU7智驾功能bug缠身?
文/王俣祺 导语:小米SU7,自带热度与科技光环的“流量神车”,近日却以一种极为“狼狈”的方式闯入大众视野。多达70余辆小米SU7陷入“泊车魔咒”,瞬间在网络上炸开了锅。从“科技控”到“惹祸精”的背后,究竟藏着怎样的…...
RAG 与 HyDE
传统 RAG 与 HyDE,直观解释! 传统 RAG 系统的一个关键问题是问题在语义上与答案不相似。 考虑以下示例,您想要找到类似于“什么是 ML?”的句子。 “什么是 AI?” 可能看起来比“机器学习很有趣”更相似。 这种语义差…...
在WPF程序中实现PropertyGrid功能
使用C#开发过Windows Forms的都知道,在Windows Forms程序中,有一个PropertyGrid控件,可以用于显示对象的属性,在WPF中并没有默认提供此功能的控件,今天以一个简单的小例子,简述在WPF中借助WinForm的Propert…...
【R语言管理】Pycharm配置R语言及使用Anaconda管理R语言虚拟环境
目录 使用Anaconda创建R语言虚拟环境1. 安装Anaconda2. 创建R语言虚拟环境 Pycharm配置R语言1. 安装Pycharm2. R Language for IntelliJ插件 参考 使用Anaconda创建R语言虚拟环境 1. 安装Anaconda Anaconda的安装可参见另一博客-【Python环境管理工具】Anaconda安装及使用教程…...
.Net与C#
.NET 与 C# 的关系 .NET 是一个由微软开发的软件框架,它提供了一套用于开发、运行和部署应用程序的工具和库。C# 是一种面向对象的编程语言,它是专门为.NET平台设计的。以下是.NET与C#之间关系的详细说明: 目标平台:C# 是.NET平…...
使用ElementUI中的el-table制作可编辑的表格
在前端开发时,可能会需要用到可编辑的表格控件。一些原生的UI框架并不支持Table控件的可编辑功能,所以只能自己实现。 以下用Vue3Element-Plus进行示例开发。 一、实现可编辑的单元格 我想要实现的效果是,鼠标移动到el-table的某行时&…...
开放性技术的面试题该如何应对?
1. 上线出现问题如何解决? 步骤: 立即响应:迅速确认问题的存在和影响范围。回滚:如果问题严重影响用户,考虑立即回滚到上一个稳定版本。日志分析:查看服务器日志、应用日志和前端日志,定位问题…...
Leetcode 面试150题 88.合并两个有序数组 简单
系列博客目录 文章目录 系列博客目录88. 合并两个有序数组 简单示例 1:示例 2:示例 3:提示:问题: 88. 合并两个有序数组 简单 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2,另有两个整数 m 和 n,分别表示 nums1 和 nums2 中的元素数目。 请你…...
Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
MPNet:旋转机械轻量化故障诊断模型详解python代码复现
目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...
Spring Boot 实现流式响应(兼容 2.7.x)
在实际开发中,我们可能会遇到一些流式数据处理的场景,比如接收来自上游接口的 Server-Sent Events(SSE) 或 流式 JSON 内容,并将其原样中转给前端页面或客户端。这种情况下,传统的 RestTemplate 缓存机制会…...
可靠性+灵活性:电力载波技术在楼宇自控中的核心价值
可靠性灵活性:电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中,电力载波技术(PLC)凭借其独特的优势,正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据,无需额外布…...
django filter 统计数量 按属性去重
在Django中,如果你想要根据某个属性对查询集进行去重并统计数量,你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求: 方法1:使用annotate()和Count 假设你有一个模型Item,并且你想…...
测试markdown--肇兴
day1: 1、去程:7:04 --11:32高铁 高铁右转上售票大厅2楼,穿过候车厅下一楼,上大巴车 ¥10/人 **2、到达:**12点多到达寨子,买门票,美团/抖音:¥78人 3、中饭&a…...
如何将联系人从 iPhone 转移到 Android
从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...
React---day11
14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store: 我们在使用异步的时候理应是要使用中间件的,但是configureStore 已经自动集成了 redux-thunk,注意action里面要返回函数 import { configureS…...
视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)
前言: 最近在做行为检测相关的模型,用的是时空图卷积网络(STGCN),但原有kinetic-400数据集数据质量较低,需要进行细粒度的标注,同时粗略搜了下已有开源工具基本都集中于图像分割这块,…...
