AI数据分析:用DeepSeek做数据清洗
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。
数据清洗是数据分析的基础,其目的是确保数据的准确性、完整性和一致性。常见的数据问题包括:
-
缺失值:数据中的某些字段为空。
-
重复值:数据中存在重复记录。
-
异常值:数据中存在明显偏离正常范围的数值。
-
不一致性:数据格式或单位不统一。
如果不进行数据清洗,这些问题会导致分析结果偏差,甚至误导决策。
以下是一个使用 DeepSeek 清洗销售数据的实际案例。
假设我们有一个销售数据表
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
| 1001 | 101 | 商品A | 10 | 500 |
| 1002 | 102 | 商品B | 5 | 250 |
| 1003 | 103 | 商品C | 20 | 1000 |
| 1004 | 101 | 商品A | 15 | 750 |
| 1005 | 104 | 商品D | 100 | 5000 |
| 1006 | 105 | 商品E | 1 | 500 |
| 1007 | 102 | 商品B | 8 | 400 |
| 1008 | 103 | 商品C | 25 | 1250 |
| 1009 | 106 | 商品F | 0 | 0 |
| 1010 | 101 | 商品A | 12 | 600 |
| 1011 | 104 | 商品D | 30 | 1500 |
| 1012 | 105 | 商品E | 2 | 100 |
| 1013 | 107 | 商品G | 50 | 2500 |
| 1014 | 108 | 商品H | 200 | 10000 |
| 1015 | 102 | 商品B | 6 | 300 |
| 1016 | 103 | 商品C | 18 | 900 |
| 1017 | 109 | 商品I | 0 | 0 |
| 1018 | 101 | 商品A | 9 | 450 |
| 1019 | 104 | 商品D | 40 | 2000 |
| 1020 | 105 | 商品E | 3 | 150 |
| 1021 | 107 | 商品G | 60 | |
| 1022 | 108 | 商品H | 150 | 7500 |
| 1023 | 102 | 商品B | 7 | 350 |
| 1024 | 103 | 商品C | 22 | 1100 |
| 1025 | 109 | 商品I | 1 | 50 |
| 1026 | 101 | 商品A | 11 | 550 |
| 1027 | 104 | 商品D | 35 | 1750 |
| 1028 | 105 | 商品E | 4 | 200 |
| 1029 | 107 | 商品G | 55 | 2750 |
| 1029 | 107 | 商品G | 55 | 2750 |
| 1030 | 108 | 商品H | 180 | 9000 |
接下来我们用PromptIDE-提示词开发工具帮我们生成一个数据清洗的提示词。

生成的提示词如下:
# 角色:
数据分析与数据预处理专家## 背景:
用户在处理数据时遇到数据质量问题,需要对数据进行清洗以确保数据的准确性、完整性和一致性,从而为后续的数据分析或机器学习模型训练提供高质量的数据基础## 注意:
1、数据清洗是一个复杂且耗时的过程,但它是确保数据质量的关键步骤。
2、通过有效的数据清洗,可以显著提高数据分析的准确性和可靠性。## 技能:
1、熟悉数据清洗的常用技术和工具。
2、具备强大的数据处理和分析能力。
3、能够识别和处理数据中的异常值和缺失值。
4、能够设计和实施数据清洗流程。## 目标:
1、识别并处理数据中的异常值。
2、填补或删除数据中的缺失值。
3、标准化数据格式,确保数据一致性。
4、去除重复数据。
5、验证数据清洗后的质量。## 约束:
1、确保数据清洗过程不会引入新的错误。
2、遵守数据隐私和安全的相关规定。
3、在数据清洗过程中保持数据的原始结构和含义。## 输出:
1、清洗后的数据应以结构化表格形式输出。
2、数据清洗报告,包括详细记录清洗过程、问题发现及解决方法。
3、建议的进一步数据预处理步骤。## 工作流:
1、接收并分析用户提供的数据集和清洗规则。
2、识别数据中的异常值和缺失值。
3、根据清洗规则处理异常值和缺失值。
4、标准化数据格式,去除重复数据。
5、验证数据清洗后的质量,生成清洗报告。## 初始化:
Initialization: 在第一次对话中,请直接输出以下:欢迎使用数据清洗服务。请提供您需要清洗的数据文件,我将按照数据隐私和安全原则,为您进行高效、透明的数据清洗。您可以上传数据文件,告诉我您关注的数据质量问题,我将为您提供专业的解决方案。
接下来我们将这个提示词发给大模型看看效果。

数据清洗报告
1. 数据问题识别
通过初步分析,发现以下数据质量问题:
- 重复值:订单ID为
1029的记录出现重复。 - 缺失值:订单ID为
1021的记录中,销售额(元)缺失。 - 异常值:
销量为 0,但销售额(元)也为 0(订单ID:1009和1017),可能是无效记录。销量和销售额(元)的比例异常(例如:订单ID:1006,销量为 1,销售额为 500,可能存在输入错误)。
2. 数据清洗过程
2.1 删除重复值
删除订单ID为 1029 的重复记录。
2.2 填充缺失值
对于订单ID为 1021 的缺失值,根据商品G的平均单价进行填充:
- 商品G的销售额 = 销量 × 单价
- 计算商品G的平均单价:
(2500 + 2750) / (50 + 60) ≈ 48.18 - 订单ID
1021的销售额 =60 × 48.18 ≈ 2891元
填充后:
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
|---|---|---|---|---|
| 1021 | 107 | 商品G | 60 | 2891 |
2.3 标准化异常值处理
-
销量为 0 的记录:
- 删除订单ID为
1009和1017的记录,因为其销量和销售额均为 0,属于无效数据。
- 删除订单ID为
-
比例异常记录:
- 对于订单ID
1006(销量为 1,销售额为 500),根据商品E的平均单价分析:- 商品E的平均单价 =
(500 + 100 + 150 + 200) / (1 + 2 + 3 + 4) = 950 / 10 = 95元 - 修正订单ID
1006的销售额为1 × 95 = 95元。
- 商品E的平均单价 =
- 对于订单ID
修正后:
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
|---|---|---|---|---|
| 1006 | 105 | 商品E | 1 | 95 |
3. 数据清洗结果
清洗后的数据集如下:
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
|---|---|---|---|---|
| 1001 | 101 | 商品A | 10 | 500 |
| 1002 | 102 | 商品B | 5 | 250 |
| 1003 | 103 | 商品C | 20 | 1000 |
| 1004 | 101 | 商品A | 15 | 750 |
| 1005 | 104 | 商品D | 100 | 5000 |
| 1006 | 105 | 商品E | 1 | 95 |
| 1007 | 102 | 商品B | 8 | 400 |
| 1008 | 103 | 商品C | 25 | 1250 |
| 1010 | 101 | 商品A | 12 | 600 |
| 1011 | 104 | 商品D | 30 | 1500 |
| 1012 | 105 | 商品E | 2 | 100 |
| 1013 | 107 | 商品G | 50 | 2500 |
| 1014 | 108 | 商品H | 200 | 10000 |
| 1015 | 102 | 商品B | 6 | 300 |
| 1016 | 103 | 商品C | 18 | 900 |
| 1018 | 101 | 商品A | 9 | 450 |
| 1019 | 104 | 商品D | 40 | 2000 |
| 1020 | 105 | 商品E | 3 | 150 |
| 1021 | 107 | 商品G | 60 | 2891 |
| 1022 | 108 | 商品H | 150 | 7500 |
| 1023 | 102 | 商品B | 7 | 350 |
| 1024 | 103 | 商品C | 22 | 1100 |
| 1025 | 109 | 商品I | 1 | 50 |
| 1026 | 101 | 商品A | 11 | 550 |
| 1027 | 104 | 商品D | 35 | 1750 |
| 1028 | 105 | 商品E | 4 | 200 |
| 1029 | 107 | 商品G | 55 | 2750 |
| 1030 | 108 | 商品H | 180 | 9000 |
4. 下一步建议
- 数据验证:对清洗后的数据进行统计分析,确保数据分布合理,无异常值。
- 特征工程:如果需要构建机器学习模型,建议进一步对数据进行特征提取和标准化。
- 数据监控:建议建立数据质量监控机制,定期检查数据中的异常情况。
总之,我们借助PromptIDE+deepseek就可以轻松帮我们完成数据清洗了。
相关文章:
AI数据分析:用DeepSeek做数据清洗
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。 数据清洗是数据分析的基础,其目的是…...
把GB型材库放入solidwork中点击库无法应
1、文件夹的位置要选择对,如下图: 2、文件夹一定要嵌套三层,如下图...
【前端】XML,XPATH,与HTML的关系
XML与HTML关系 XML(可扩展标记语言)和 HTML(超文本标记语言)是两种常见的标记语言,但它们有不同的目的和用途。它们都使用类似的标记结构(标签),但在设计上存在一些关键的差异。 XML…...
IP-----动态路由OSPF(2)
这只是IP的其中一块内容,IP还有更多内容可以查看IP专栏,前一章内容为动态路由OSPF ,可通过以下路径查看IP-----动态路由OSPF-CSDN博客,欢迎指正 注意!!!本部分内容较多所以分成了两部分在上一章 5.动态路…...
《HelloGitHub》第 107 期
兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…...
leetcode_字典树 139. 单词拆分
139. 单词拆分 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。如果可以利用字典中出现的一个或多个单词拼接出 s 则返回 true。 注意:不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。 思路: 定义状态: 设dp[i]表…...
计算机毕业设计Python+DeepSeek-R1大模型游戏推荐系统 Steam游戏推荐系统 游戏可视化 游戏数据分析(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
网络流算法: Dinic算法
图论相关帖子 基本概念图的表示: 邻接矩阵和邻接表图的遍历: 深度优先与广度优先拓扑排序图的最短路径:Dijkstra算法和Bellman-Ford算法最小生成树二分图多源最短路径强连通分量欧拉回路和汉密尔顿回路网络流算法: Edmonds-Karp算法网络流算法: Dinic算法 环境要求 本文所用…...
【Springboot】解决问题 o.s.web.servlet.PageNotFound : No mapping for *
使用 cursor 进行老项目更新为 springboot 的 web 项目,发生了奇怪的问题,就是 html 文件访问正常,但是静态文件就是 404 检查了各种配置,各种比较,各种调试,最后放弃时候,清理没用的配置文件&…...
Spring Boot 3.x 基于 Redis 实现邮箱验证码认证
文章目录 依赖配置开启 QQ 邮箱 SMTP 服务配置文件代码实现验证码服务邮件服务接口实现执行流程 依赖配置 <dependencies> <!-- Spring Boot Starter Web --> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spr…...
PostgreSQL10 物理流复制实战:构建高可用数据库架构!
背景 PostgreSQL 10 在高可用架构中提供了物理复制,也称为流复制(Streaming Replication),用于实现实例级别的数据同步。PostgreSQL 复制机制主要包括物理复制和逻辑复制:物理复制依赖 WAL 日志进行物理块级别的同步&…...
从零开始开发纯血鸿蒙应用之语音朗读
从零开始开发纯血鸿蒙应用 〇、前言一、API 选型1、基本情况2、认识TextToSpeechEngine 二、功能集成实践1、改造右上角菜单2、实现语音播报功能2.1、语音引擎的获取和关闭2.2、设置待播报文本2.3、speak 目标文本2.4、设置语音回调 三、总结 〇、前言 中华汉字洋洋洒洒何其多…...
RabbitMQ系列(五)基本概念之Queue
在 RabbitMQ 中,Queue(队列) 是存储消息的容器,也是消息传递的核心载体。以下是其核心特性与作用的全方位解析: 一、Queue 的定义与核心作用 消息存储容器 Queue 是 RabbitMQ 中实际存储消息的实体,生产者…...
奔图Pantum M7165DN黑白激光打印一体机报数据清除中…维修
故障描述: 一台奔图Pantum M7165DN黑白激光打印一体机开机自检正常,自检过后就不能工作了,按键面板无任何反应一直提示数据清除中…,如果快速操作的话也能按出菜单、功能啥的,不过一会又死机了,故障请看下图: 故障检修: 经分析可能是主板数据出现了问题,看看能不能快速…...
TP-LINK路由器如何设置网段、网关和DHCP服务
目标 ①将路由器的网段由192.168.1.XXX改为192.168.5.XXX ②确认DHCP是启用的,并将DHCP的IP池的范围设置为排除自己要手动指定的IP地址,避免IP冲突。 01-复位路由器 路由器按住复位键10秒以上进行重置操作 02-进入路由器管理界面 电脑连接到路由器&…...
神经网络代码入门解析
神经网络代码入门解析 import torch import matplotlib.pyplot as pltimport randomdef create_data(w, b, data_num): # 数据生成x torch.normal(0, 1, (data_num, len(w)))y torch.matmul(x, w) b # 矩阵相乘再加bnoise torch.normal(0, 0.01, y.shape) # 为y添加噪声…...
设计一个“车速计算”SWC,通过Sender-Receiver端口输出车速信号。
1. 需求分析 功能目标:根据车轮脉冲信号(轮速传感器输入)计算当前车速,并将结果通过Sender端口发送给其他SWC。 输入:轮速脉冲数(如WheelPulse,类型uint32)。 输出:车速(如VehicleSpeed,类型float32,单位km/h)。 触发方式:周期性计算(例如每10ms执行一次)。 2.…...
TCP/IP 5层协议簇:网络层(IP数据包的格式、路由器原理)
目录 1. TCP/IP 5层协议簇 2. IP 三层包头协议 3. 路由器原理 4. 交换机和路由的对比 1. TCP/IP 5层协议簇 如下: 2. IP 三层包头协议 数据包如下:IP包头不是固定的,每一个数字是一个bit 其中数据部分是上层的内容,IP包头最…...
1JVM概念
JVM(Java虚拟机)详解 1. 基本概念与作用 JVM(Java Virtual Machine)是Java程序的运行环境,负责将编译后的字节码(.class文件)解释或编译为机器指令执行,并管理内存、线程、安全…...
echarts柱状图不是完全铺满容器,左右两边有空白
目录 处理前:echarts柱状图不是完全铺满容器,左右两边有空白处理前:通过调整 grid 组件配置处理后效果修改代码:1. 调整 grid 组件配置原理解决办法 2. 处理 xAxis 的 boundaryGap 属性原理解决办法 3. 调整 barMaxWidth 和 barMi…...
ArcGIS Pro技巧实战:高效矢量化天地图地表覆盖图
在地理信息系统(GIS)领域,地表覆盖图的矢量化是一项至关重要的任务。天地图作为中国国家级的地理信息服务平台,提供了丰富且详尽的地表覆盖数据。然而,这些数据通常以栅格格式存在,不利于进行空间分析和数据…...
西门子S7-1200比较指令
西门子S7-1200 PLC比较指令学习笔记 一、比较指令的作用 核心功能:用于比较两个数值的大小或相等性,结果为布尔值(True/False)。典型应用: 触发条件控制(如温度超过阈值启动报警)数据筛选&…...
【AD】3-6 层次原理图
自上而下 1.放置-页面符号,并设置属性 2.放置-端口 可通过如下设置将自动生成关掉 3.放置-添加图纸入口,并创建图纸 自下而上 1.子图的原理图页设计 设计资原理图,复制网络标签,智能粘贴未PORT 2.新建主图原理图 创建框…...
精品整理-2025 DeepSeek核心技术解析与实践资料合集(24份)
2025 DeepSeek核心技术解析与实践资料合集,共24份。 2025 DeepSeek 火爆背后的核心技术:知识蒸馏技术.pdf 2025 DeepSeek-R1详细解读:DeepSeek-R1-Zero和DeepSeek-R1分析.pdf 2025 DeepSeek-V3三个关键模块详细解读:MLAMoEMTP.pd…...
【三维分割】LangSplat: 3D Language Gaussian Splatting(CVPR 2024 highlight)
论文:https://arxiv.org/pdf/2312.16084 代码:https://github.com/minghanqin/LangSplat 文章目录 一、3D language field二、回顾 Language Fields的挑战三、使用SAM学习层次结构语义四、Language Fields 的 3DGS五、开放词汇查询(Open-voca…...
如何使用 Jenkins 实现 CI/CD 流水线:从零开始搭建自动化部署流程
如何使用 Jenkins 实现 CI/CD 流水线:从零开始搭建自动化部署流程 在软件开发过程中,持续集成(CI)和持续交付(CD)已经成为现代开发和运维的标准实践。随着代码的迭代越来越频繁,传统的手动部署方式不仅低效,而且容易出错。为了提高开发效率和代码质量,Jenkins作为一款…...
【HarmonyOS Next】鸿蒙应用折叠屏设备适配方案
【HarmonyOS Next】鸿蒙应用折叠屏设备适配方案 一、前言 目前应用上架华为AGC平台,都会被要求适配折叠屏设备。目前华为系列的折叠屏手机,有华为 Mate系列(左右折叠,华为 Mate XT三折叠),华为Pocket 系列…...
Spark内存迭代计算
一、宽窄依赖 窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区 宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle 二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用? &a…...
数据库基础二(数据库安装配置)
打开MySQL官网进行安装包的下载 https://www.mysql.com/ 接着找到适用于windows的版本 下载版本 直接点击下载即可 接下来对应的内容分别是: 1:安装所有 MySQL 数据库需要的产品; 2:仅使用 MySQL 数据库的服务器; 3&a…...
HumanPro逼真角色皮肤面部动画Blender插件V1.1版
https://www.youtube.com/watch?vnmV_jzgpIPM 本插件是关于HumanPro逼真角色皮肤面部动画Blender插件V1.1版,大小:2.9 MB,支持Blender 4.0 - 4.3版软件,支持Win系统,语言:英语。RRCG分享 HumanPro 是一款…...
