AI数据分析:用DeepSeek做数据清洗
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。
数据清洗是数据分析的基础,其目的是确保数据的准确性、完整性和一致性。常见的数据问题包括:
-
缺失值:数据中的某些字段为空。
-
重复值:数据中存在重复记录。
-
异常值:数据中存在明显偏离正常范围的数值。
-
不一致性:数据格式或单位不统一。
如果不进行数据清洗,这些问题会导致分析结果偏差,甚至误导决策。
以下是一个使用 DeepSeek 清洗销售数据的实际案例。
假设我们有一个销售数据表
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
| 1001 | 101 | 商品A | 10 | 500 |
| 1002 | 102 | 商品B | 5 | 250 |
| 1003 | 103 | 商品C | 20 | 1000 |
| 1004 | 101 | 商品A | 15 | 750 |
| 1005 | 104 | 商品D | 100 | 5000 |
| 1006 | 105 | 商品E | 1 | 500 |
| 1007 | 102 | 商品B | 8 | 400 |
| 1008 | 103 | 商品C | 25 | 1250 |
| 1009 | 106 | 商品F | 0 | 0 |
| 1010 | 101 | 商品A | 12 | 600 |
| 1011 | 104 | 商品D | 30 | 1500 |
| 1012 | 105 | 商品E | 2 | 100 |
| 1013 | 107 | 商品G | 50 | 2500 |
| 1014 | 108 | 商品H | 200 | 10000 |
| 1015 | 102 | 商品B | 6 | 300 |
| 1016 | 103 | 商品C | 18 | 900 |
| 1017 | 109 | 商品I | 0 | 0 |
| 1018 | 101 | 商品A | 9 | 450 |
| 1019 | 104 | 商品D | 40 | 2000 |
| 1020 | 105 | 商品E | 3 | 150 |
| 1021 | 107 | 商品G | 60 | |
| 1022 | 108 | 商品H | 150 | 7500 |
| 1023 | 102 | 商品B | 7 | 350 |
| 1024 | 103 | 商品C | 22 | 1100 |
| 1025 | 109 | 商品I | 1 | 50 |
| 1026 | 101 | 商品A | 11 | 550 |
| 1027 | 104 | 商品D | 35 | 1750 |
| 1028 | 105 | 商品E | 4 | 200 |
| 1029 | 107 | 商品G | 55 | 2750 |
| 1029 | 107 | 商品G | 55 | 2750 |
| 1030 | 108 | 商品H | 180 | 9000 |
接下来我们用PromptIDE-提示词开发工具帮我们生成一个数据清洗的提示词。

生成的提示词如下:
# 角色:
数据分析与数据预处理专家## 背景:
用户在处理数据时遇到数据质量问题,需要对数据进行清洗以确保数据的准确性、完整性和一致性,从而为后续的数据分析或机器学习模型训练提供高质量的数据基础## 注意:
1、数据清洗是一个复杂且耗时的过程,但它是确保数据质量的关键步骤。
2、通过有效的数据清洗,可以显著提高数据分析的准确性和可靠性。## 技能:
1、熟悉数据清洗的常用技术和工具。
2、具备强大的数据处理和分析能力。
3、能够识别和处理数据中的异常值和缺失值。
4、能够设计和实施数据清洗流程。## 目标:
1、识别并处理数据中的异常值。
2、填补或删除数据中的缺失值。
3、标准化数据格式,确保数据一致性。
4、去除重复数据。
5、验证数据清洗后的质量。## 约束:
1、确保数据清洗过程不会引入新的错误。
2、遵守数据隐私和安全的相关规定。
3、在数据清洗过程中保持数据的原始结构和含义。## 输出:
1、清洗后的数据应以结构化表格形式输出。
2、数据清洗报告,包括详细记录清洗过程、问题发现及解决方法。
3、建议的进一步数据预处理步骤。## 工作流:
1、接收并分析用户提供的数据集和清洗规则。
2、识别数据中的异常值和缺失值。
3、根据清洗规则处理异常值和缺失值。
4、标准化数据格式,去除重复数据。
5、验证数据清洗后的质量,生成清洗报告。## 初始化:
Initialization: 在第一次对话中,请直接输出以下:欢迎使用数据清洗服务。请提供您需要清洗的数据文件,我将按照数据隐私和安全原则,为您进行高效、透明的数据清洗。您可以上传数据文件,告诉我您关注的数据质量问题,我将为您提供专业的解决方案。
接下来我们将这个提示词发给大模型看看效果。

数据清洗报告
1. 数据问题识别
通过初步分析,发现以下数据质量问题:
- 重复值:订单ID为
1029的记录出现重复。 - 缺失值:订单ID为
1021的记录中,销售额(元)缺失。 - 异常值:
销量为 0,但销售额(元)也为 0(订单ID:1009和1017),可能是无效记录。销量和销售额(元)的比例异常(例如:订单ID:1006,销量为 1,销售额为 500,可能存在输入错误)。
2. 数据清洗过程
2.1 删除重复值
删除订单ID为 1029 的重复记录。
2.2 填充缺失值
对于订单ID为 1021 的缺失值,根据商品G的平均单价进行填充:
- 商品G的销售额 = 销量 × 单价
- 计算商品G的平均单价:
(2500 + 2750) / (50 + 60) ≈ 48.18 - 订单ID
1021的销售额 =60 × 48.18 ≈ 2891元
填充后:
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
|---|---|---|---|---|
| 1021 | 107 | 商品G | 60 | 2891 |
2.3 标准化异常值处理
-
销量为 0 的记录:
- 删除订单ID为
1009和1017的记录,因为其销量和销售额均为 0,属于无效数据。
- 删除订单ID为
-
比例异常记录:
- 对于订单ID
1006(销量为 1,销售额为 500),根据商品E的平均单价分析:- 商品E的平均单价 =
(500 + 100 + 150 + 200) / (1 + 2 + 3 + 4) = 950 / 10 = 95元 - 修正订单ID
1006的销售额为1 × 95 = 95元。
- 商品E的平均单价 =
- 对于订单ID
修正后:
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
|---|---|---|---|---|
| 1006 | 105 | 商品E | 1 | 95 |
3. 数据清洗结果
清洗后的数据集如下:
| 订单ID | 商品ID | 商品名 | 销量 | 销售额(元) |
|---|---|---|---|---|
| 1001 | 101 | 商品A | 10 | 500 |
| 1002 | 102 | 商品B | 5 | 250 |
| 1003 | 103 | 商品C | 20 | 1000 |
| 1004 | 101 | 商品A | 15 | 750 |
| 1005 | 104 | 商品D | 100 | 5000 |
| 1006 | 105 | 商品E | 1 | 95 |
| 1007 | 102 | 商品B | 8 | 400 |
| 1008 | 103 | 商品C | 25 | 1250 |
| 1010 | 101 | 商品A | 12 | 600 |
| 1011 | 104 | 商品D | 30 | 1500 |
| 1012 | 105 | 商品E | 2 | 100 |
| 1013 | 107 | 商品G | 50 | 2500 |
| 1014 | 108 | 商品H | 200 | 10000 |
| 1015 | 102 | 商品B | 6 | 300 |
| 1016 | 103 | 商品C | 18 | 900 |
| 1018 | 101 | 商品A | 9 | 450 |
| 1019 | 104 | 商品D | 40 | 2000 |
| 1020 | 105 | 商品E | 3 | 150 |
| 1021 | 107 | 商品G | 60 | 2891 |
| 1022 | 108 | 商品H | 150 | 7500 |
| 1023 | 102 | 商品B | 7 | 350 |
| 1024 | 103 | 商品C | 22 | 1100 |
| 1025 | 109 | 商品I | 1 | 50 |
| 1026 | 101 | 商品A | 11 | 550 |
| 1027 | 104 | 商品D | 35 | 1750 |
| 1028 | 105 | 商品E | 4 | 200 |
| 1029 | 107 | 商品G | 55 | 2750 |
| 1030 | 108 | 商品H | 180 | 9000 |
4. 下一步建议
- 数据验证:对清洗后的数据进行统计分析,确保数据分布合理,无异常值。
- 特征工程:如果需要构建机器学习模型,建议进一步对数据进行特征提取和标准化。
- 数据监控:建议建立数据质量监控机制,定期检查数据中的异常情况。
总之,我们借助PromptIDE+deepseek就可以轻松帮我们完成数据清洗了。
相关文章:
AI数据分析:用DeepSeek做数据清洗
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。 数据清洗是数据分析的基础,其目的是…...
免费轻巧多功能 PDF 处理工具:转换、压缩、提取一应俱全
软件技术 今天要给大家分享一款超实用的 PDF 处理工具,它免费又轻巧,如同随时待命的得力小帮手,功能之强大超乎想象,真的值得大家收藏。 这款工具是绿色版软件,解压后开启,满满的 PDF 处理功能便映入眼帘…...
基于JavaWeb开发的Java+SpringBoot+vue+element实现物流管理系统
基于JavaWeb开发的JavaSpringBootvueelement实现物流管理系统 🍅 作者主页 网顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承接各种定…...
计算机毕业设计SpringBoot+Vue.js华强北商城二手手机管理系统 (源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
实验:k8s+keepalived+nginx+iptables
1、创建两个nginx的pod,app都是nginx nginx1 nginx2 2、创建两个的pod的service 3、配置两台keepalived的调度器和nginx七层反向代理,VIP设置192.168.254.110 keepalived调度器master keepalived调度器backup 两台调度器都配置nginx七层反向代理&#…...
DeepSeek入门学习
参考文档:DeepSeek(人工智能企业)_百度百科 DeepSeek-R1 凭借创新的强化学习技术实现重大突破。在极少量标注数据的基础上,通过深度优化的后训练阶段,显著提升了模型的推理能力。在数学运算、代码生成、自然语言推理等…...
几道考研数学题求解
函数性质问题 【题目】 已知函数 f ( x , y ) x 3 y 3 − ( x y ) 2 3 f(x, y) x^3 y^3 - (xy)^2 3 f(x,y)x3y3−(xy)23。设 T T T 为曲面 z f ( x , y ) z f(x, y) zf(x,y) 在点 ( 1 , 1 , 1 ) (1,1,1) (1,1,1) 处的切平面, D D D 为 T T T 与坐标…...
Highcharts 配置语法详解
Highcharts 配置语法详解 引言 Highcharts 是一个功能强大的图表库,广泛应用于数据可视化领域。本文将详细介绍 Highcharts 的配置语法,帮助您快速上手并制作出精美、实用的图表。 高级配置结构 Highcharts 的配置对象通常包含以下几部分:…...
OpenEuler学习笔记(三十五):搭建代码托管服务器
以下是主流的代码托管软件分类及推荐,涵盖自托管和云端方案,您可根据团队规模、功能需求及资源情况选择: 一、自托管代码托管平台(可私有部署) 1. GitLab 简介: 功能全面的 DevOps 平台,支持代码托管、C…...
Python的pdf2image库将PDF文件转换为PNG图片
您可以使用Python的pdf2image库将PDF文件转换为PNG图片。以下是一个完整的示例,包含安装步骤、代码示例和注意事项。 安装依赖库 首先,您需要安装pdf2image库: pip install pdf2imagepdf2image依赖于poppler库来解析PDF文件。 Windows系统…...
算法-二叉树篇26-将有序数组转换为二叉搜索树
将有序数组转换为二叉搜索树 力扣题目链接 题目描述 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 平衡 二叉搜索树。 解题思路 很简单的遇到递归题目,对数组取半,然后构建中间节点作为该数组对应的…...
使用Python SciPy库来计算矩阵的RCS特征值并生成极坐标图
在Python中,计算矩阵的RCS(Rayleigh商迭代法)特征值通常涉及使用数值线性代数库,如NumPy或SciPy。RCS(Rayleigh商迭代法)是一种用于计算矩阵特征值和特征向量的迭代方法。 以下是一个简单的示例࿰…...
车载以太网-基于linux的ICMP协议
对于车载以太网-ICMP的技术要求: /** ICMP报文格式解析* -----------------* ICMP协议用于网络诊断和错误报告,常见应用包括Ping测试。* ICMP报文结构包括:IP头部、ICMP头部和ICMP数据部分。* 下面详细介绍每个部分的结构、字段的作用以及如何解析它们。* * ICMP头部结构:*…...
WP 高级摘要插件:助力 WordPress 文章摘要精准自定义显示
wordpress插件介绍 “WP高级摘要插件”功能丰富,它允许用户在WordPress后台自定义文章摘要。 可设置摘要长度,灵活调整展示字数;设定摘要最后的显示字符, 如常用的省略号等以提示内容未完整展示;指定允许在摘要中显示…...
【嵌入式】MCU开发基础知识速通
一、MCU开发常用编程语言及语法要求 MCU(微控制器单元)开发常用的编程语言包括C语言、C、汇编语言和Python,每种语言都有其适用场景和优势。 C语言:C语言因其接近硬件特性和高效执行效率而广泛应用于MCU开发。它具有丰富的内置函…...
Yocto + 树莓派摄像头驱动完整指南
—— 从驱动配置、Yocto 构建,到 OpenCV 实战 在树莓派上运行摄像头,在官方的 Raspberry Pi OS 可能很简单,但在 Yocto 项目中,需要手动配置驱动、设备树、软件依赖 才能确保摄像头正常工作。本篇文章从 BSP 驱动配置、Yocto 关键…...
swift 开发效率提升工具
安装github copliot for xcode github/CopilotForXcode brew install --cask github-copilot-for-xcode安装swiftformat for xcode brew install swiftformatXcode Swift File代码格式化-SwiftFormat...
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程的演示都将在 Flink CDC CLI 中进行,无需一行 Java/Scala 代码,也无需安装 IDE。 这篇教程将展示如何基于 Flink CDC YAML 快速构建 MySQL 到 Kafka 的 Streaming ELT 作业,包含整库同步、表结构变更同步演示和关键参数介绍。 准备阶段…...
Hue UI展示中文
个人博客地址:Hue UI展示中文 | 一张假钞的真实世界 如果使用开发分支代码如master分支)编译安装,需要自己编译语言文件。例如Hue安装目录为“/opt/hue”,则安装后执行以下命令: $ cd /opt/hue $ make locales 如果…...
(十 一)趣学设计模式 之 组合模式!
目录 一、 啥是组合模式?二、 为什么要用组合模式?三、 组合模式的实现方式四、 组合模式的优缺点五、 组合模式的应用场景六、 总结 🌟我的其他文章也讲解的比较有趣😁,如果喜欢博主的讲解方式,可以多多支…...
Linux 文件类型,目录与路径,文件与目录管理
文件类型 后面的字符表示文件类型标志 普通文件:-(纯文本文件,二进制文件,数据格式文件) 如文本文件、图片、程序文件等。 目录文件:d(directory) 用来存放其他文件或子目录。 设备…...
应用升级/灾备测试时使用guarantee 闪回点迅速回退
1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...
Leetcode 3576. Transform Array to All Equal Elements
Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现 题目链接:3576. Transform Array to All Equal Elements 1. 解题思路 这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。 至于每一种情况是否可以达到…...
理解 MCP 工作流:使用 Ollama 和 LangChain 构建本地 MCP 客户端
🌟 什么是 MCP? 模型控制协议 (MCP) 是一种创新的协议,旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议,它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。 可以把它想象成你的 AI 模型 和想要使用它…...
转转集团旗下首家二手多品类循环仓店“超级转转”开业
6月9日,国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解,“超级…...
工业自动化时代的精准装配革新:迁移科技3D视觉系统如何重塑机器人定位装配
AI3D视觉的工业赋能者 迁移科技成立于2017年,作为行业领先的3D工业相机及视觉系统供应商,累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成,通过稳定、易用、高回报的AI3D视觉系统,为汽车、新能源、金属制造等行…...
项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...
云原生安全实战:API网关Kong的鉴权与限流详解
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、基础概念 1. API网关(API Gateway) API网关是微服务架构中的核心组件,负责统一管理所有API的流量入口。它像一座…...
篇章二 论坛系统——系统设计
目录 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 1. 数据库设计 1.1 数据库名: forum db 1.2 表的设计 1.3 编写SQL 2.系统设计 2.1 技术选型 2.2 设计数据库结构 2.2.1 数据库实体 通过需求分析获得概念类并结合业务实现过程中的技术需要&#x…...
DeepSeek越强,Kimi越慌?
被DeepSeek吊打的Kimi,还有多少人在用? 去年,月之暗面创始人杨植麟别提有多风光了。90后清华学霸,国产大模型六小虎之一,手握十几亿美金的融资。旗下的AI助手Kimi烧钱如流水,单月光是投流就花费2个亿。 疯…...
