当前位置: 首页 > article >正文

【PythonAI】2.2.2 技能实训:使用Pandas读取CSV/Excel文件,查看数据概览(2. 数据质量评估)

importpandasaspdimportnumpyasnp# 设置显示选项统信UOS终端适配pd.set_option(display.max_columns,None)pd.set_option(display.width,1000)pd.set_option(display.max_colwidth,50)# 读取CSV文件dfpd.read_csv(dirty_reviews.csv)# 查看基本信息print(数据形状:,df.shape)print(\n前5行数据:)print(df.head())print(\n数据信息:)df.info()print(\n基础统计:)print(df.describe())defdata_quality_report(df):生成数据质量报告report{总记录数:len(df),总列数:len(df.columns),缺失值统计:df.isnull().sum().to_dict(),缺失值比例:(df.isnull().sum()/len(df)*100).round(2).to_dict(),重复行数:df.duplicated().sum(),数据类型:df.dtypes.to_dict()}print(*50)print(数据质量评估报告)print(*50)forkey,valueinreport.items():print(f\n【{key}】)ifisinstance(value,dict):fork,vinvalue.items():print(f{k}:{v})else:print(f{value})print(*50)returnreport# 生成报告quality_reportdata_quality_report(df)运行结果(uos_ai_env)MuhtarUOS-Desktop:~/AI_Projects$ python3 quality_report.py 数据形状:(6,6)前5行数据: user_id username rating comment submit_time city 0 1001 用户A 5.0 很好吃的红枣p推荐购买/p 2024-01-15 乌鲁木齐 1 1002 用户B 8.0 味道不错 2024/01/16 10:30 阿克苏 2 1003 用户C NaN NaN 2024.01.17 喀什 3 1001 用户A 5.0 很好吃的红枣p推荐购买/p 2024-01-15 乌鲁木齐 4 1004 用户D 9.0 物流很快包装完好 2024-01-18 14:20 和田 数据信息: classpandas.core.frame.DataFrame RangeIndex: 6 entries,0 to 5Datacolumns(total 6 columns):# Column Non-Null Count Dtype----------------------------0 user_id 6 non-null int64 1 username 6 non-null object 2 rating 5 non-null float64 3 comment 5 non-null object 4 submit_time 6 non-null object 5 city 6 non-null object dtypes: float64(1),int64(1),object(4)memory usage: 416.0 bytes 基础统计: user_id rating count 6.000000 5.000000 mean 1002.666667 6.200000 std 1.632993 2.167948 min 1001.000000 4.000000 25% 1001.250000 5.000000 50% 1002.500000 5.000000 75% 1003.750000 8.000000 max 1005.000000 9.000000 数据质量评估报告 【总记录数】 6 【总列数】 6 【缺失值统计】 user_id: 0 username: 0 rating: 1 comment: 1 submit_time: 0 city: 0 【缺失值比例】 user_id: 0.0 username: 0.0 rating: 16.67 comment: 16.67 submit_time: 0.0 city: 0.0 【重复行数】 1 【数据类型】 user_id: int64 username: object rating: float64 comment: object submit_time: object city: object (uos_ai_env)MuhtarUOS-Desktop:~/AI_Projects$

相关文章:

【PythonAI】2.2.2 技能实训:使用Pandas读取CSV/Excel文件,查看数据概览(2. 数据质量评估)

import pandas as pd import numpy as np# 设置显示选项(统信UOS终端适配) pd.set_option(display.max_columns, None) pd.set_option(display.width, 1000) pd.set_option(display.max_colwidth, 50)# 读取CSV文件 df pd.read_csv(dirty_reviews.csv)#…...

3大突破!MusicFreePlugins:构建你的跨平台音乐自由王国

3大突破!MusicFreePlugins:构建你的跨平台音乐自由王国 【免费下载链接】MusicFreePlugins MusicFree播放插件 项目地址: https://gitcode.com/gh_mirrors/mu/MusicFreePlugins 一、打破音乐壁垒:当代用户的三大核心痛点 在数字音乐时…...

深度解析VeraGrid:电力系统开源仿真平台的架构革新与实践应用

深度解析VeraGrid:电力系统开源仿真平台的架构革新与实践应用 【免费下载链接】VeraGrid VeraGrid, a cross-platform power systems software written in Python with user interface, used in academia and industry. 项目地址: https://gitcode.com/gh_mirrors…...

终极指南:如何免费快速在线绘制专业流程图?GraphvizOnline完整教程

终极指南:如何免费快速在线绘制专业流程图?GraphvizOnline完整教程 【免费下载链接】GraphvizOnline Lets Graphviz it online 项目地址: https://gitcode.com/gh_mirrors/gr/GraphvizOnline 在当今数字化时代,无论是软件开发、项目管…...

毕业项目技术辅导:前后端与数据分析模块协作

毕业项目进入冲刺期,功能点多、时间紧、还要准备演示与答辩? 我这边提供毕业项目技术协作,主要做: 前端页面与交互实现(可配合你现有框架)后端接口、数据库与联调支持数据清洗、分析与可视化展示既有代码 b…...

一文读懂对称加密与非对称加密:核心区别、应用场景与实战避坑

在数字化时代,数据安全是所有产品和系统的“生命线”。我们每天接触的手机支付、网页浏览、社交聊天、文件传输,背后都藏着加密技术的身影。而加密技术的核心,离不开两大主角——对称加密与非对称加密。 很多人对这两种加密方式的认知&#…...

解锁跨设备游戏新可能:Sunshine开源串流方案全解析

解锁跨设备游戏新可能:Sunshine开源串流方案全解析 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 在数字化娱乐时代,玩家对游戏体验的需求不再局限于单一设…...

【C++ constexpr 高阶实战指南】:20年专家亲授7个颠覆认知的编译期优化案例

第一章:constexpr 的本质与编译期语义再认知constexpr 并非简单的“编译期可求值”标记,而是 C 类型系统与求值模型深度耦合的语义契约:它要求表达式在编译期具备确定性、无副作用、且所有操作均落在标准定义的常量求值(constant …...

告别重复造轮子:用快马AI一键生成高效开发技能工具库

告别重复造轮子:用快马AI一键生成高效开发技能工具库 作为一名前端开发者,我经常需要重复编写一些基础功能代码。每次新项目开始,都要重新写表单验证、日期格式化这些轮子,既浪费时间又容易出错。最近发现InsCode(快马)平台的AI代…...

【紧急预警】边缘固件OTA升级因编译产物ABI不兼容导致大规模回滚?立即执行这5项ABI稳定性检查

第一章:边缘C编译优化概览在资源受限的边缘设备(如嵌入式控制器、IoT网关、车载ECU)上运行C应用时,编译阶段的优化决策直接影响内存占用、启动延迟与实时响应能力。与云端服务器不同,边缘场景通常面临固定ROM/RAM容量、…...

Windows 11性能诊断与优化实战:如何用Win11Debloat让系统提速60%

Windows 11性能诊断与优化实战:如何用Win11Debloat让系统提速60% 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declut…...

解锁3大模组维度:从入门到精通的进阶之路

解锁3大模组维度:从入门到精通的进阶之路 【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire ModTheSpire作为《杀戮尖塔》最强大的外部模组加载器,为玩家提供了无需…...

每日Java面试场景题知识点之-MySQL索引

在日常开发中,SQL执行效率直接影响系统性能。作为Java后端工程师,掌握MySQL索引的原理与实践至关重要。下面通过几个常见场景梳理MySQL索引的核心要点。 首先,索引本质上是一种数据结构,MySQL InnoDB常用的是B树。B树只在叶子节点…...

XUnity自动翻译器终极指南:5分钟实现Unity游戏无障碍汉化

XUnity自动翻译器终极指南:5分钟实现Unity游戏无障碍汉化 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为外语游戏而苦恼?XUnity自动翻译器就是你的游戏语言救星&#xff01…...

网络和并发 第五节:Python中的多线程

一、线程的相关概念 在Python中,想要实现多任务除了使用进程,还可以使用线程来完成,线程是实现多任务的另外一种方式。 1、什么是线程 线程是进程中执行代码的一个分支,每个执行分支(线程)要想工作执行代码需要cpu进行调度 ,也就是说线程是cpu调度的基本单位,每个进…...

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南【1.2】

第2章 HTML在网络上浏览时,我们阅读和操作的几乎所有内容的背后都隐藏着一个标准:超文本标记语言(Hyper Text Markup Language,HTML)。不管是我们在维基百科上查找信息,在Google搜索站点,查看我…...

3个创新方案解决Kindle封面丢失问题:Fix-Kindle-Ebook-Cover的全方位修复指南

3个创新方案解决Kindle封面丢失问题:Fix-Kindle-Ebook-Cover的全方位修复指南 【免费下载链接】Fix-Kindle-Ebook-Cover A tool to fix damaged cover of Kindle ebook. 项目地址: https://gitcode.com/gh_mirrors/fi/Fix-Kindle-Ebook-Cover 当你打开Kindle…...

暗黑3自动化工具终极指南:如何用智能技能宏提升游戏效率

暗黑3自动化工具终极指南:如何用智能技能宏提升游戏效率 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelper是一款专为暗黑破坏神…...

测试工程师的悲哀:我们正在成为“人肉脚本”

曾几何时,“点点点”是外界贴在测试工程师身上最刺眼的标签,我们奋力撕下它,向世界证明测试是一个需要深度技术、系统思维和工程能力的专业领域。我们学会了编程,构建了自动化框架,掌握了性能压测与安全渗透。然而&…...

解锁3大网页设计黑科技:从像素到原型的无缝转换

解锁3大网页设计黑科技:从像素到原型的无缝转换 【免费下载链接】figma-html Convert any website to editable Figma designs 项目地址: https://gitcode.com/gh_mirrors/fi/figma-html 作为设计师,你是否曾为获取网页设计灵感而频繁截图&#x…...

Llama-3.2-3B新手教程:Ollama环境配置+基础使用

Llama-3.2-3B新手教程:Ollama环境配置基础使用 1. 环境准备与快速部署 1.1 系统要求 在开始之前,请确保您的系统满足以下基本要求: 操作系统:Linux/Windows/macOS(推荐Linux)内存:至少8GB R…...

蓝桥杯单片机第12届省赛2满分(西风)

1注意S7长短按键冲突问题if(key_down7)//判断是否按下{fs71;//开始计时t1000ms_10;}if(key_up7)//判断是否抬起{if(t1000ms_1>1000)//长按键{fled^1;}else//短按键{f_baofreq;}t1000ms_10;fs70;//停止计时}2获取频率void Timer0_Init(void) //100微秒12.000MHz {AUXR &…...

华硕笔记本终极性能控制指南:G-Helper完整使用教程

华硕笔记本终极性能控制指南:G-Helper完整使用教程 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar,…...

基于改进快速粒子群算法的IEEE33节点有源配电网动态无功优化软件介绍

基于改进的快速粒子群有源配电网动态无功优化 软件:Matlab 介绍:在含分布式电源的IEEE33进行无功优化,以无功最优和运行费用最优为目标函数进行优化,采用改进的快速粒子群算法进行计算概述 本系统面向含分布式电源(DG&…...

Java 设计模式最佳实践:构建可维护的应用

Java 设计模式最佳实践:构建可维护的应用别叫我大神,叫我 Alex 就好。一、引言 大家好,我是 Alex。设计模式是软件开发中解决常见问题的可重用方案。它们是经过验证的最佳实践,可以帮助我们构建更可维护、更可扩展的应用。今天&am…...

被忽视的性能金矿:如何释放笔记本90%隐藏算力

被忽视的性能金矿:如何释放笔记本90%隐藏算力 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar, and …...

高效处理视频字幕:MKV批量处理开源工具完全指南

高效处理视频字幕:MKV批量处理开源工具完全指南 【免费下载链接】mkvtoolnix-batch-tool Batch video and subtitle processing program with the ability to add, remove, or extract subtitles from all video files in a directory and its sub-directories. 项…...

告别理论推导!用《有源滤波器的快速实用设计》手把手搞定1kHz带通滤波器(附Multisim仿真)

1kHz带通滤波器实战指南:从查表到仿真的全流程解析 在电子设计竞赛或音频信号处理项目中,带通滤波器是高频出现的核心模块。许多工程师都曾陷入这样的困境:明明掌握了滤波器原理,面对"设计一个中心频率1kHz、带宽200Hz的带通…...

STM32定时器级联功能实战:如何构建64位定时器

1. 为什么需要64位定时器? 在嵌入式开发中,32位定时器对于大多数应用场景已经足够用了。比如一个72MHz的STM32,32位定时器最大能计时的时长大约是59.6秒(2^32/72MHz)。但在一些特殊场景下,比如需要记录设备…...

PicoCTF - 2020 Mini-Competition - Web Gauntlet(关卡1)

博主开始学习CTF并做记录,本人是一名初级渗透测试工程师,水平初级很一般。阅读书籍为异步图书的《CTF快速上手 PicoCTF真题解析》Web篇 ,李华峰著书这是第一本简单解析一下真题:Web Gauntlet(关卡)该题说明…...