当前位置: 首页 > article >正文

Python 数据统计分析全攻略:从基础到实战,一文掌握常用方法

在数据分析、机器学习、业务报表开发等场景中数据统计分析是核心基础环节。Python 凭借丰富的第三方库成为数据统计分析的首选工具。本文将系统梳理 Python 中数据统计分析的常用方法、核心库、实战代码从基础统计量到高级分析覆盖新手到进阶的全场景需求适合数据分析初学者、开发人员快速上手。一、Python 统计分析核心库介绍Python 做统计分析无需从零编写算法三大核心库覆盖 90% 以上场景NumPy底层数值计算库提供数组运算、基础统计函数是所有数据分析库的基础Pandas表格型数据处理神器支持数据读取、清洗、分组统计、描述性分析日常统计分析主力Scipy专业科学计算库提供概率分布、假设检验、相关性分析等高级统计功能。源码分享网https://svipm.com.cn描述上千款各行各业的源码安装命令一键安装bash运行pip install numpy pandas scipy二、基础数据准备读取与预处理统计分析的第一步是数据加载 清洗Pandas 是最佳选择支持 CSV、Excel、数据库等多种数据源。1. 数据读取python运行import pandas as pd import numpy as np # 读取CSV文件最常用 df pd.read_csv(data.csv) # 读取Excel文件 # df pd.read_excel(data.xlsx) # 查看数据前5行快速预览数据结构 print(数据预览) print(df.head())2. 数据基础信息查看python运行# 1. 查看数据维度行数、列数 print(数据形状, df.shape) # 2. 查看列名、数据类型、缺失值 print(\n数据基础信息) df.info() # 3. 查看缺失值数量 print(\n各列缺失值统计) print(df.isnull().sum())3. 数据清洗统计分析前提缺失值、异常值会导致统计结果失真必须预处理python运行# 1. 删除含缺失值的行 df df.dropna() # 2. 用均值/中位数填充数值型缺失值 df[age].fillna(df[age].mean(), inplaceTrue) # 3. 去除重复数据 df df.drop_duplicates()三、描述性统计分析核心基础描述性统计用于快速了解数据整体特征包括集中趋势、离散程度、分布形态是所有分析的起点。1. Pandas 一键生成描述统计describe()方法自动生成均值、标准差、分位数、最值等核心指标一行代码搞定基础统计python运行# 对所有数值型列生成描述统计 print(数值型数据描述性统计) print(df.describe()) # 对指定列做统计 print(\n指定列score描述统计) print(df[score].describe())2. 单独计算核心统计量除了一键生成还可单独提取需要的统计指标表格统计量函数作用均值mean()数据平均水平中位数median()数据中间值抗异常值众数mode()出现次数最多的值标准差std()数据离散程度方差var()数据波动程度最大值 / 最小值max()/min()数据边界四分位数quantile()数据分布区间实战代码python运行# 以分数列为例 score df[score] print(均值, score.mean()) print(中位数, score.median()) print(众数, score.mode()[0]) # 取第一个众数 print(标准差, round(score.std(), 2)) print(25%分位数, score.quantile(0.25)) print(75%分位数, score.quantile(0.75))3. 频数统计分类数据针对性别、学历、类别等非数值型数据统计各类别出现次数python运行# 统计性别分布 print(性别频数统计) print(df[gender].value_counts()) # 统计占比百分比 print(\n性别占比) print(df[gender].value_counts(normalizeTrue) * 100)四、分组统计分析业务高频场景实际业务中常需要按类别分组统计如按部门统计薪资、按班级统计成绩Pandas 的groupby是核心工具。1. 单字段分组统计python运行# 按性别分组计算分数的均值、最大值、最小值 group_stats df.groupby(gender)[score].agg( 平均分数mean, 最高分数max, 最低分数min, 人数count ) print(按性别分组统计分数) print(group_stats.round(2))2. 多字段分组统计python运行# 按性别班级分组统计分数 multi_group df.groupby([gender, class])[score].mean() print(\n多字段分组统计) print(multi_group.unstack()) # 格式化输出五、高级统计分析相关性与假设检验完成基础统计后进阶分析可挖掘数据间的关系、验证业务假设Scipy 库是核心。1. 相关性分析分析两个变量的线性关系如身高与体重、广告投入与销量取值范围[-1,1]绝对值越接近 1相关性越强正数正相关负数负相关。python运行# 1. Pandas计算相关系数矩阵 print(变量相关性矩阵) corr_matrix df[[age, score, income]].corr() print(corr_matrix) # 2. Scipy精确计算相关系数显著性p值 from scipy.stats import pearsonr # 计算年龄和分数的相关性 corr, p_value pearsonr(df[age], df[score]) print(f\n年龄与分数相关系数{round(corr,2)}p值{round(p_value,4)}) # p0.05 表示相关性显著2. 假设检验T 检验验证两组数据是否存在显著差异如男女成绩是否有差异python运行from scipy.stats import ttest_ind # 分组数据 male_score df[df[gender]男][score] female_score df[df[gender]女][score] # 独立样本T检验 t_stat, p_value ttest_ind(male_score, female_score) print(fT统计量{round(t_stat,2)}p值{round(p_value,4)}) # 结果判断 if p_value 0.05: print(男女分数存在显著差异) else: print(男女分数无显著差异)3. 数据分布检验判断数据是否符合正态分布机器学习、统计检验的前提python运行from scipy.stats import shapiro # Shapiro正态性检验 stat, p_value shapiro(df[score]) if p_value 0.05: print(分数数据符合正态分布) else: print(分数数据不符合正态分布)六、数据可视化让统计结果更直观统计分析离不开可视化Matplotlib/Seaborn 快速绘制图表python运行import matplotlib.pyplot as plt import seaborn as sns # 设置中文显示 plt.rcParams[font.sans-serif] [SimHei] plt.rcParams[axes.unicode_minus] False # 1. 直方图查看数据分布 plt.figure(figsize(10,4)) plt.subplot(1,2,1) sns.histplot(df[score], kdeTrue) plt.title(分数分布直方图) # 2. 箱线图查看异常值 plt.subplot(1,2,2) sns.boxplot(xgender, yscore, datadf) plt.title(男女分数箱线图) plt.tight_layout() plt.show() # 3. 热力图展示相关性 plt.figure(figsize(8,6)) sns.heatmap(corr_matrix, annotTrue, cmapcoolwarm) plt.title(变量相关性热力图) plt.show()七、完整实战案例结合以上方法做一个完整的学生成绩统计分析python运行# 1. 导入库 import pandas as pd import numpy as np from scipy.stats import pearsonr, ttest_ind import matplotlib.pyplot as plt import seaborn as sns # 2. 数据加载与清洗 df pd.read_csv(student_score.csv) df df.dropna().drop_duplicates() # 3. 描述性统计 print( 成绩描述统计 ) print(df[score].describe().round(2)) # 4. 分组统计 print(\n 班级成绩统计 ) print(df.groupby(class)[score].agg([mean, max, min]).round(2)) # 5. 相关性分析 corr, p pearsonr(df[study_time], df[score]) print(f\n学习时长与成绩相关系数{round(corr,2)}) # 6. 可视化 plt.figure(figsize(12,5)) sns.boxplot(xclass, yscore, datadf) plt.title(各班级成绩分布) plt.show()八、总结Python 数据统计分析核心逻辑数据清洗 → 描述统计 → 分组分析 → 进阶检验 → 可视化对应工具基础数据处理Pandas必学数值计算NumPy高级统计Scipy可视化Matplotlib/Seaborn。本文覆盖了日常工作中 90% 的统计分析场景从基础函数到实战代码新手可直接复制使用进阶可在此基础上拓展机器学习、时间序列分析等场景。 原创不易欢迎点赞、收藏、关注后续会更新 Python 数据分析进阶实战

相关文章:

Python 数据统计分析全攻略:从基础到实战,一文掌握常用方法

在数据分析、机器学习、业务报表开发等场景中,数据统计分析是核心基础环节。Python 凭借丰富的第三方库,成为数据统计分析的首选工具。本文将系统梳理 Python 中数据统计分析的常用方法、核心库、实战代码,从基础统计量到高级分析&#xff0c…...

运动控制选EtherCAT,过程控制用PROFINET?深入聊聊工业以太网协议背后的设计哲学与取舍

工业以太网协议的设计哲学:EtherCAT与PROFINET的技术抉择 在自动化生产线上,一个机械臂需要以0.1毫米的精度重复定位,而百米外的反应釜温度必须控制在0.5℃范围内——这两种看似相似的工业控制需求,背后却对应着完全不同的通信协议…...

直接上干货,咱们用粒子群算法给PID控制器做个暴力调参。传统PID参数调整像盲人摸象,PSO(粒子群优化)相当于派出一群带雷达的无人机直接扫描整片山区找最优解

基于粒子群算法的PID控制优化算法案例 matlab源代码 代码有详细注释,完美运行先看目标——让这个二阶系统达到最顺滑的响应: % 被控对象传递函数 sys tf(1, [1 3 2]); t 0:0.01:10; % 时间序列 粒子群的核心配置得够骚: %% PSO参…...

解锁小米平板5的Windows潜能:从Android平板到完整PC体验的驱动革命

解锁小米平板5的Windows潜能:从Android平板到完整PC体验的驱动革命 【免费下载链接】MiPad5-Drivers Based on Surface Duo Drivers. 项目地址: https://gitcode.com/gh_mirrors/mi/MiPad5-Drivers 你是否曾想过,将手中的小米平板5从一台Android设…...

Ice终极指南:3步打造Mac菜单栏的清爽工作空间

Ice终极指南:3步打造Mac菜单栏的清爽工作空间 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice Ice是一款专为macOS设计的强大菜单栏管理器,能够帮助用户有效整理和优化混乱的菜…...

终极macOS菜单栏管理指南:从杂乱到整洁的完美蜕变 [特殊字符]

终极macOS菜单栏管理指南:从杂乱到整洁的完美蜕变 🚀 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice macOS菜单栏是每个苹果用户每天都要面对的重要界面,但随着安…...

CMD脚本开发避坑指南:为什么你的bat文件总是报错?

CMD脚本开发避坑指南:为什么你的bat文件总是报错? 每次双击运行精心编写的bat文件时,看到那个刺眼的"不是内部或外部命令"错误提示,是不是感觉血压瞬间飙升?作为Windows系统中最基础的自动化工具&#xff0c…...

如何用 PyTorch Grad-CAM 快速掌握 CLIP 模型可视化分析:终极指南 [特殊字符]

如何用 PyTorch Grad-CAM 快速掌握 CLIP 模型可视化分析:终极指南 🎯 【免费下载链接】pytorch-grad-cam Advanced AI Explainability for computer vision. Support for CNNs, Vision Transformers, Classification, Object detection, Segmentation, I…...

SiameseUIE保姆级教程:3步部署nlp_structbert_siamese-uie_chinese-base

SiameseUIE保姆级教程:3步部署nlp_structbert_siamese-uie_chinese-base 信息抽取不再需要标注数据,一个模型搞定NER、关系抽取、事件抽取、情感分析四大任务 1. 什么是SiameseUIE?为什么值得一试 如果你正在处理中文文本信息抽取任务&#…...

ESP32开发终极指南:5个关键更新助你构建更强大的物联网设备

ESP32开发终极指南:5个关键更新助你构建更强大的物联网设备 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 ESP32 Arduino核心项目为ESP32系列芯片提供了完整的Arduino开发环境…...

GuwenBERT:古文自然语言处理的技术革新

GuwenBERT:古文自然语言处理的技术革新 【免费下载链接】guwenbert GuwenBERT: 古文预训练语言模型(古文BERT) A Pre-trained Language Model for Classical Chinese (Literary Chinese) 项目地址: https://gitcode.com/gh_mirrors/gu/guwe…...

终极AI图像增强神器Upscayl:让每一张照片重获新生

终极AI图像增强神器Upscayl:让每一张照片重获新生 【免费下载链接】upscayl 🆙 Upscayl - Free and Open Source AI Image Upscaler for Linux, MacOS and Windows built with Linux-First philosophy. 项目地址: https://gitcode.com/GitHub_Trending…...

保姆级教程:在ROS2 Humble和Gazebo 11中配置FAST_LIO_ROS2进行三维SLAM仿真

从零搭建ROS2与Gazebo环境:FAST_LIO_ROS2三维SLAM实战指南 刚接触机器人仿真的开发者常被环境配置的复杂性劝退——依赖冲突、参数配置错误、话题不匹配等问题层出不穷。本文将手把手带您完成ROS2 Humble、Gazebo 11与FAST_LIO_ROS2的完整集成,实现一个可…...

AI图像放大神器Upscayl:告别模糊时代的终极解决方案

AI图像放大神器Upscayl:告别模糊时代的终极解决方案 【免费下载链接】upscayl 🆙 Upscayl - Free and Open Source AI Image Upscaler for Linux, MacOS and Windows built with Linux-First philosophy. 项目地址: https://gitcode.com/GitHub_Trendi…...

跨平台游戏画质增强工具:OptiScaler打破显卡壁垒的全方位解决方案

跨平台游戏画质增强工具:OptiScaler打破显卡壁垒的全方位解决方案 【免费下载链接】OptiScaler DLSS replacement for AMD/Intel/Nvidia cards with multiple upscalers (XeSS/FSR2/DLSS) 项目地址: https://gitcode.com/GitHub_Trending/op/OptiScaler 在PC…...

GLM-4-9B-Chat-1M实战:vLLM部署教程+Chainlit前端搭建,一步到位

GLM-4-9B-Chat-1M实战:vLLM部署教程Chainlit前端搭建,一步到位 1. 项目概述 GLM-4-9B-Chat-1M是智谱AI推出的新一代预训练模型,支持高达1M(约200万中文字符)的上下文长度。本教程将带您完成从模型部署到前端搭建的完…...

Path of Building:离线构筑规划工具的全方位解析

Path of Building:离线构筑规划工具的全方位解析 【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/gh_mirrors/pat/PathOfBuilding 定位核心价值:构筑决策的数字沙盘 Path of Building…...

从标准到实战:网络变压器在POE应用中的AF/AT/BF/BT详解与电路设计指南

1. 网络变压器在POE系统中的核心作用 第一次接触POE供电系统时,我对着电路板上那个带铁壳的方形元件研究了半天——这就是网络变压器。它看起来平平无奇,却是整个POE系统的"心脏"。简单来说,网络变压器在POE系统中要同时干两件事&a…...

阿里云:数据分析Agent白皮书——AI重构数据消费 2026

这份由阿里云与瓴羊发布的《数据分析 Agent 白皮书 ——AI 重构数据消费》,立足 DataAI 融合趋势,系统阐述了数据分析 Agent 的发展背景、技术架构、代表产品、行业实践、落地方法与未来方向,核心围绕AI 重构企业数据消费模式展开&#xff0c…...

终极bilibili视频解析指南:三步实现免费高效下载方案

终极bilibili视频解析指南:三步实现免费高效下载方案 【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse bilibili视频解析工具bilibili-parse为技术爱好者和普通用户提供了一套完整的视频资源…...

Windows用户福音:WSL2+Docker快速部署Coze Studio开源版(附常见错误解决方案)

Windows平台高效部署Coze Studio开源版的完整指南 对于Windows开发者而言,在本地环境搭建Coze Studio开源版可能面临诸多挑战。本文将提供一套经过验证的完整解决方案,从WSL2配置到Docker优化,帮助您避开常见陷阱,快速实现Coze St…...

Sinkhorn算法实战:用Python手把手教你解决最优传输问题(附完整代码)

Sinkhorn算法实战:用Python手把手教你解决最优传输问题(附完整代码) 最优传输理论在机器学习领域正掀起一场静默的革命。想象一下这样的场景:你需要将一组资源从A地运往B地,同时希望运输成本最低;或者你需要…...

Webcam-Pulse-Detector实战应用:构建远程健康监测系统

Webcam-Pulse-Detector实战应用:构建远程健康监测系统 【免费下载链接】webcam-pulse-detector A python application that detects and highlights the heart-rate of an individual (using only their own webcam) in real-time. 项目地址: https://gitcode.com…...

Playwright浏览器上下文全解析:如何用Python实现多账号同时登录测试?

Playwright浏览器上下文全解析:如何用Python实现多账号同时登录测试? 在当今复杂的Web应用生态中,自动化测试工程师经常面临一个核心挑战:如何高效模拟真实用户的多账号并行操作场景?无论是电商平台的促销活动测试、社…...

ComfyUI-Easy-Use:如何高效管理GPU资源并优化深度学习推理性能

ComfyUI-Easy-Use:如何高效管理GPU资源并优化深度学习推理性能 【免费下载链接】ComfyUI-Easy-Use In order to make it easier to use the ComfyUI, I have made some optimizations and integrations to some commonly used nodes. 项目地址: https://gitcode.c…...

VSCode里玩转Qt Designer:手把手教你可视化设计PyQt5界面并自动生成Python代码

VSCode高效开发PyQt5:可视化设计与自动化代码生成实战 在Python GUI开发领域,PyQt5凭借其强大的功能和跨平台特性成为众多开发者的首选。然而,传统的手写界面布局代码不仅耗时耗力,还难以实时预览效果。本文将带你探索如何在VSCod…...

OpenClaw技能扩展:用GLM-4.7-Flash实现Markdown文档自动整理

OpenClaw技能扩展:用GLM-4.7-Flash实现Markdown文档自动整理 1. 为什么需要文档自动化整理 作为一个长期使用Markdown写作的技术博主,我的文档库已经积累了超过2000篇笔记和草稿。曾经有整整三个月,我每周都要花3-4小时手动整理这些文档——…...

AudioSeal Pixel Studio实战教程:与LangChain音频处理Agent集成

AudioSeal Pixel Studio实战教程:与LangChain音频处理Agent集成 1. 工具介绍与核心价值 AudioSeal Pixel Studio是一款基于Meta开源的AudioSeal算法构建的专业音频水印工具。它能够在保持原始音质几乎不变的情况下,为音频文件嵌入隐形数字水印&#xf…...

回溯法与剪枝优化:高效求解n位逐位整除数的实战解析

1. 什么是n位逐位整除数? n位逐位整除数是一种特殊的数字序列,它满足从最高位开始,前k位组成的数字必须能被k整除(k从1到n)。举个例子,数字102450就是一个6位整除数: 第1位1能被1整除前2位10能被…...

FastAPI速率限制:Redis分布式实现的终极指南

FastAPI速率限制:Redis分布式实现的终极指南 【免费下载链接】fastapi FastAPI framework, high performance, easy to learn, fast to code, ready for production 项目地址: https://gitcode.com/GitHub_Trending/fa/fastapi FastAPI作为高性能的现代Web框…...