当前位置：首页 > news >正文

数据分析实战—鸢尾花数据分类

news 2026/5/15 9:55:20

1.实战内容

(1) 加载鸢尾花数据集(iris.txt)并存到iris_df中,使用seaborn.lmplot寻找class（种类）项中的异常值，其他异常值也同时处理。

import pandas as pd
from sklearn.datasets import load_iris
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
iris=load_iris()
iris_df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
iris_df['target']=iris['target']

import pandas as pd
import matplotlib.pyplot as plt
iris_df=pd.read_csv('iris.txt',sep=',')
iris_df

import seaborn as snsimport warnings
warnings.filterwarnings("ignore")sns.lmplot(x='sepal_length',y='sepal_width',col='class',data=iris_df)
sns.lmplot(x='petal_length',y='petal_width',col='class',data=iris_df)
iris_df['class'].drop_duplicates()#通过上面的语句，发现class中有异常值，同时发现sepal_width和sepal_length有异常值

#class应为3类，将versicolor修改为Iris-versicolor,将iris-setossa修改为Iris-setosa
iris_df.loc[iris_df['class']=='versicolor','class']='Iris-versicolor'
iris_df.loc[iris_df['class']=='Iris-setossa','class']='Iris-setosa'
sns.lmplot(x='sepal_length',y='sepal_width',col='class',data=iris_df)#重画,检验是否是3类

#通过直方图观察数据分布
iris_df.loc[iris_df['class']=='Iris-setosa','sepal_width'].hist()

# 将Iris-setosa的sepal_width小于2.5cm删除
iris_df=iris_df.loc[(iris_df['class']!='Iris-setosa')|(iris_df['sepal_width']>=2.5)]
iris_df.loc[iris_df['class']=='Iris-setosa','sepal_width'].hist()

#列出异常值
iris_df.loc[(iris_df['class']=='Iris-versicolor')&(iris_df['sepal_length']<1.0)]

# 将Iris-versicolor的sepal_length接近于0的异常值乘100，‘米’转化成‘厘米’
iris_df.loc[(iris_df['class']=='Iris-versicolor')&(iris_df['sepal_length']<1.0),'sepal_length']*= 100
iris_df.loc[iris_df['class']=='Iris-versicolor','sepal_length'].hist()

(2) 使用isnull和describe查看缺失值，并处理

# 列出缺失的样本
iris_df.isnull().sum()

iris_df.describe()

iris_df.loc[iris_df['petal_width'].isnull()]

#用该类的平均值来填补缺失值，并列出修改过样本
avg_value=iris_df.loc[iris_df['class']=='Iris-setosa','petal_width'].mean()
iris_df.loc[(iris_df['class']=='Iris-setosa')&(iris_df['petal_width'].isnull()), 'petal_width'] = avg_value
iris_df.loc[(iris_df['class']=='Iris-setosa')&(iris_df['petal_width']==avg_value)]

#检查是否还存在缺失值
iris_df.isnull().sum()

#将标签名称转化成标签(如：Iris-setosa变成0)
class_mapping={'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2}
iris_df['class']=iris_df['class'].map(class_mapping)
iris_df

#保存数据
iris_df.to_csv('iris-clean.csv',index=False)

(3) 导入sklearn自带的数据集load_iris,获取特征矩阵和目标数组（标签）

from sklearn.datasets import load_iris
iris=load_iris()
iris_X=iris.data
iris_Y=iris.target

(4) 使用KNeighborsClassifier()分类预测

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split,cross_val_score
def knn_function(X,Y):X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.3)clf=KNeighborsClassifier()#建立模型clf.fit(X_train,Y_train)#训练模型predict_test=clf.predict(X_test)print('预测的值','\n',predict_test)print('真实的值','\n',Y_test)score=clf.score(X_test,Y_test,sample_weight=None)#计算准确率print('准确率','\n',score)return clf
knn_function(iris_X,iris_Y)

(5) 导入iris_clean.csv,获取特征矩阵和目标数组，调用函数knn_function()，保存模型

import pandas as pd
import pickle
import seaborn as sns
import matplotlib.pyplot as plt
iris= pd.read_csv('iris-clean.csv')
#获取特征矩阵和目标数组（标签）
iris_XX = iris.loc[0:,'sepal_length':'petal_width'].values
iris_YY = iris['class'].values
#调用函数
knn_model = knn_function(iris_XX,iris_YY)
# 保存模型
with open('knn_model.pkl', 'wb') as f:pickle.dump(knn_model, f)
# 读取保存模型
with open('knn_model.pkl', 'rb') as f:model = pickle.load(f)
#模型的表现与训练集的选择关系
model_accuracies = []
for repetition in range(1000):X_train, X_test, Y_train, Y_test = \train_test_split(iris_XX, iris_YY, test_size=0.3)
# 通过读取保存模型knn_model.pkl代码,建立模型modelscore = model.score(X_test, Y_test, sample_weight=None)model_accuracies.append(score)
sns.distplot(model_accuracies)
plt.show()

(6) 超参数与调整，以sklearn自带的鸢尾花数据为例，选择KNN模型，调整超参数K的值，用10折交叉验证判断K值为1~25时的最优值

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as pltiris = datasets.load_iris()
X = iris.data
Y = iris.target
# 划分训练集和测试集，测试集占总数据的33%，随机数生成器种子为10
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33,random_state=10)
k_range = range(1, 26)
cv_scores = []
for n in k_range:clf = KNeighborsClassifier(n)scores = cross_val_score(clf, X_train, Y_train, cv=10,scoring='accuracy') cv_scores.append(scores.mean())
plt.plot(k_range, cv_scores)
plt.xlabel('K')
plt.ylabel('Accuracy')
plt.show()#选择最优的k
best_clf = KNeighborsClassifier(n_neighbors=5)
best_clf.fit(X_train, Y_train)
print('参数',best_clf.get_params())
print('准确率',best_clf.score(X_test, Y_test))
print('预测的值',best_clf.predict(X_test))

2.数据集下载

https://gitee.com/qxh200000/c_-code/commit/1af2468e6b7f1bd8cd3b890018031c6fa6dff9bd

数据分析实战—鸢尾花数据分类

1.实战内容 (1) 加载鸢尾花数据集(iris.txt)并存到iris_df中,使用seaborn.lmplot寻找class（种类）项中的异常值，其他异常值也同时处理。 import pandas as pd from sklearn.datasets import load_iris pd.set_option(display.max_columns, N…...

编程日记 2024/12/21 23:27:52

【专题】2024抖音电商母婴行业分析报告汇总PDF洞察（附原数据表）

原文链接：https://tecdat.cn/?p38651 在数字化浪潮的席卷下，抖音电商母婴行业正经历着深刻变革。当下，年轻一代父母崛起，特别是 24 至 30 岁以及 18 至 23 岁的群体成为抖音母婴行业兴趣人群的主力军。他们带来全新育儿理念&…...

编程日记 2024/12/21 23:25:50

堆栈粉碎的原理与预防攻击措施

1、堆栈粉碎的原理 “堆栈粉碎”（stack smashing）指的是在计算机程序中利用缓冲区溢出漏洞来修改或破坏函数调用栈的过程。以下是其基本原理： 缓冲区溢出：当程序接收输入数据时，如果没有适当的边界检查和验证&#x…...

编程日记 2024/12/21 23:24:49

Flutter组件————AppBar

AppBar 是 Flutter 中用于创建应用程序顶部栏的组件，它遵循 Material Design 规范。参数： 参数名称类型描述titleWidget设置 AppBar 中的标题文本或自定义标题小部件。automaticallyImplyLeadingbool决定是否自动添加返回按钮（如果页面不是…...

编程日记 2024/12/21 23:21:45

请问深度学习直接缝了别的模型，在论文中这种创新点应该如何描述呢？

作者：星辰链接：https://www.zhihu.com/question/599461738/answer/3289126344 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。作为散养硕士，我们希望能早早发小论文&#xff0c…...

编程日记 2024/12/21 23:17:40

微流控专题 | 微流体应用说明——藻酸盐微球生产简介

基于水凝胶的递送系统正被越来越多地应用于各个领域，包括封装、保护以及在制药、保健品、食品工业中释放生物活性物质，还用于细胞/细菌/微生物的培养与植入，以及生物研究中基于细胞的基因操作。尺寸在 50m 范围内的高度单分散的藻酸盐微球 —…...

编程日记 2024/12/21 23:15:39

【前后端】HTTP网络传输协议

近期更新完毕，建议关注、收藏！ http请求 URL 严格意义上应该是URI http or https http不加密不安全；https加密协议（公网使用） http端口号80 https端口号443GET or POST GET和POST是HTTP请求的两种基本方法. 因为POST需…...

编程日记 2024/12/21 23:13:36

Fastdfs V6.12.1集群部署(arm/x86均可用)

文章目录一、 Fastdfs 介绍二、部署信息三、步骤tracker/storage 机器的 compose 内容storage 机器的 composetracker 与 storage 启动目录层级与配置文件测试测试集群扩容与缩减注意事项一、 Fastdfs 介绍 FastDFS 是一款高性能的分布式文件系统，特别适合用于存…...

编程日记 2024/12/21 23:07:25

【LeetCode每日一题】——434.字符串中的单词数

文章目录一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【解题思路】七【时空频度】八【代码实现】九【提交结果】一【题目类别】字符串二【题目难度】简单三【题目编号】 434.字符串中的单词数四【题目描述】统计字符串中的单词个…...

编程日记 2024/12/21 23:03:22

windows C#-使用构造函数

实例化类或结构时，将会调用其构造函数。构造函数与该类或结构具有相同名称，并且通常初始化新对象的数据成员。在下面的示例中，通过使用简单构造函数定义了一个名为 Taxi 的类。然后使用 new 运算符对该类进行实例化。在为新对象分配内存…...

编程日记 2024/12/21 23:01:19

[react]redux异步处理和重写useDispatch

异步代码 import { createAsyncThunk, createSlice } from reduxjs/toolkit; import { getBanner } from ../http/request; import store from /store; export const fetchBanner createAsyncThunk(recommend/banners,async (args, thunkAPI) > {const response await ge…...

编程日记 2024/12/21 22:55:12

基础数据结构---栈

顺序表实现一、栈类的声明栈是一种特殊的线性表，可以由顺序表来实现，也可以由链表来实现，这节课，我们采用顺序表来实现栈。 #include <iostream>#include <stdexcept>using namespace std;template<typename …...

编程日记 2024/12/21 22:54:11

【HarmonyOS之旅】DevEco Studio的安装与环境配置

目录 1 -> 下载与安装DevEco Studio 1.1 -> 运行环境要求 1.2 -> 下载和安装DevEco Studio 2 -> 配置环境变量 3 -> 配置开发环境 4 -> 开发项目准备 5 -> 实用小技巧 5.1 -> 中文插件 2 -> 简化工程目录栏 1 -> 下载与安装DevEco Stud…...

编程日记 2024/12/21 22:47:04

Liveweb视频融合共享平台在果园农场等项目中的视频监控系统搭建方案

一、背景介绍在我国的大江南北遍布着各种各样的果园，针对这些地处偏僻的果园及农场等环境，较为传统的安全防范方式是建立围墙，但是仅靠围墙仍然无法阻挡不法分子的有意入侵和破坏，因此为了及时发现和处理一些难以察觉的问题&…...

编程日记 2024/12/21 22:42:59

Android4.4 在系统中添加自己的System Service

添加系统service时，源码限制只能添加以android开头的包名，如果不是android开头的，编译时会提示找不到对应的文件。比如说在系统中添加一个包名为：tel.gateway.connservice的系统服务。 1.在framework/base目录下面创建如下路径&a…...

编程日记 2024/12/21 22:37:54

【C++】C++实现字符串大小写转换功能

在C中，实现字符串大小写转换可以通过标准库中的函数来完成。以下是两种常见的方法： 使用标准库函数std::transform std::transform是一个泛型算法，可以用来对序列中的每个元素应用一个给定的函数，并把结果存储到另一个序列中。这…...

编程日记 2024/12/21 22:36:53

【蓝桥杯】43696.小数第n位

小数第n位题目描述我们知道，整数做除法时，有时得到有限小数，有时得到无限循环小数。如果我们把有限小数的末尾加上无限多个0，那么有限小数和无限小数就都有了统一的形式。本题的任务是:在上面的约定下，求整数除法…...

编程日记 2024/12/21 22:35:52

进程间通信方式---消息队列（System V IPC）

进程间通信方式—消息队列（System V IPC） 文章目录进程间通信方式---消息队列（System V IPC）消息队列1.消息队列进程间通信原理2.msgget 系统调用3.msgsnd 系统调用4.msgrcv 系统调用5.msgctl 系统调用6.函数使用案例7.实现生产者…...

编程日记 2024/12/21 22:28:46

windows10 安装wsl、迁移到其他盘

介绍一下在windows10 安装和迁移wsl。由于公司发了通知不能在使用docker desktop，只能另找方法使用docker了，于是想安装一个wsl，然后在装一个docker。安装wsl ## 查看wsl 版本 wsl.exe --list --online## 安装Ubuntu-22.04 wsl.exe --inst…...

编程日记 2024/12/21 22:25:42

el-divide（vue3总）

分割线使用...

编程日记 2024/12/21 22:23:40

开源爬虫框架OpenClaw深度集成Bitrix24：企业级数据自动化采集实战

1. 项目概述：当开源爬虫框架遇上企业级CRM如果你正在寻找一个能够与Bitrix24深度集成、稳定可靠且高度可定制的数据采集方案，那么rsvbitrix/openclaw-bitrix24这个开源项目绝对值得你花时间深入研究。简单来说，这是一个基于Python的爬虫框架&…...

编程新知 2026/5/15 8:14:29

BMP388/BMP390高精度气压传感器：从原理到Arduino/Python实战应用

1. 项目概述：高精度气压传感器的核心价值在嵌入式开发和物联网项目中，获取精确的环境数据往往是第一步。无论是无人机需要稳定的定高飞行，还是气象站要记录大气压力的细微变化，亦或是智能手表想要追踪你的楼层变化，都离…...

编程新知 2026/5/15 7:25:28

《简明银行会计（程序员视角）》详细读书笔记

一、核心定位与学习意义本书核心：用程序员能听懂的逻辑，拆解银行会计底层规则、账务流程、核心科目、清算结算逻辑，避开纯财会晦涩术语，贴合金融开发、银行系统、支付清算、账务核心开发场景。程序员学习价值：看懂银行…...

编程新知 2026/5/15 6:49:42

OptimiLabs velocity：轻量级模型服务化部署实战指南

1. 项目概述与核心价值最近在开源社区里，OptimiLabs 推出的 velocity 项目引起了我的注意。这名字起得挺有意思，直译过来就是“速度”，一听就知道是冲着提升效率去的。作为一个长期在数据科学和机器学习工程化领域摸爬滚打的人，我…...

编程新知 2026/5/15 5:42:08

AI编程伴侣：基于LLM的IDE集成开发助手设计与实战

1. 项目概述：一个为开发者定制的AI编程伴侣如果你是一名开发者，每天在IDE里敲代码的时间超过8小时，那你一定对“上下文切换”带来的效率损耗深有体会。你正全神贯注地写一个复杂的业务逻辑，突然需要查一个API的用法，于…...

编程新知 2026/5/15 3:41:37

VoLTE技术解析：4G语音实现原理与优化实践

1. VoLTE技术概述VoLTE（Voice over LTE）作为4G LTE网络上的语音解决方案，从根本上改变了传统移动语音的传输方式。这项技术将语音信号数字化为IP数据包，通过LTE网络的全IP架构进行传输，完全摆脱了2G/3G时代依赖的电路交…...

编程新知 2026/5/15 3:10:13

在线水印去除怎么做？2026年在线水印去除工具推荐与方法盘点

在日常工作和生活中，我们经常需要处理带有水印的图片、视频或文档。无论是工作素材整理、内容创作还是个人资料处理，了解如何使用在线水印去除方法都能显著提升效率。本文将系统梳理2026年主流的在线水印去除工具，并详细介绍各类去水印方法的…...

编程新知 2026/5/15 1:04:03

2026年AI大模型API中转站深度测评：谁能成为生产环境下的最优解决方案？

2026年，AI模型的迭代速度进一步加快。从年初在技术社区引起轰动的OpenClaw架构，到GPT - 5.4、Claude 4.6等性能领先的通用模型，再到视频生成领域的Sora2与Veo3，模型之间的竞争愈发激烈。然而，国内开发者在调用这些模型…...

编程新知 2026/5/15 1:01:36

5步掌握Fillinger智能填充：提升Illustrator效率的终极指南

5步掌握Fillinger智能填充：提升Illustrator效率的终极指南【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 还在为Adobe Illustrator中繁琐的图案填充工作而烦恼吗&#…...

编程新知 2026/5/15 0:20:03

3PEAK思瑞浦 TPA1812-VS1R MSOP8 运算放大器

特性供电电压:4伏至30伏低功耗:在25C时为55A(典型值) 低偏移电压:8V在25C(最大值) 零漂:0.01V/C 轨到轨输出增益带宽积:500kHz 斜率:0.3V/...

编程新知 2026/5/15 0:07:26