当前位置：首页 > news >正文

勇闯机器学习（第二关-数据集使用）

news 2026/5/17 4:04:18

以下内容，皆为原创，重在无私分享高质量知识，制作实属不易，请点点关注。

好戏开场了~~~(这关涉及到了加载数据集的代码，下一关，教你们安装机器学习库)

一.数据集

这一关的目标
- 知道数据集被分为训练集和测试集
- 会使用sklearn的数据集

1.可用数据集

scikit-learn网址：scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation

UCI网址：UCI Machine Learning Repository

Kaggle网址：Bohrium

scikit-learn 数据量小，方便学习
- UCI 收录360个数据集，覆盖科技、生活、经济等领域，数据量几十万。
- Kaggle 大数据竞赛平台，真实数据，数据量巨大

如以下图所示，这个就是UCI机器学习的网站和scikit-learn机器学习的网站。

二.使用sclearn数据集

1.scikit-learn数据集API介绍

# 用sklearn中的datasets方法(sklearn.datasets)1.加载获取流行数据集2.datasets.load_*()获取小规模数据集，数据包含在datasets中3.datasets。fetch_*(data_home=None)获取大规模数据集，需要从网上下载，函数第一个参数是data_home，表示数据集下载的目录。你可以自己定义位置。C盘D盘都行

2.sklearn小数据集

加载并返回鸢尾花数据集。当然还有一个常见的波士顿房价数据集，但是

`load_boston` has been removed from scikit-learn since version 1.2.这个是我在加载波士顿房价数据集，出现的报错，所以要注意好自己的版本。

import sklearn
from sklearn.datasets import load_iris# Load the iris dataset
print(sklearn.datasets.load_iris())

这个就是我在jupyter notebook里，打印出来鸢尾花的数据集。

鸢尾花数据集
名称	数量
类别	3
特征	4
样本数量	150
每个类别数量	5

3.sklearn大数据集

加载大数据集，我们就要用fetch_*，用于加载大数据集。那个*指的是加载的数据集的名称。

3.1 sklearn数据集返回值介绍

load和fetch返回的数据类型datasets.base.Bunch(字典格式)

data:特征数据数组
target：目标数组（标签数组）
DESCR：数据描述
feature_names：特征名
target_names:目标名（标签名）

from sklearn.datasets import load_iris
# 将加载的数据集传给iris变量
iris = load_iris()
print("鸢尾花的数据集:\n", iris)
print("查看鸢尾花的特征值:\n", iris["data"])
print("查看鸢尾花的目标值:\n", iris.target)
print("查看鸢尾花特征的名字:\n", iris.feature_names)
print("查看鸢尾花目标值的名字:\n", iris.target_names)
print("查看数据集描述:\n", iris["DESCR"])

字典的元素是键值对的形式，所以获取值的方式有两种:

dict['key'] = value
bunch.key = value

三.训练模型

思考：要不要用全部数据来训练一个模型？？

内心独白：肯定不行啊，你要一部分来进行模型评估啊，看你的模型好不好。

所以数据集，分为训练集（用于训练，构建模型）和测试集（在模型核验时，用于评估模型是否有效）。

划分的标准（上下组合）：

1.训练数据：70% 80% 75%

2.测试数据：30% 20% 30%

我们希望训练的模型好一点，所以让训练集多一点。

# 导入加载鸢尾花数据集的方法
from sklearn.datasets import load_iris
# 导入划分数据集的方法
from sklearn.model_selection import train_test_split# 加载鸢尾花数据
iris = load_iris()# 有了加载数据，才能划分数据集
# 这四个分别对应后面方法的四个返回值（训练集的特征值，测试集的特征值，训练集的目标值， 测试集的目标值）
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集的特征值", x_train, x_train.shape)

四.懵笔时刻

在划分数据集时，那四个变量为什么这么命名？

不错，问得好。举个例子，在数学中，我们都是有X值去求Y值，那么Y就是我们的目标值。所以X就是数据集的特征值，Y就是数据集的目标值。后面方法里的参数test_size是测试集的大小，一般为float类型（20%，0.2,以此类推）。random_state是随机数种子，不同的种子造成不同的随机采样结果，相同的种子采样结果相同。

为什么要用四个变量，而不是三个或者五个变量？

因为那个方法就是返回的四个值啊，我能有什么办法！！what can I say？！！

return 训练集的特征值，测试集的特征值。训练集的目标值，测试集的目标值。

五.谢谢大家的观看，后续持续分享高质量内容~~~~

勇闯机器学习（第二关-数据集使用）

以下内容，皆为原创，重在无私分享高质量知识，制作实属不易，请点点关注。好戏开场了~~~(这关涉及到了加载数据集的代码，下一关，教你们安装机器学习库) 一.数据集这一关的目标知道数据集被分为训练集和测…...

编程日记 2024/8/21 13:16:17

数据库学习（进阶）

数据库学习（进阶） Mysql结构:连接层：服务层（核心层）：存储引擎层：系统文件层： 存储引擎（概述）:存储引擎特点：InnoDB存储引擎：(为并发条…...

编程日记 2024/8/21 13:14:16

redis的数据结构——跳表（Skiplist）

跳表（Skiplist）是一种用于有序数据存储的高效数据结构，它在Redis中用于实现有序集合（Sorted Set，zset）的底层存储。当有序集合中的数据较多时，Redis会选择使用跳表来存储元素，以便在保持数据有序的同时提供高效的插入、删除、查找操作。跳表的基本结构跳表是一种多…...

编程日记 2024/8/21 13:12:14

Docker服务迁移

1 备份当前服务器上的 Docker 数据 1.1 停止 Docker 服务为了确保数据一致性，在备份之前先停止 Docker 服务： sudo systemctl stop docker1.2 备份 Docker 数据 Docker 的数据通常位于 /var/lib/docker 目录。你可以使用 tar 命令将该目录压缩成一个…...

编程日记 2024/8/21 13:11:12

机器学习：逻辑回归实现下采样和过采样

1、概述逻辑回归本身是一种分类算法，它并不涉及下采样或过采样操作。然而，在处理不平衡数据集时，这些技术经常被用来改善模型的性能。下采样和过采样是两种常用的处理不平衡数据集的方法。 2、下采样 1、概念下采样是通过减少数量较多的类…...

编程日记 2024/8/21 13:10:11

React原理之Fiber双缓冲

前置文章： React原理之 React 整体架构解读React原理之整体渲染流程React原理之Fiber详解 -----读懂这一篇需要对 React 整体架构和渲染流程有大致的概念 😊----- 在前面的文章中，简单介绍了 Fiber 架构，也了解了 Fiber 节点的…...

编程日记 2024/8/21 13:09:10

机器学习笔记三-检测异常值

检测异常值是数据预处理中非常重要的一步，因为异常值可能会影响模型的训练效果，甚至导致错误的结论。以下是几种常见的检测异常值的方法： 1. 箱线图（Box Plot）： 箱线图是一种简单的统计图形，可…...

编程日记 2024/8/21 13:06:06

如何评估Redis的性能

导语 Redis是一款高性能的内存数据库，被广泛用于缓存、持久化、消息队列等各种场景。为了确保Redis的高性能运行，评估Redis的性能是非常重要的。本文将介绍如何评估Redis的性能，并从问题解决的角度探讨如何优化Redis的性能。 1. 性能评估指…...

编程日记 2024/8/21 13:05:05

RabbitMQ发布订阅模式Publish/Subscribe详解

订阅模式Publish/Subscribe 基于API的方式1.使用AmqpAdmin定制消息发送组件2.消息发送者发送消息3.消息消费者接收消息基于配置类的方式基于注解的方式总结 SpringBoot整合RabbitMQ中间件实现消息服务，主要围绕3个部分的工作进行展开：定制中间件、消息发…...

编程日记 2024/8/21 13:04:03

在Android8.1上面对APK进行Android系统源码环境下的签名，发现签名时出现如下错误： Exception in thread "main" java.lang.ExceptionInInitializerError at org.conscrypt.OpenSSLBIOInputStream.(OpenSSLBIOInputStream. at org.conscrypt.OpenSSLX509Certificat…...

编程日记 2024/8/21 13:03:02

2024年城市客运安全员考试题库及答案

一、单选题 376.根据《机动车运行安全技术条件》（GB7258---2017），每个应急出口应在其附近设有"应急出口"字样，字体高度应大于或等于（）mm。 A.20 B.30 C.40 D.50 答案：C 377.根…...

编程日记 2024/8/21 13:02:00

全网最全面的Nginx内容（理论与实践相结合）

一、Web服务 1.1 web服务访问流程 1.2 Web服务 1.2.1 Web服务器分类 Web服务分为Apache和Nginx 1.2.2 Apache经典的Web服务器 1.2.2.1 Apache介绍 Apache HTTP Server（简称Apache）是Apache软件基金会的一个开放源码的网页服务器，可以…...

编程日记 2024/8/21 13:00:59

（七）Flink Watermark

Flink 的 Watermark 是用来标识数据流中的一个时间点。Watermark 的设计是为了解决乱序数据处理的问题，尤其是涉及到多个分区的 Kafka 消费者时。在 Watermark 的作用下，即使某些数据出现了延迟到达的情况，也不会导致整个处理流程的中断。此外，Watermark 还能防止过期的数据…...

编程日记 2024/8/21 12:58:57

springboot 上传文件失败：The temporary upload location

Caused by: java.io.IOException: The temporary upload location [/tmp/tomcat.379776875189163783.8081/work/Tomcat/localhost/jcys-core] is not valid 原因： Linux下会自动清除tmp目录下10天没有使用过的文件，SpringBoot启动的时候会在/tmp目录下生…...

编程日记 2024/8/21 12:57:55

UNiapp之微信小程序导出Excel

效果如下参考小程序：日常记一记 ---账单页面主要功能是根据筛选条件导出账单明细列表，实现该功能主要借助一个工具(excel.js)，可在文章顶部下载或者一下网盘下载 https://pan.baidu.com/s/1RLisuG4_7FGD0Cnwewyabg?pwdpd2a 提取码: pd2a…...

编程日记 2024/8/21 12:56:52

fsadsadsad

adsadsafsada...

编程日记 2024/8/21 12:55:51

高效录制新选择：2024年Windows录屏软件

录屏能帮助我们捕捉屏幕上的精彩瞬间，作为老师可以用来录制课程，作为会议记录员可以用来录制远程会议。那么有什么软件是适合windows录屏的呢？这次我们一起来探讨一下吧。 1.福昕录屏大师链接：www.foxitsoftware.cn/REC/ 这款软…...

编程日记 2024/8/21 12:54:49

Java技术面试（一面）

1、相面对象 1、面相对象语言/Java三大特性是什么？引出封装、‌继承和多态。 2、多态有哪些形式？多态使用过吗？重载、重写，接口和抽象类的多个实现。考察工作经验、代码重构经验、习惯。 3、Java接口和抽象类有什么区别？你是如何选择使用的？考察OOP的理解和工作…...

编程日记 2024/8/21 12:52:48

docker修改数据目录

新建docker数据目录 mkdir /data/docker-data停止docker服务 systemctl stop docker把docker数据迁移到新目录 cp -r /var/lib/docker/* /data/docker-data/修改docker配置 vi /etc/docker/daemon.json #添加data-root参数 {"data-root":"/data/docker-dat...

编程日记 2024/8/21 12:51:47

Appium学习

一、基础配置 import unittest from appium import webdriver from appium.options.android import UiAutomator2Options from appium.webdriver.common.appiumby import AppiumBy from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support …...

编程日记 2024/8/21 12:50:46