当前位置：首页 > news >正文

【scikit-learn基础】--『数据加载』之样本生成器

news 2026/4/7 1:18:19

除了内置的数据集，scikit-learn还提供了随机样本的生成器。通过这些生成器函数，可以生成具有特定特性和分布的随机数据集，以帮助进行机器学习算法的研究、测试和比较。

目前，scikit-learn库（v1.3.0版）中有20个不同的生成样本的函数。本篇重点介绍其中几个具有代表性的函数。

1. 分类聚类数据样本

分类和聚类是机器学习中使用频率最高的算法，创建各种相关的样本数据，能够帮助我们更好的试验算法。

1.1. make_blobs

这个函数通常用于可视化分类器的学习过程，它生成由聚类组成的非线性数据集。

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobsX, Y = make_blobs(n_samples=1000, centers=5)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)plt.show()

上面的示例生成了1000个点的数据，分为5个类别。

make_blobs的主要参数包括：

n_samples：生成的样本数。
n_features：每个样本的特征数。通常为2，表示我们生成的是二维数据。
centers：聚类的数量。即生成的样本会被分为多少类。
cluster_std：每个聚类的标准差。这决定了聚类的形状和大小。
shuffle：是否在生成数据后打乱样本。
random_state：随机数生成器的种子。这确保了每次运行代码时生成的数据集都是一样的。

1.2. make_classification

这是一个用于生成复杂二维数据的函数，通常用于可视化分类器的学习过程或者测试机器学习算法的性能。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classificationX, Y = make_classification(n_samples=100, n_classes=4, n_clusters_per_class=1)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)plt.show()

可以看出它生成的各类数据交织在一起，很难做线性的分类。

make_classification的主要参数包括：

n_samples：生成的样本数。
n_features：每个样本的特征数。这个参数决定了生成的数据集的维度。
n_informative：具有信息量的特征的数量。这个参数决定了特征集中的特征有多少是有助于分类的。
n_redundant：冗余特征的数量。这个参数决定了特征集中的特征有多少是重复或者没有信息的。
random_state：随机数生成器的种子。这确保了每次运行代码时生成的数据集都是一样的。

1.3. make_moons

和函数名称所表达的一样，它是一个用于生成形状类似于月牙的数据集的函数，通常用于可视化分类器的学习过程或者测试机器学习算法的性能。

from sklearn.datasets import make_moonsfig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)X, Y = make_moons(noise=0.01, n_samples=1000)
ax[0].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[0].set_title("noise=0.01")X, Y = make_moons(noise=0.05, n_samples=1000)
ax[1].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[1].set_title("noise=0.05")X, Y = make_moons(noise=0.5, n_samples=1000)
ax[2].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[2].set_title("noise=0.5")plt.show()

noise越小，数据的分类越明显。

make_moons的主要参数包括：

n_samples：生成的样本数。
noise：在数据集中添加的噪声的标准差。这个参数决定了月牙的噪声程度。
random_state：随机数生成器的种子。这确保了每次运行代码时生成的数据集都是一样的。

2. 回归数据样本

除了分类和聚类，回归是机器学习的另一个重要方向。scikit-learn同样也提供了创建回归数据样本的函数。

from sklearn.datasets import make_regressionfig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)X, y = make_regression(n_samples=100, n_features=1, noise=20)
ax[0].scatter(X[:, 0], y, marker="o")
ax[0].set_title("noise=20")X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax[1].scatter(X[:, 0], y, marker="o")
ax[1].set_title("noise=10")X, y = make_regression(n_samples=100, n_features=1, noise=1)
ax[2].scatter(X[:, 0], y, marker="o")
ax[2].set_title("noise=1")plt.show()

通过调节noise参数，可以创建不同精确度的回归数据。

make_regression的主要参数包括：

n_samples：生成的样本数。
n_features：每个样本的特征数。通常为一个较小的值，表示我们生成的是一维数据。
noise：噪音的大小。它为数据添加一些随机噪声，以使结果更接近现实情况。

3. 流形数据样本

所谓流形数据，就是S形或者瑞士卷那样旋转的数据，可以用来测试更复杂的分类模型的效果。比如下面的make_s_curve函数，就可以创建S形的数据：

from sklearn.datasets import make_s_curveX, Y = make_s_curve(n_samples=2000)fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
fig.set_size_inches((8, 8))
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=Y, s=60, alpha=0.8)
ax.view_init(azim=-60, elev=9)
plt.show()

4. 总结

本文介绍的生成样本数据的函数只是scikit-learn库中各种生成器的一部分，还有很多种其他的生成器函数可以生成更加复杂的样本数据。

所有的生成器函数请参考文档：API Reference — scikit-learn 1.3.2 documentation

文章转载自：wang_yb

原文链接：https://www.cnblogs.com/wang_yb/p/17884401.html

【scikit-learn基础】--『数据加载』之样本生成器

除了内置的数据集，scikit-learn还提供了随机样本的生成器。通过这些生成器函数，可以生成具有特定特性和分布的随机数据集，以帮助进行机器学习算法的研究、测试和比较。目前，scikit-learn库（v1.3.0版）中有2…...

编程日记 2023/12/12 14:45:12

基于 ESP32-S3 的 Walter 开发板

Walter 是一款基于 ESP32-S3 且拥有 5G LTE 连接功能的新型开源开发套件。近日，比利时公司 DPTechnics BV 推出了一款基于乐鑫 ESP32-S3 且拥有 5G LTE 连接功能的新型开源开发套件。该套件即将在 Crowd Supply 平台上发布，您可以点击此处了解详情。无…...

编程日记 2023/12/12 14:42:09

Gitlab+GitlabRunner搭建CICD自动化流水线将应用部署上Kubernetes

文章目录安装Gitlab服务器准备安装版本安装依赖和暴露端口安装Gitlab修改Gitlab配置文件访问Gitlab 安装Gitlab Runner服务器准备安装版本安装依赖安装Gitlab Runner安装打包工具安装docker安装java17安装maven 注册Gitlab Runner 搭建自动化部署准备SpringBoot项目添加一个Co…...

编程日记 2023/12/12 14:40:08

待做-待补充-每个节点做事，时间，以及与角度的关系

文章目录纲领1.是否可以通过遍历一遍二叉树得到答案2.是否可以通过两颗子树相同问题的答案推导出树的答案(形式为递归)无论哪种思维模式，都需要思考:单独一个二叉树节点，它需要做什么事情？需要在什么时候做后序判断问题是否和子树相关&…...

编程日记 2023/12/12 14:39:07

液态二氧化碳储存罐远程无线监测系统

二氧化碳强化石油开采技术，须先深入了解石油储层的地质特征和二氧化碳的作用机制。现场有8辆二氧化碳罐装车，每辆罐车上有4台液态二氧化碳储罐，每台罐的尾部都装有一台西门子S7-200 smart PLC。在注入二氧化碳的过程中，中控室S7-1…...

编程日记 2023/12/12 14:36:04

kafka学习笔记--安装部署、简单操作

本文内容来自尚硅谷B站公开教学视频，仅做个人总结、学习、复习使用，任何对此文章的引用，应当说明源出处为尚硅谷，不得用于商业用途。如有侵权、联系速删视频教程链接：【尚硅谷】Kafka3.x教程（从入门到调优…...

编程日记 2023/12/12 14:34:02

UE4 材质实现Glitch效果

材质实现Glitch效果 UE4 材质实现Glitch效果预览1预览2 UE4 材质实现Glitch效果预览1 添加材质函数： MF_RandomNoise 添加材质： 预览2 添加材质函数MF_CustomPanner： 添加材质函数：MF_Glitch 材质添加： 下面用…...

编程日记 2023/12/12 14:33:02

oracle实验2023-12-8--触发器

第十四周实验【例】功能要求：增加一新表XS_1，表结构和表XS相同，用来存放从XS表中删除的记录。分析: 1、创建表 xs_1 SQL> create table xs_1 as select * from xs; Table created SQL> truncate table xs_1; Table truncated题目&a…...

编程日记 2023/12/12 14:29:59

【Python百宝箱】贝叶斯统计的魅力：从PyMC3到ArviZ，探索数据背后的不确定性

标题：预测未来趋势的利器：深入贝叶斯统计和概率编程的世界前言贝叶斯统计和概率编程是一种强大的分析方法，可以帮助我们处理不确定性、建立灵活的模型以及进行参数估计和推断。本文将介绍几个常用的Python库，包括PyMC3、ArviZ…...

编程日记 2023/12/12 14:28:58

Knowledge Graph知识图谱—8. Web Ontology Language (OWL)

8. Web Ontology Language (OWL) 在RDFs不可能实现： Property cardinalities, Functional properties, Class disjointness, we cannot produce contradictions, circumvent the Non Unique Naming Assumption, circumvent the Open World Assumption 8.1 OWL Tr…...

编程日记 2023/12/12 14:27:57

排序算法——冒泡排序

排序算法是计算机科学中最基本的概念之一。在众多排序算法中，冒泡排序因其实现简单而被广泛学习。尽管它不是最高效的排序方法，但对于理解基本的排序概念非常有用。本文将深入探讨冒泡排序的原理、实现、优缺点以及应用场景。 1. 冒泡排序原理冒泡排序…...

编程日记 2023/12/12 14:26:55

边缘智能网关如何应对环境污染难题

随着我国工业化、城镇化的深入推进，包括大气污染在内的环境污染防治压力继续加大。为应对环境污染防治难题，佰马综合边缘计算、物联网、智能感知等技术，基于边缘智能网关打造环境污染实时监测、预警及智能干预方案，可应用于大气保…...

编程日记 2023/12/12 14:24:53

uniapp定时器的应用

1、初始化定时器 data(){return{timer: null, //定时器} } 2、定时器的使用定时器分两种，setInterval和setTimeout。二者的区别： setInterval函数会无限执行下去，除非调用clearInterval函数来停止它。setTimeout函数只执行一次&#x…...

编程日记 2023/12/12 14:23:52

Docker中安装Oracle10g和oracle增删改查

Docker中安装Oracle 10g 一、Docker中安装Oracle 10安装步骤二、连接数据库登录三 oracle数据库的增删改查及联表查询的相关操作oracle数据库,创建students数据表,创建100万条数据增删改查一、Docker中安装Oracle 10安装步骤 Docker中安装Oracle 10g 1.下载镜像 docker pull …...

编程日记 2023/12/12 14:21:50

推荐算法：HNSW【推荐出与用户搜索的类似的/用户感兴趣的商品】

HNSW算法概述 HNSW（Hierarchical Navigable Small Word）算法算是目前推荐领域里面常用的ANN（Approximate Nearest Neighbor）算法了。其目的就是在极大量的候选集当中如何快速地找到一个query最近邻的k个元素。要找到一个query的…...

编程日记 2023/12/12 14:19:48

C++ //例3.14 找出100~200间的全部素数。

C程序设计 （第三版） 谭浩强例3.14 例3.14 找出100~200间的全部素数。 IDE工具：VS2010 Note: 使用不同的IDE工具可能有部分差异。代码块方法：使用函数的模块化设计 #include <iostream> #include <iomanip> #i…...

编程日记 2023/12/12 14:17:46

虚幻学习笔记11—C++结构体、枚举与蓝图的通信

一、前言结构体的定义和枚举类似，枚举的定义有两种方式。区别是结构体必须以“F”开头命名，而枚举不用。额外再讲了一下蓝图生成时暴露变量的方法。二、实现 2.1、结构体 1、定义结构体代码如下，注意这个定义的代码一定要在“UCLASS()”…...

编程日记 2023/12/12 14:16:45

【android开发-19】android中内容提供者contentProvider用法讲解

1，内容URI 在Android系统中，Content URI是一种用于唯一标识和访问应用程序中的数据的方法。它由Android系统提供，通过Content Provider来实现数据的共享和访问。 Content URI使用特定的格式来标识数据，通常以"content://&qu…...

编程日记 2023/12/12 14:13:42

浅谈排序——快速排序（最常用的排序）

快速排序（Quick Sort）是一种常见的排序算法，由英国计算机科学家东尼霍尔（Tony Hoare）在1960年发明。这是一种分治算法，基本思想是通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所…...

编程日记 2023/12/12 14:11:41

Springboot项目实现简单的文件服务器，实现文件上传+图片及文件回显

文章目录写在前面一、配置1、application.properties2、webMvc配置3、查看效果二、文件上传写在前面平常工作中的项目，上传的文件一般都会传到对象存储云服务中。当接手一个小项目，如何自己动手搭建一个文件服务器，实现图片、文件的回显…...

编程日记 2023/12/12 14:10:40

公开信息整理｜2026年3月12日：公积金改革、儿童友好建设、存款利率进入“1时代”与科技突破速览

🔥个人主页：杨利杰YJlio❄️个人专栏：《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...

编程新知 2026/4/6 23:32:31

视觉化看板工具怎么选？9 款创意团队项目协作平台优势分析

本文将深入对比 9 款支持视觉化看板的项目协作工具：Worktile、Trello、Asana、monday.com、ClickUp、Wrike、Notion、Jira、Teambition，重点分析它们在创意团队中的项目管理能力、适用场景、部署方式、协作效率与安全合规差异，帮助企业选型者…...

编程新知 2026/4/6 23:16:06

为什么工业 AI 必须引入本体论？

如果你只用大语言模型（LLM）写周报、画插图、做视频，你只需要关心它聪不聪明。但如果你要用它去设计一座造价上亿的芯片工厂、去控制百万集群算力中心的液冷系统。你就必须回答：AI 凭什么保证绝对不出错？大模型的数学本…...

编程新知 2026/4/6 23:14:05

[具身智能-238]：openCV颜色识别的原理与代码示例？

OpenCV 进行颜色识别的核心原理，是将图像从 BGR 颜色空间转换到 HSV 颜色空间，然后通过设定阈值来分割出特定的颜色。这种方法比直接在 BGR 空间操作更稳定、更直观，因为它将颜色信息（色调）和亮度信息（明…...

编程新知 2026/4/6 23:09:59

MaterialSkin：让WinForms应用焕发现代设计光彩的主题框架

MaterialSkin：让WinForms应用焕发现代设计光彩的主题框架【免费下载链接】MaterialSkin Theming .NET WinForms, C# or VB.Net, to Googles Material Design Principles. 项目地址: https://gitcode.com/gh_mirrors/ma/MaterialSkin 在传统Windows桌面应用开…...

编程新知 2026/4/6 21:58:30

[安卓逆向]问题解决：Xposed-Disable-FLAG_SECURE的截图限制解除与实战部署

[安卓逆向]问题解决：Xposed-Disable-FLAG_SECURE的截图限制解除与实战部署【免费下载链接】Xposed-Disable-FLAG_SECURE Xposed Module to Disable FLAG_SECURE, enabling screenshots, screen sharing and recording in apps that normally wouldnt allow it. 项…...

编程新知 2026/4/6 21:46:13

ComfyUI Essentials：填补ComfyUI核心缺失功能的必备插件指南

ComfyUI Essentials：填补ComfyUI核心缺失功能的必备插件指南【免费下载链接】ComfyUI_essentials 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_essentials ComfyUI Essentials是一款专门为ComfyUI用户设计的插件，它提供了ComfyUI核心…...

编程新知 2026/4/6 21:05:42