【机器学习数据集】如何获得机器学习的练习数据?
一、scikit-learn自带数据集
Scikit-learn内置了很多可以用于机器学习的数据,可以用两行代码就可以使用这些数据。
自带的小的数据集为:sklearn.datasets.load_<name>
load_boston | Boston房屋价格 | 回归 | 506*13 |
fetch_california_housing | 加州住房 | 回归 | 20640*9 |
load_diabetes | 糖尿病 | 回归 | 442*10 |
load_digits | 手写字 | 分类 | 1797*64 |
load_breast_cancer | 乳腺癌 | 分类、聚类 | (357+212)*30 |
load_iris | 鸢尾花 | 分类、聚类 | (50*3)*4 |
load_wine | 葡萄酒 | 分类 | (59+71+48)*13 |
load_linnerud | 体能训练 | 多分类 | 20 |
怎么用:
数据集的信息关键字:
DESCR:
数据集的描述信息
data:
内部数据(即:X)
feature_names:
数据字段名
target:
数据标签(即:y)
target_names:
标签字段名(回归数据集无此项)
使用方法
(以load_iris为例)
数据介绍:
一般用于做分类测试
有150个数据集,共分为3类,每类50个样本。每个样本有4个特征。
每条记录都有 4 项特征:包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。
可以通过这4个特征预测鸢尾花卉属于(iris-setosa(山鸢尾), iris-versicolour(杂色鸢尾), iris-virginica(维吉尼亚鸢尾))中的哪一品种。
第一步:导入数据
from sklearn.datasets import load_iris
iris = load_iris()第二步:定义X和y
X, y = iris.data, iris.target此外,可以看下数据的维度:
X.shape,y.shape输出为:
((150, 4), (150,))查看特征名:
iris.feature_names输出为:
['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']查看标签名:
iris.target_names输出为:array(['setosa', 'versicolor', 'virginica'], dtype='<U10')第三步:划分训练集和测试集:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)接下来就可以用机器学习算法进行训练和测试了。
小技巧:将数据转换为Dataframe格式(两种方法都可以):
import pandas as pd
df_X = pd.DataFrame(iris.data, columns=iris.feature_names)
#这个是X
df_y = pd.DataFrame(iris.target, columns=["target"])
#这个是y
df=pd.concat([df_X,df2],axis=1)#横向合并
df.head()或者:
import numpy as np
import pandas as pd
col_names = iris['feature_names'] + ['target']
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns=col_names)
df.head()输出结果一致:

二、可在线下载的数据集(需要下载)
下载的数据集为:sklearn.datasets.fetch_<name>
fetch_20newsgroups | 用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器 |
fetch_20newsgroups_vectorized | 这是上面这个文本数据的向量化后的数据,返回一个已提取特征的文本序列,即不需要使用特征提取器 |
fetch_california_housing | 加利福尼亚的房价数据,总计20640个样本,每个样本8个属性表示,以及房价作为target,所有属性值均为number,详情可调用fetch_california_housing()['DESCR']了解每个属性的具体含义; |
fetch_covtype | 森林植被类型,总计581012个样本,每个样本由54个维度表示(12个属性,其中2个分别是onehot4维和onehot40维),以及target表示植被类型1-7,所有属性值均为number,详情可调用fetch_covtype()['DESCR']了解每个属性的具体含义 |
fetch_kddcup99 | KDD竞赛在1999年举行时采用的数据集,KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础,包含41项特征 |
fetch_lfw_pairs | 该任务称为人脸验证:给定一对两张图片,二分类器必须预测这两个图片是否来自同一个人。 |
fetch_lfw_people | 打好标签的人脸数据集 |
fetch_mldata | 从 mldata.org 中下载数据集 |
fetch_olivetti_faces | Olivetti 脸部图片数据集 |
fetch_rcv1 | 路透社新闻语聊数据集 |
fetch_species_distributions | 物种分布数据集 |
使用方法与自带数据集一致,只是多了下载过程(示例:fetch_20newsgroups)
from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all') #本次使用的数据需要到互联网上下载
from sklearn.model_selection import train_test_split
#对数据训练集和测试件进行划分
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)三、生成数据集
可以用来分类任务,可以用来回归任务,可以用来聚类任务,用于流形学习的,用于因子分解任务的,用于分类任务和聚类任务的:这些函数产生样本特征向量矩阵以及对应的类别标签集合
make_blobs:多类单标签数据集,为每个类分配一个或多个正态分布的点集
make_classification:多类单标签数据集,为每个类分配一个或多个正态分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等
make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类
make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度
make_circle和make_moons:产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据
举例:
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)
plt.title('make_moons function example')
plt.scatter(X[:,0],X[:,1],marker='o',c=y)
plt.show()
四、网页下载数据集
深度学习数据集
MS-COCO
COCO是一个可用于object detection, segmentation and caption的大型数据集。
http://cocodataset.org/#home
ImageNet
图像总数约1,500,000; 每个都有多个边界框和相应的类标签。
大小:约150GB
http://www.image-net.org
Yelp Reviews
它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。
大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)
数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市
https://www.yelp.com/dataset
其它数据集
kaggle:
https://www.kaggle.com
天池:
https://tianchi.aliyun.com/dataset
搜狗实验室:
http://www.sogou.com/labs/resource/list_pingce.php
DC竞赛:
https://www.pkbigdata.com/common/cmptIndex.html
DF竞赛:
https://www.datafountain.cn/datasets
Google数据集
[需要科学上网]
https://toolbox.google.com/datasetsearch
科赛网
https://www.kesci.com/home/dataset
微软数据集
https://msropendata.com/
UCI机器学习数据库
大名鼎鼎的数据集网站,现在包含了557个数据集,其中绝大多数可以直接下载并且很多的论文中benchmark也来源于此。
https://archive.ics.uci.edu/ml/datasets.php
多类别分类数据集
里面包含了很多了多分类的数据集,有时序的和非时序的。
http://www.uco.es/kdis/mllresources/
参考资料:
https://mp.weixin.qq.com/s/VR6HDh89wNAUsZWGkoCKow
https://scikit-learn.org/stable/datasets/index.html
https://blog.csdn.net/fendouaini/article/details/79871922
本文主要参考以上资料整理,如果对您有帮助,希望您点赞+收藏+评论,您的支持是我更新的动力~
相关文章:
【机器学习数据集】如何获得机器学习的练习数据?
一、scikit-learn自带数据集Scikit-learn内置了很多可以用于机器学习的数据,可以用两行代码就可以使用这些数据。自带的小的数据集为:sklearn.datasets.load_<name>load_bostonBoston房屋价格回归506*13fetch_california_housing加州住房回归20640…...
【编程实践】使用 Kotlin HTTP 框架 Fuel 实现 GET,POST 接口 kittinunf.fuel【极简教程】
目录 Fuel 简介 实现代码 GET网络请求用法(有三种写法...
大数据DataX(一):DataX的框架设计和插件体系
文章目录 DataX的框架设计和插件体系 一、DataX是什么...
软考高级信息系统项目管理师系列之十一:项目进度管理
软考高级信息系统项目管理师系列之十一:项目进度管理 一、进度管理领域输入、输出、工具和技术表二、项目进度管理1.项目进度管理过程2.项目进度管理三、项目进度管理过程1.项目进度管理2.工作包和活动3.活动清单4.活动属性5.项目进度网络图6.资源日历7.活动资源需求8.资源分解…...
vue2版本《后台管理模式》(下)
文章目录前言一、home 页以下都属于home子组件二、header 头部 组件二、Menu 页面三、Bread 面包屑四、Footer五 、分页器: Pageing六、权限管理总结前言 这章…...
软考中级-程序设计语言
(1)解释器解释源程序时不生成独立的目标代码,源程序和解释程序都参与到程序执行中。(2)编译器编译时生成独立的目标代码,运行时是运行与源程序等价的目标程序,源程序不参与执行。阶段补充&#…...
Sphinx : 高性能SQL全文检索引擎
Sphinx是一款基于SQL的高性能全文检索引擎,Sphinx的性能在众多全文检索引擎中也是数一数二的,利用Sphinx,我们可以完成比数据库本身更专业的搜索功能,而且可以有很多针对性的性能优化。 Sphinx的特点 快速创建索引:3分…...
ansible实战应用系列教程6:管理ansible变量
ansbile实战应用系列教程6:管理ansible变量 Ansible VariablesNaming VariablesDefining Variables在playbook中定义变量Defining Variables in Playbooks在playbooks中使用VariablesHost Variables and Group Variables使用group_vars和host_vars目录命令行定义全局变量Varia…...
java8新特性Stream流中anyMatch和allMatch和noneMatch的区别详解
1、anyMatch 判断数据列表中是否存在任意一个元素符合设置的predicate条件,如果是就返回true,否则返回false。 接口定义: boolean anyMatch(Predicate<? super T> predicate); 方法描述: 在anyMatch 接口定义中是接收 Pr…...
双网卡(有线和wifi)同时连接内网和外网
双网卡(有线和wifi)同时连接内网和外网 Win10技巧:如何修改有线/WiFi网络优先级:https://www.ithome.com/html/win10/253612.htm双网卡实现两个网络的自由访问:https://blog.51cto.com/ghostlan/1299090Linux服务器安…...
如何赋能智能运维,迈出数字化黑匣子第一步?
在当下大数据时代,诸多行业专家为企业智能运维绘出美好蓝图。在该蓝图中,互联网、云计算、大数据分析联合发力,企业在能“攻”能“守”中快速、可持续发展。何为“攻”?对支撑企业产品研发、生产、管理、营销等各业务链条的IT基础…...
消息称索尼计划为PS5推出两款蓝牙耳机,Find My蓝牙耳机用途广
根据国外科技媒体 Insider Gaming 报道,索尼计划进一步丰富 PlayStation 5 的配件生态,将会推出两款耳机,一款采用类似于 AirPods 的 TWS 设计,另一款则是无线头戴式耳机。 消息称 TWS 耳机的内部代号为“Project Nomad”&#…...
状态管理VueX
哈喽~大家好,这篇来看看状态管理VueX。 🥇个人主页:个人主页 🥈 系列专栏:【专栏】 🥉与这篇相关的文章: SpringCloud Sentinel 使用SpringClou…...
i.MX8MP平台开发分享(clock篇)- PLL14xx驱动
专栏目录:专栏目录传送门 平台内核i.MX8MP5.15.71文章目录 clk_pll14xx_prepareclk_pll14xx_is_preparedclk_pll1443x_set_rateclk_pll14xx_round_rateclk_pll1443x_recalc_rate在前面的文章i.MX8MP平台开发分享(clock篇)- 各类clock的注册,我们提到VIDEO_PLL1,GPU_PLL等P…...
课程规范性要求
课程制作规范 图片规范 允许范围:CC协议 / 作者授权 / 网站代理授权书 图片大小要求:1600 x 1200 dpi 图片长宽比:4:3 每章节格式要求 Week number 本周目标 1.通过背景学习,了解四足机器狗mini pupper上的微型控…...
华为OD机试 - 优秀学员统计(Python)| 真题+思路+考点+代码+岗位
优秀学员统计 题目 公司某部门软件教导团正在组织新员工每日打卡学习活动,他们开展这项学习活动已经一个月了,所以想统计下这个月优秀的打卡员工。每个员工会对应一个 id,每天的打卡记录记录当天打卡员工的 id 集合,一共 30 天。 请你实现代码帮助统计出打卡次数 top5 的…...
布林线(BOLL)计算公式详解,开口收口代表什么
布林带,英文名称BOLL,是John Bollinger在上世纪八十年代创建的,由中轨、上轨、下轨三条线组成。 一、布林线计算公式详解 布林线中轨是简单移动平均线,一般软件上自带的布林带中轨是20日均线,上轨是中轨加上2个标准差…...
模糊的照片能修复吗?
用照片记录生活,虽然不一定拍得好,但这也是生活应该有的样子。而我们拍得不好,常见就是拍出了模糊的照片,这可能是因为没有对焦或者是手抖了一下,就成了模糊的照片。更多时候未能及时发现,等到想分享一下才…...
【Java|多线程与高并发】详解start()方法和run()方法的区别
文章目录前言1.start()方法和run()方法2.不能两次调用start()方法3.线程的执行是随机的start()方法和run()方法的执行顺序不一定相同4.run()方法由JVM调用public Thread(Runnable target)中的target前言 本篇文章主要讲解以下几个问题: start()方法和run()方法的区别与联系为…...
mysql 一些有意思的sql语句,备忘
### 批量插入 INSERT INTO 表名 (字段列表) VALUES (字段对应的值),(字段对应的值),(字段对应的值),(字段对应的值), js 代码示例: function batchAddOrde…...
Koodo Reader TTS语音朗读终极指南:打造高效听书体验的完整方案
Koodo Reader TTS语音朗读终极指南:打造高效听书体验的完整方案 【免费下载链接】koodo-reader A modern ebook manager and reader with sync and backup capacities for Windows, macOS, Linux and Web 项目地址: https://gitcode.com/GitHub_Trending/koo/kood…...
手把手教你用LTspice仿真DAB双有源桥DC-DC变换器(单移相SPS控制篇)
从零开始用LTspice仿真DAB变换器:单移相控制实战指南 在电力电子领域,双有源桥(DAB)DC-DC变换器因其高效率、双向功率流和电气隔离特性,成为新能源系统、电动汽车充电和直流微电网中的关键组件。但对于初学者来说&…...
C/C++中备受争议却难以替代的goto语句:效率与可读性的博弈
1. goto语句的前世今生 在C/C的世界里,goto就像是个"老古董"——它从1950年代的Fortran语言一路走来,至今仍在某些角落发光发热。我第一次在Linux内核代码里看到密密麻麻的goto时,整个人都懵了:这玩意儿不是教科书上明令…...
VMware安装RHEL9连接Xshell与Linux基础命令vim练习
1、在VMware上创建虚拟机以及安装RHEL9操作系统,使用ssh进行远程连接2、文件管理命令练习: 1(1)在/opt目录下创建一个临时目录tmp;2(2)在临时目录下创建一个文件,文件名为a.txt;3、vi/vim练习:完成如下步骤(1)应用vi命令在/tmp文件夹下创建文…...
ncmdump终极解密攻略:5分钟实现网易云音乐NCM格式无损转换
ncmdump终极解密攻略:5分钟实现网易云音乐NCM格式无损转换 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾为下载的网易云音乐只能在特定平台播放而烦恼?NCM格式的音乐文件像是被上了一把无形的锁&am…...
告别插件冲突!手把手教你手动安装Obsidian动态目录插件(Dynamic Table of Contents)
告别插件冲突!Obsidian动态目录插件手动安装全指南 为什么需要手动安装动态目录插件? Obsidian作为一款强大的知识管理工具,其插件生态让用户能够高度自定义工作流。然而,插件间的兼容性问题常常成为用户痛点。许多用户习惯使用Fl…...
运筹优化算法工程师入门指南:从数学基础到实战项目(附学习资源清单)
运筹优化算法工程师入门指南:从数学基础到实战项目(附学习资源清单) 运筹优化(Operations Research)作为一门融合数学建模与工程实践的学科,正在供应链管理、智能制造、交通调度等领域展现出不可替代的价值…...
Flowable 6.3.0 从安装到实战:手把手教你搭建第一个BPMN流程(附MySQL 8.0避坑指南)
Flowable 6.3.0实战指南:从零构建企业级流程引擎 当企业业务流程复杂度超过CRUD范畴时,一套可靠的流程引擎就成为技术架构中的关键基础设施。作为Activiti原班团队打造的新一代开源BPM引擎,Flowable 6.3.0在保持轻量级特性的同时,…...
基于Python的宽带业务管理系统毕设源码
博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于Python的宽带业务管理系统,以提升宽带服务提供商的业务管理效率和客户服务质量。具体研究目的如下:系统架构…...
Anomalib使用
Anomalib 是一个专注于视觉异常检测的开源库,旨在为开发者、研究人员和工业用户提供一站式解决方案。无论是检测生产线上的产品缺陷、监控视频中的异常行为,还是识别医疗影像中的病灶,Anomalib 都能胜任。其设计理念是简单、模块化、高效&…...
