当前位置：首页 > news >正文

机器学习介绍与数据集

news 2026/5/27 14:36:04

一、机器学习介绍与定义

1.1 机器学习定义

机器学习（Machine Learning）是让计算机从数据中自动学习规律，并依据这些规律对未来数据进行预测的技术。它涵盖聚类、分类、决策树、贝叶斯、神经网络、深度学习（Deep Learning）等多种算法，基本思路是模拟人类学习行为，通过经验归纳总结规律来预测未来。

1.2 机器学习的发展历史

机器学习的发展历程丰富且具有标志性：

萌芽发展期（20 世纪 50 年代）：图灵测试提出，塞缪尔开发西洋跳棋程序，标志着机器学习进入发展阶段。
发展停滞期（20 世纪 60 - 70 年代）：发展几乎停滞。
复兴时期（20 世纪 80 年代）：神经网络反向传播（BP）算法训练的多参数线性规划（MLP）理念提出，使机器学习复兴。
数据驱动转变期（20 世纪 90 年代）：“决策树”（ID3 算法）和支持向量机（SVM）算法出现，机器学习从知识驱动转变为数据驱动。
蓬勃发展期（21 世纪初至今）：Hinton 提出深度学习，随着算力提升和海量训练样本支持，深度学习成为研究热点并广泛应用。

1.3 机器学习分类

机器学习按学习模式可分为以下几类：

监督学习（Supervised Learning）：从有标签的训练数据中学习模型，用于预测新数据标签，主要用于回归和分类。如预测房价（回归）和判断邮件是否为垃圾邮件（分类）。常见算法包括线性回归、朴素贝叶斯等。
半监督学习（Semi - Supervised Learning）：利用少量标注数据和大量无标注数据学习，侧重于在有监督分类算法中加入无标记样本实现半监督分类。例如在图像分类中，利用少量标注图像和大量未标注图像训练模型。常见算法有 Pseudo - Label、Π - Model 等。
无监督学习（Unsupervised Learning）：从未标注数据中寻找隐含结构，主要用于关联分析、聚类和降维。比如对客户进行聚类分析，找出不同客户群体特征。常见算法有稀疏自编码、主成分分析等。
强化学习（Reinforcement Learning）：通过不断试错学习，有智能体和环境两个交互对象，以及策略、回报函数、价值函数和环境模型（可选）四个核心要素。常用于机器人避障、棋牌类游戏等。如 AlphaGo 通过强化学习在围棋领域取得卓越成绩。

1.4 机器学习需要具备的基础的知识，如何学习机器学习

学习机器学习需具备线性代数、微积分、概率和统计等数学知识，以及编程基础。学习建议如下：

数学基础：掌握线性代数、概率论和统计学概念，理解算法原理。
编程语言：熟练掌握 Python 或 R 语言，它们有丰富的机器学习库和工具。
机器学习算法：了解常见算法原理、应用和优缺点。
机器学习工具和框架：熟悉 scikit - learn、TensorFlow、PyTorch 等工具和框架。
实践项目：通过小型项目提升实践能力，如利用鸢尾花数据集进行分类预测。
学习资源：利用 Coursera、Kaggle、GitHub 等平台的学习资源。
参与机器学习社区：与他人交流经验，参加线下活动。
持续学习和实践：机器学习不断发展，需持续关注研究成果，参与竞赛和项目。

1.5 机器学习的应用场合

机器学习应用广泛，涵盖多个行业领域：

自然语言处理（NLP）：实现语音识别、文本分析、情感分析等，用于智能客服、聊天机器人等。如智能音箱通过语音识别和自然语言处理理解用户指令。
医疗诊断与影像分析：分析医疗图像、预测疾病、辅助药物发现。例如利用深度学习模型诊断医学影像中的疾病。
金融风险管理：分析金融数据，预测市场波动性、信用风险等。银行利用机器学习模型评估客户信用风险。
预测与推荐系统：进行销售预测、个性化推荐。电商平台根据用户购买历史推荐商品。
制造业和物联网：处理传感器数据，实现设备预测性维护和质量控制。工厂利用机器学习预测设备故障，提前维护。
能源管理与环境保护：优化能源管理，提高能源利用效率。通过分析能源数据，制定节能策略。
决策支持与智能分析：分析大量数据，辅助决策制定。企业利用机器学习分析市场数据，制定营销策略。
图像识别与计算机视觉：实现图像分类、目标检测等。安防系统利用图像识别技术识别人员身份。

1.6 机器学习趋势分析

机器学习热点研究包括深度神经网络、强化学习、卷积神经网络、循环神经网络等。以深度神经网络、强化学习为代表的深度学习技术研究热度持续上升，是当前研究热点。

1.7 机器学习项目开发步骤

机器学习项目开发通常包含以下 5 个基本步骤：

收集数据：收集原始数据，数据种类、密度和数量越多，学习效果越好。如收集电商用户购买数据。
准备数据：确定数据质量，处理缺失数据和异常值，进行探索性分析。例如对收集的用户购买数据进行清洗和预处理。
训练模型：选择合适算法和数据表示形式，将清理后的数据分为训练集和测试集，用训练集开发模型。以房价预测为例，选择线性回归算法，用部分数据训练模型。
评估模型：使用测试集评估模型准确性，查看模型在未使用数据上的性能。如用测试集数据评估房价预测模型的准确性。
提高性能：选择不同模型或引入更多变量提高效率。若房价预测模型准确性不高，尝试其他算法或增加更多特征。

二、scikit - learn 工具介绍

2.1 Python 语言机器学习工具

scikit - learn 是 Python 语言的机器学习工具，包含许多智能的机器学习算法实现，文档完善，上手容易，拥有丰富的 API 接口函数。

2.2 官网及文档

官网：https://scikit - learn.org/stable/#
中文文档：sklearn
中文社区：https://scikit - learn.org.cn/

2.3 scikit - learn 安装

使用 pip 安装：

收起

bash

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit - learn

2.4 Scikit - learn 包含的内容

scikit - learn 包含分类、回归、聚类、降维、模型选择、预处理等内容，为机器学习提供全面支持。

三、数据集（重点）

3.1 sklearn 玩具数据集介绍

数据量小，存储在 sklearn 库本地，安装 sklearn 后无需联网即可获取，如鸢尾花数据集。

3.2 sklearn 现实世界数据集介绍

数据量大，需通过网络获取，如 20 分类新闻数据集。

3.3 sklearn 加载玩具数据集

以鸢尾花数据集为例：

收起

python

from sklearn.datasets import load_iris
iris = load_iris()  # 加载鸢尾花数据集

鸢尾花数据集特征包括花萼长、花萼宽、花瓣长、花瓣宽，为三分类数据集（0 - Setosa 山鸢尾、1 - versicolor 变色鸢尾、2 - Virginica 维吉尼亚鸢尾）。iris 对象重要属性有：

收起

python

# data 特征
# feature_names 特征描述
# target  目标
# target_names  目标描述
# DESCR 数据集的描述
# filename 下载到本地保存后的文件名

使用 pandas 展示特征和目标：

收起

python

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
iris = load_iris()
feature = iris.data
target = iris.target
target.shape = (len(target), 1)
data = np.hstack([feature, target])
cols = iris.feature_names
cols.append("target")
pd.DataFrame(data, columns=cols)

3.4 sklearn 获取现实世界数据集

以获取 20 分类新闻数据为例：

收起

python

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(data_home=None, subset='all')

参数说明：
- data_home：默认 None，下载路径为 “C:/Users/ADMIN/scikit_learn_data/20news - bydate_py3.pkz”；也可自定义路径。
- subset：“train” 只下载训练集，“test” 只下载测试集，“all” 下载训练集和测试集。
- return_X_y：默认 False；为 True 时，返回值为元组，包含特征数据集和目标数据集。
返回值说明：
- return_X_y 为 False 时：返回 Bunch 对象，包含 data（特征数据集）、target（目标数据集）、target_names（目标描述）、filenames（新闻数据位置路径）。
- return_X_y 为 True 时：返回元组，包含特征数据集和目标数据集。

3.5 本地 csv 数据

3.5.1 创建 csv 文件

方式 1：使用记事本编写数据，数据间用英文逗号分隔，保存后将后缀名改为 csv。
方式 2：创建 excel 文件填写数据，以 csv 为后缀保存。

3.5.2 pandas 加载 csv

收起

python

import pandas as pd
pd.read_csv("./src/ss.csv")

3.6 数据集的划分（重点）

3.6.1 函数

收起

python

sklearn.model_selection.train_test_split(*arrays，**options)

参数：
- *array：接收 1 到多个 “列表、numpy 数组、稀疏矩阵或 padas 中的 DataFrame”。
- **options：
  - test_size：0.0 到 1.0 的小数，表示划分后测试集占比。
  - random_state：任意整数，作为随机种子，相同随机种子对相同数据集多次划分结果相同。
  - stratify：分层划分，填写 y。
返回值说明：返回列表，长度与形参 array 接收的参数数量相关，对应划分出的两部分数据类型与 array 接收的类型相同。

3.6.2 示例

列表数据集划分：

收起

python

from sklearn.model_selection import train_test_split
data1 = [1, 2, 3, 4, 5]
data2 = ["1a", "2a", "3a", "4a", "5a"]
a, b = train_test_split(data1, test_size=0.4, random_state=22)
print(a, b)
a, b = train_test_split(data2, test_size=0.4, random_state=22)
print(a, b)
a, b, c, d = train_test_split(data1, data2, test_size=0.4, random_state=22)
print(a, b, c, d)

ndarray 数据集划分：

收起

python

from sklearn.model_selection import train_test_split
import numpy as np
data1 = [1, 2, 3, 4, 5]
data2 = np.array(["1a", "2a", "3a", "4a", "5a"])
a, b, c, d = train_test_split(data1, data2, test_size=0.4, random_state=22)
print(a, b, c, d)
print(type(a), type(b), type(c), type(d))

二维数组数据集划分：

收起

python

from sklearn.model_selection import train_test_split
import numpy as np
data1 = np.arange(1, 16, 1)
data1.shape = (5, 3)
print(data1)
a, b = train_test_split(data1, test_size=0.4, random_state=22)
print("a=\n", a)
print("b=\n", b)

DataFrame 数据集划分：

收起

python

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
data1 = np.arange(1, 16, 1)
data1.shape = (5, 3)
data1 = pd.DataFrame(data1, index=[1, 2, 3, 4, 5], columns=["one", "two", "three"])
print(data1)
a, b = train_test_split(data1, test_size=0.4, random_state=22)
print("\n", a)
print("\n", b)

字典数据集划分：

收起

python

from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
data = [{'city': '成都', 'age': 30, 'temperature': 20},{'city': '重庆', 'age': 33, 'temperature': 60},{'city': '北京', 'age': 42, 'temperature': 80},{'city': '上海', 'age': 22, 'temperature': 70},{'city': '成都', 'age': 72, 'temperature': 40},]
transfer = DictVectorizer(sparse=True)
data_new = transfer.fit_transform(data)
a, b = train_test_split(data_new, test_size=0.4, random_state=22)
print(a)
print("\n", b)

鸢尾花数据集划分：

收起

python

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
list = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
x_train, x_test, y_train, y_test = list
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

现实世界数据集划分：

收起

python

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
news = fetch_20newsgroups(data_home=None, subset='all')
list = train_test_split(news.data, news.target, test_size=0.2, random_state=22)
x_train, x_test, y_train, y_test = list
print(len(x_train), len(x_test), y_train.shape, y_test.shape)

一、机器学习介绍与定义

1.1 机器学习定义

1.2 机器学习的发展历史

1.3 机器学习分类

1.4 机器学习需要具备的基础的知识，如何学习机器学习

1.5 机器学习的应用场合

1.6 机器学习趋势分析

1.7 机器学习项目开发步骤

二、scikit - learn 工具介绍

2.1 Python 语言机器学习工具

2.2 官网及文档

2.3 scikit - learn 安装

2.4 Scikit - learn 包含的内容

三、数据集（重点）

3.1 sklearn 玩具数据集介绍

3.2 sklearn 现实世界数据集介绍

3.3 sklearn 加载玩具数据集

3.4 sklearn 获取现实世界数据集

3.5 本地 csv 数据

3.5.1 创建 csv 文件

3.5.2 pandas 加载 csv

3.6 数据集的划分（重点）

3.6.1 函数

3.6.2 示例

相关文章：