当前位置：首页 > news >正文

机器学习基础（一）理解机器学习的本质

news 2026/5/23 12:36:48

导读：在本文中，将深入探索机器学习的根本原理，包括基本概念、分类及如何通过构建预测模型来应用这些理论。

机器学习

机器学习概念

机器学习

机器学习概念

机器学习是人工智能的一个分支，是一门开发算法和统计模型的科学，计算机系统使用这些算法和模型，在没有明确指令的情况下，依靠既有模式和推理来执行任务。在机器学习中，算法使用统计技术来使计算机能够“学习”数据，并基于这些数据做出预测或决策，而不是依靠严格的硬编码指令。机器学习这个领域的起源可以追溯到20世纪50年代，当时科学家们开始探索如何使计算机模拟人类学习过程。

在机器学习探索和尝试的历史中，有几个关键时刻值得一提。例如，20世纪80年代的神经网络的复兴，以及2006年深度学习概念的提出，这些都极大推动了机器学习的发展。如今，随着计算能力的飞速提升和大数据的普及，机器学习开始快速发展，成为现代技术不可或缺的一部分，从智能手机应用到复杂的股市分析系统，机器学习无处不在，它正在塑造我们的生活方式和工作方式。

机器学习之所以重要，是因为它为处理大量数据、发现模式、做出预测和决策提供了一种高效的方法。在医疗、金融、教育、零售等众多行业中，机器学习的应用都在带来革命性的变化，比如，医疗领域中的机器学习可以帮助诊断疾病、预测疾病进展，金融领域中则可以用于风险评估和欺诈检测。

随着我们深入本章的学习，读者不仅将在理论上理解探讨机器学习，也将通过实战案例和代码示例来加深理解，这些实战案例将覆盖从数据准备、模型构建到优化和模型评估的整个流程。我们会提供完整的程序代码，以及对这些代码的详细解释，确保即使是AI领域的新手也能跟上学习的步伐。

机器学习的分类

机器学习的方法多种多样，不同的方法适用于不同类型的问题，主要的机器学习方法可以分为3类：监督学习、非监督学习和强化学习。理解这些分类方法的使用场景有助于读者选择正确的方法来解决特定的问题。

监督学习：有指导的学习过程

监督学习是最常见的机器学习类型之一。在监督学习方法下，我们提供给模型的训练数据既包括特征也包括相应的标签。模型的任务是学习如何将特征映射到标签，从而能够对新的、未标记的数据做出预测。常见的监督学习任务包括分类（预测离散标签）和回归（预测连续标签）。例如，根据患者的临床数据来预测是否患有特定疾病（分类），或者预测房屋的售价（回归）。

非监督学习：自我探索的过程

与监督学习不同，非监督学习的训练数据不包含任何标签。非监督学习的目标是让模型自己探索数据并找出其中的结构。常见的非监督学习任务包括聚类和降维。一个典型的例子是市场细分，其中模型会根据客户的购买行为将其分为不同的群体。

聚类：发现数据中的自然群体
降维：减少数据的复杂性，同时保留重要信息

强化学习：通过试错学习

强化学习与监督学习和非监督学习有所不同，在强化学习模式下，智能体通过与环境交互从而进行学习。也就是说强化学习不是从标记好的数据集中学习，而是根据事物行为的结果来学习。这个结果通常以奖励的形式给出。强化学习在游戏（如国际象棋和围棋）、机器人导航以及在线推荐系统中得到了广泛的应用。

构建与分析鸢尾花数据模型

首次使用scikit-learn库，需要先进行安装。scikit-learn，也称为sklearn，是Python中最流行的机器学习库之一，它提供了广泛的工具和算法来处理常见的机器学习任务。安装sklearn库时，可以在命令行或终端中，输入以下命令：pip install scikit-learn。

鸢尾花数据集简介

鸢尾花数据集是机器学习中最著名的数据集之一，包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），用于预测鸢尾花的种类（共有三种：Setosa、Versicolour、Virginica）。

加载数据集

 from sklearn.datasets import load_irisiris = load_iris()x, y = iris.data, iris.target

创建和训练模型

接下来，我们将使用一个简单的分类算法，即决策树来训练模型。决策树是直观运用概率分析的一种图解法，是一个基于分支的树模型，其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每一个树叶结点代表类或类分布，树的最顶层是根结点。在这里，我们首先导入DecisionTreeClassifier，然后创建一个决策树分类器的实例，并使用鸢尾花数据对其进行训练:

 from sklearn.tree import DecisionTreeClassifiermodel = DecisionTreeClassifier()model.fit(X, y)

进行预测与评估模型

模型一旦训练完成，就可以用来进行数据预测，同时，也可以用来评估模型的性能。在实际应用中，一般会将数据分为独立的训练集和测试集，本例为了简化运算，是在同一数据集上进行的训练和测试，对数据集中的每个样本进行分类预测.

 #进行预测predictions = model.predict(X)#评估模型from sklearn.metrics import accuracy_score#这会输出模型在整个数据集上的准确率print(accuracy_score(y, predictions))

下一节我们将详细讲解监督学习和非监督学习，以及一个实战案例：预测房价

机器学习基础（二）监督与非监督学习-CSDN博客更深入地探讨监督学习和非监督学习的知识，重点关注它们的理论基础、常用算法及实际应用场景。https://blog.csdn.net/qq_52213943/article/details/136163917?spm=1001.2014.3001.5501

-----------------

以上，欢迎点赞收藏、评论区交流

特征	类型	描述
id	整数	房屋唯一标识符
longitude	浮点数	房屋地理位置的经度
latitude	浮点数	房屋地理位置的纬度
housing_median_age	整数	房屋的中位年龄
total_rooms	整数	房屋内的房间总数
total_bedrooms	整数	房屋内的卧室总数
population	整数	房屋所在区域的人口总数
households	整数	房屋所在区域的家庭总数
median_income	浮点数	区域内家庭的收入中位数
ocean_proximity	文本	房屋靠近海洋的位置
median_house_value	浮点数	房屋的中位价值（标签）

机器学习

机器学习概念

相关概念

机器学习根本：模型

数据的语言：特征与标签

训练与测试：模型评估

机器学习的分类

监督学习：有指导的学习过程

非监督学习：自我探索的过程

强化学习：通过试错学习

构建与分析鸢尾花数据模型

鸢尾花数据集简介

加载数据集

创建和训练模型

进行预测与评估模型

相关文章：