当前位置：首页 > news >正文

【机器学习】机器学习的基本分类-监督学习（Supervised Learning）

news 2026/5/12 5:45:16

监督学习是一种通过已有的输入数据（特征）和目标输出（标签）对模型进行训练的机器学习方法，旨在学到一个函数，将输入映射到正确的输出。

1. 监督学习概述

监督学习需要：

输入数据（特征）：X，如图片、文本、数值等。
输出标签：y，即目标值，如图片的分类标签、房价等。
目标：通过训练模型，使其能够预测新数据的标签。

公式表示：
从训练数据 (X, y) 中学到一个函数 f(x)，使得对于新输入 x'，预测值 f(x') 与真实值 y' 尽可能接近。

2. 常见任务类型

分类任务

目标：预测离散类别标签。

示例：垃圾邮件检测（垃圾邮件/非垃圾邮件）、图片分类（猫/狗/鸟）。
常见评价指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数等。

回归任务

目标：预测连续值。

示例：房价预测、气温预测。
常见评价指标：均方误差（MSE）、平均绝对误差（MAE）、决定系数（R²）等。

3. 数据准备与预处理

3.1 数据收集

数据来源：数据库、日志文件、公开数据集（如 Kaggle）。
注意：确保数据多样性和质量。

3.2 数据清洗

处理缺失值：均值填充、中位数填充或删除缺失数据。
处理异常值：通过箱线图、标准差等方法检测并处理。

3.3 特征工程

标准化/归一化：对数值型特征进行标准化，使其均值为 0，标准差为 1。
编码：对类别型特征用独热编码（One-Hot Encoding）或标签编码（Label Encoding）。
特征选择：删除低相关性或多余的特征，提高模型性能。

3.4 数据划分

划分为训练集、验证集和测试集（例如 60%/20%/20%）。

4. 模型训练与评估

4.1 模型选择

根据任务选择合适的算法，如：

分类：逻辑回归、支持向量机（SVM）、决策树、随机森林等。
回归：线性回归、岭回归、Lasso 回归、梯度提升树（GBDT）等。

4.2 训练模型

通过优化损失函数（如均方误差、交叉熵）调整模型参数。

4.3 模型评估

在验证集上评估性能，通过超参数调优（如学习率、正则化强度）优化模型。
避免过拟合：使用正则化（L1/L2）、Dropout 或限制树深度等手段。

5. 常见算法及实现

以下是分类与回归常用算法的 Python 实现：

5.1 分类算法

逻辑回归（Logistic Regression）

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

支持向量机（SVM）

from sklearn.svm import SVC
model = SVC(kernel='linear')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

5.2 回归算法

线性回归

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

梯度提升树（GBDT）

from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

6. 案例分析

案例 1：分类问题（垃圾邮件检测）

数据：下载带有邮件内容及是否垃圾的标注数据集。
特征提取：对文本数据进行向量化（如 TF-IDF）。
模型训练：使用逻辑回归模型。
评估：计算准确率、F1 分数。

案例 2：回归问题（房价预测）

数据：房屋面积、卧室数量、地理位置等特征。
预处理：标准化数值型特征，编码类别型特征。
模型训练：使用随机森林回归模型。
评估：计算 MSE 和 R²。

7. 监督学习的挑战与改进

过拟合与欠拟合
- 解决过拟合：增加数据量、使用正则化、减少模型复杂度。
- 解决欠拟合：增加特征、使用更复杂模型。
数据不平衡
- 分类问题中类别分布不均。
- 解决方法：采样技术（过采样/下采样）、使用 F1 分数评估。
噪声数据与异常值
- 影响模型性能。
- 解决方法：清洗数据、使用稳健算法。
模型解释性
- 如深度学习模型不易解释。
- 解决方法：使用可解释性工具（如 SHAP、LIME）。

8. 工具与框架

数据预处理：pandas, numpy
机器学习：scikit-learn, xgboost, lightgbm
可视化：matplotlib, seaborn

通过动手实践小项目（如图片分类或简单预测任务），可以快速理解和掌握监督学习的基本原理和应用技巧！如果有具体需求，我可以进一步提供代码和案例指导。

【机器学习】机器学习的基本分类-监督学习（Supervised Learning）

监督学习是一种通过已有的输入数据（特征）和目标输出（标签）对模型进行训练的机器学习方法，旨在学到一个函数，将输入映射到正确的输出。 1. 监督学习概述监督学习需要： 输入数据（特…...

编程日记 2024/11/28 10:19:04

Oracle之提高PLSQL的执行性能

目录 1、SQL解析详解 2、演示示例 3、启用Oracle跟踪事件 4、查看改造后SQL性能对比结果更多技术干货，关注个人博客吧 1、SQL解析详解 SQL解析是数据块处理SQL语句不可缺少的步骤，是在解析器中执行的。将SQL转换成数据库可以执行的低级指令。 SQL解析分为硬解析和软…...

编程日记 2024/11/28 10:18:02

[VSCode] vscode下载安装及安装中文插件详解（附下载文件）

前言 vscode 链接：https://pan.quark.cn/s/3acbb8aed758 提取码：dSyt VSCode 是一款由微软开发且跨平台的免费源代码编辑器；该软件支持语法高亮、代码自动补全、代码重构、查看定义功能，并且内置了命令行工具和Git版本控制系统。 …...

编程日记 2024/11/28 10:15:59

PHP中类名加双冒号的作用

在 PHP 中，类名加双冒号（::） 是一种用于访问类的静态成员和常量的语法。它也可以用来调用类的静态方法和访问 PHP 的类相关关键词（如 parent、self 和 static）。以下是详细的解释和用法。 1. 用途概述 :: 被称为作用域…...

编程日记 2024/11/28 10:12:56

前端编程训练异步编程篇请求接口 vue与react中的异步

文章目录前言代码执行顺序的几个关键点接口请求vue与react中的异步vue中的异步react的state修改异步前言本文是B站三十的前端课的笔记前端编程训练,异步编程篇代码执行顺序的几个关键点我们可以理解为代码就是一行一行，一句一句是执行（定义变量&…...

编程日记 2024/11/28 10:11:55

【kafka03】消息队列与微服务之Kafka 读写数据

Kafka 读写数据参考文档 Apache Kafka 常见命令 kafka-topics.sh #消息的管理命令 kafka-console-producer.sh #生产者的模拟命令 kafka-console-consumer.sh #消费者的模拟命令创建 Topic 创建topic名为 chen，partitions(分区)为3&#xff0…...

编程日记 2024/11/28 10:09:51

【分布式系统】唯一性ID的实现

1、UUID（通用唯一标识符） 1、UUID本身一种用于标识信息的标准化方法。一个128位的数字，常表示为32个十六进制数字，以连字符分隔成五组：8-4-4-4-12。版本： UUID有不同的版本，最常见的是基于时…...

编程日记 2024/11/28 10:08:50

哪里能找到好用的动物视频素材优质网站推荐

想让你的短视频增添些活泼生动的动物元素？无论是搞笑的宠物瞬间，还是野外猛兽的雄姿，这些素材都能让视频更具吸引力。今天就为大家推荐几个超实用的动物视频素材网站，不论你是短视频新手还是老手，都能在这些网站找到心…...

编程日记 2024/11/28 10:06:48

SRAM芯片数据采集解决方案

SRAM芯片数据采集解决方案致力于提供一种高效、稳定且易于操作的方法，以确保从静态随机存取存储器SRAM芯片中准确无误地获取数据。这种解决方案通常包括硬件接口和软件工具，它们协同工作，以实现对SRAM芯片的无缝访问和数据传输。在硬件方…...

编程日记 2024/11/28 10:05:47

【贪心算法第七弹——674.最长连续递增序列(easy)】

目录 1.题目解析题目来源测试用例 2.算法原理 3.实战代码代码分析 1.题目解析题目来源 674.最长递增子序列——力扣测试用例 2.算法原理贪心思路 3.实战代码 class Solution { public:int findLengthOfLCIS(vector<int>& nums) {int n nums.size();in…...

编程日记 2024/11/28 10:04:46

[AI] 知之AI推出3D智能宠物：助力语言学习与口语提升的新选择

Hello! 知之AI官网 [AI] 知之AI推出3D智能宠物：助力语言学习与口语提升的新选择随着人工智能技术的飞速发展，虚拟助手和智能设备不断进入我们的生活。近日，知之AI重磅推出了一款创新产品——3D智能宠物。这一产品不仅具备多国语言交流能力&…...

编程日记 2024/11/28 10:03:45

Android 14之HIDL转AIDL通信

Android 14之HIDL转AIDL通信 1、interface接口1.1 接口变更1.2 生成hidl2aidl工具1.3 执行hidl2aidl指令1.4 修改aidl的Android.bp文件1.5 创建路径1.6 拷贝生成的aidl到1和current1.7 更新与冻结版本1.8 编译模块接口 2、服务端代码适配hal代码修改2.1 修改Android.bp的hidl依…...

编程日记 2024/11/28 10:02:44

【R库包安装】R库包安装总结：conda、CRAN等

【R库包安装】R studio 安装rgdal库/BPST库 R studio 安装rgdal库解决方法 R studio 安装BPST库（github）解决方法方法1：使用devtools安装方法2：下载安装包直接在Rstudio中安装参考基础 R 库包的安装可参见另一博客-【R库包安装】…...

编程日记 2024/11/28 10:01:43

学习PMC要不要去培训班?

在当今快速变化的商业环境中，PMC作为供应链管理的核心环节之一，其重要性日益凸显。PMC不仅关乎产品的物料计划、采购、库存控制及物流协调，还直接影响到企业的生产效率、成本控制以及市场竞争力。面对这一专业领域的学习需求，许多…...

编程日记 2024/11/28 10:00:42

前端用js封装部分数据结构

文章目录 Stack队列链表Setset 用来数组去重set用来取两个数组的并集set用来取两个数组的交集set用来取两个数组的差集字典 Stack 栈，先进后出，后进先出。用数组来进行模拟，通过push存入，通过pop取出。 class Stack {// 带#表示…...

编程日记 2024/11/28 9:57:39

cocoscreator-doc-TS:目录

cocoscreator-doc-TS-脚本开发-访问节点和组件-CSDN博客 cocoscreator-doc-TS-常用节点和组件接口-CSDN博客 cocoscreator-doc-TS-脚本开发-创建和销毁节点-CSDN博客 cocoscreator-doc-TS-脚本开发-加载和切换场景-CSDN博客 cocoscreator-doc-TS-脚本开发-获取和设置资源-CS…...

编程日记 2024/11/28 9:54:36

理解Java集合的基本用法—Collection：List、Set 和 Queue，Map

本博文部分参考博客 ，强烈推荐这篇博客，写得超级全面！！！ 图片来源 Java 集合框架主要包括两种类型的容器，一种是集合（Collection），存储一个元素集合（单列…...

编程日记 2024/11/28 9:53:35

IOC容器实现分层解耦

文章开始之前，先引入软件开发的两个名词：耦合和内聚。耦合是指：衡量软件中各个层（三层架构）/各个模块的依赖关联程度；内聚是指：软件中各个功能模块内部的功能联系。三层架构中Controller、Servi…...

编程日记 2024/11/28 9:52:34

Flutter 共性元素动画

在 Flutter 中，共性元素动画（Shared Element Transitions）用于在页面导航或组件切换时创建视觉上更流畅和连贯的动画效果。这种动画可以使用户感受到两个界面之间的“物理联系”，比如图片从缩略图到全屏的扩大效果。前置知识点整…...

编程日记 2024/11/28 9:42:16

K8s内存溢出问题剖析：排查与解决方案

文章目录一、背景二、排查方案：1. 可能是数据量超出了限制的大小，检查数据目录大小2. 查看是否是内存溢出2.1 排查数据量（查看数据目录大小是否超过limit限制）2.2 查看pod详情发现问题三、解决过程一、背景做redis压测过程中…...

编程日记 2024/11/28 9:41:14

FPGA与CPU电源时序测试技术解析与实践

1. FPGA与CPU电源时序测试的核心挑战在现代电子系统中，FPGA、MCU和CPU等处理器件的电源设计堪称"心脏手术"。我曾参与过多个Xilinx UltraScale和Intel Stratix 10项目的电源验证，深刻体会到毫秒级的时序偏差就可能导致数千美元的芯片瞬间损毁。…...

编程新知 2026/5/12 4:16:52

从HEX到芯片：使用J-Flash实现高效固件烧录与生产级加密

1. 认识J-Flash：你的芯片烧录好帮手第一次接触J-Flash时，我正为一个量产项目发愁——需要给500片GD32F103烧录固件。手动用IDE一个个烧？效率太低；找代工厂？成本太高。直到同事推荐了J-Flash，我才发现原来烧…...

编程新知 2026/5/12 4:04:11

ARM PMCCNTR寄存器：性能监控与时钟周期计数详解

1. ARM PMCCNTR寄存器深度解析在现代处理器架构中，性能监控单元(PMU)是系统调优和性能分析的关键组件。作为ARM架构性能监控的核心，PMCCNTR寄存器提供了精确的处理器时钟周期计数能力。这个64位寄存器在AArch32和AArch64执行模式下具有架构映射关系&…...

编程新知 2026/5/12 4:00:10

淘宝淘金币自动化脚本终极指南：每天节省20分钟，彻底解放双手

淘宝淘金币自动化脚本终极指南：每天节省20分钟，彻底解放双手【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mirrors/ta/t…...

编程新知 2026/5/12 2:57:22

Cursor AI 编程助手配置优化：一键安装与自定义指南

1. 项目概述：为什么需要一套现成的 Cursor 配置？如果你和我一样，是 Cursor 的重度用户，那么你肯定经历过这样的阶段：刚上手时，觉得这个 AI 驱动的 IDE 简直是神器，但随着项目越来越复杂&#xf…...

编程新知 2026/5/12 2:23:56

第57篇：Vibe Coding时代：LangGraph + 代码所有者规则实战，解决 Agent 修改核心模块无人负责的问题

第57篇：Vibe Coding时代：LangGraph + 代码所有者规则实战，解决 Agent 修改核心模块无人负责的问题一、问题场景：Agent 修改了核心文件，但没有找到该找谁审在团队项目中，不同模块通常有不同负责人： auth 模块：安全团队 payment 模块：支付团队 database 模块：平台团…...

编程新知 2026/5/12 1:50:23

从零搭建生产级LLM API服务：架构设计、部署与性能调优实战

1. 项目概述与核心价值最近在折腾大语言模型本地部署和API服务搭建的朋友，估计都绕不开一个词：文档。不是模型本身的论文，而是那些能把复杂技术栈串起来、让你从“能跑起来”到“能稳定用起来”的操作指南。我关注到 GitHub 上一个名为 var…...

编程新知 2026/5/11 20:40:16

Simulink模块搭建跟踪误差不归零？可能是隐藏的信号延迟在捣鬼（附S函数解法）

Simulink隐性信号延迟：从图形化建模到S函数的高精度控制实践在控制系统仿真领域，Simulink作为行业标准工具链的核心组件，其图形化建模方式极大降低了算法验证的门槛。但当工程师从功能实现进阶到性能优化阶段时，常常会遇到一个令…...

编程新知 2026/5/11 19:47:06

Cookie AutoDelete技术架构解析：深入理解Redux驱动的浏览器扩展实现

Cookie AutoDelete技术架构解析：深入理解Redux驱动的浏览器扩展实现【免费下载链接】Cookie-AutoDelete Firefox and Chrome WebExtension that deletes cookies and other browsing site data as soon as the tab closes, domain changes, browser restarts, or a…...

编程新知 2026/5/11 18:46:41

《线性代数思维》：以代码和案例开启线性代数实用学习之旅！

《线性代数思维》介绍《线性代数思维》以代码为先导、以案例为基础，介绍了线性代数中最常用的概念，专为那些想理解并应用这些概念，而非仅抽象学习的读者设计。每一章都围绕一个现实世界的问题展开，如模拟网络流量、仿真鸟群飞行或…...

编程新知 2026/5/11 16:01:52