当前位置: 首页 > news >正文

【机器学习】机器学习的基本分类-监督学习(Supervised Learning)

监督学习是一种通过已有的输入数据(特征)和目标输出(标签)对模型进行训练的机器学习方法,旨在学到一个函数,将输入映射到正确的输出。


1. 监督学习概述

监督学习需要:

  • 输入数据(特征):X,如图片、文本、数值等。
  • 输出标签y,即目标值,如图片的分类标签、房价等。
  • 目标:通过训练模型,使其能够预测新数据的标签。

公式表示
从训练数据 (X, y) 中学到一个函数 f(x),使得对于新输入 x',预测值 f(x') 与真实值 y' 尽可能接近。


2. 常见任务类型

分类任务

目标:预测离散类别标签。

  • 示例:垃圾邮件检测(垃圾邮件/非垃圾邮件)、图片分类(猫/狗/鸟)。
  • 常见评价指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 分数等。
回归任务

目标:预测连续值。

  • 示例:房价预测、气温预测。
  • 常见评价指标:均方误差(MSE)、平均绝对误差(MAE)、决定系数(R²) 等。

3. 数据准备与预处理

3.1 数据收集
  • 数据来源:数据库、日志文件、公开数据集(如 Kaggle)。
  • 注意:确保数据多样性和质量。
3.2 数据清洗
  • 处理缺失值:均值填充、中位数填充或删除缺失数据。
  • 处理异常值:通过箱线图、标准差等方法检测并处理。
3.3 特征工程
  • 标准化/归一化:对数值型特征进行标准化,使其均值为 0,标准差为 1。
  • 编码:对类别型特征用独热编码(One-Hot Encoding)或标签编码(Label Encoding)。
  • 特征选择:删除低相关性或多余的特征,提高模型性能。
3.4 数据划分
  • 划分为训练集、验证集和测试集(例如 60%/20%/20%)。

4. 模型训练与评估

4.1 模型选择

根据任务选择合适的算法,如:

  • 分类:逻辑回归、支持向量机(SVM)、决策树、随机森林等。
  • 回归:线性回归、岭回归、Lasso 回归、梯度提升树(GBDT)等。
4.2 训练模型

通过优化损失函数(如均方误差、交叉熵)调整模型参数。

4.3 模型评估
  • 在验证集上评估性能,通过超参数调优(如学习率、正则化强度)优化模型。
  • 避免过拟合:使用正则化(L1/L2)、Dropout 或限制树深度等手段。

5. 常见算法及实现

以下是分类与回归常用算法的 Python 实现:

5.1 分类算法
  • 逻辑回归(Logistic Regression)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

  • 支持向量机(SVM)
from sklearn.svm import SVC
model = SVC(kernel='linear')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
5.2 回归算法
  • 线性回归
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
  • 梯度提升树(GBDT)
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

6. 案例分析

案例 1:分类问题(垃圾邮件检测)
  1. 数据:下载带有邮件内容及是否垃圾的标注数据集。
  2. 特征提取:对文本数据进行向量化(如 TF-IDF)。
  3. 模型训练:使用逻辑回归模型。
  4. 评估:计算准确率、F1 分数。
案例 2:回归问题(房价预测)
  1. 数据:房屋面积、卧室数量、地理位置等特征。
  2. 预处理:标准化数值型特征,编码类别型特征。
  3. 模型训练:使用随机森林回归模型。
  4. 评估:计算 MSE 和 R²。

7. 监督学习的挑战与改进

  1. 过拟合与欠拟合

    • 解决过拟合:增加数据量、使用正则化、减少模型复杂度。
    • 解决欠拟合:增加特征、使用更复杂模型。
  2. 数据不平衡

    • 分类问题中类别分布不均。
    • 解决方法:采样技术(过采样/下采样)、使用 F1 分数评估。
  3. 噪声数据与异常值

    • 影响模型性能。
    • 解决方法:清洗数据、使用稳健算法。
  4. 模型解释性

    • 如深度学习模型不易解释。
    • 解决方法:使用可解释性工具(如 SHAP、LIME)。

8. 工具与框架

  1. 数据预处理:pandas, numpy
  2. 机器学习:scikit-learn, xgboost, lightgbm
  3. 可视化:matplotlib, seaborn

通过动手实践小项目(如图片分类或简单预测任务),可以快速理解和掌握监督学习的基本原理和应用技巧!如果有具体需求,我可以进一步提供代码和案例指导。

相关文章:

【机器学习】机器学习的基本分类-监督学习(Supervised Learning)

监督学习是一种通过已有的输入数据(特征)和目标输出(标签)对模型进行训练的机器学习方法,旨在学到一个函数,将输入映射到正确的输出。 1. 监督学习概述 监督学习需要: 输入数据(特…...

Oracle之提高PLSQL的执行性能

目录 1、SQL解析详解 2、演示示例 3、启用Oracle跟踪事件 4、查看改造后SQL性能对比结果 更多技术干货,关注个人博客吧 1、SQL解析详解 SQL解析是数据块处理SQL语句不可缺少的步骤,是在解析器中执行的。将SQL转换成数据库可以执行的低级指令。 SQL解析分为硬解析和软…...

[VSCode] vscode下载安装及安装中文插件详解(附下载文件)

前言 vscode 链接:https://pan.quark.cn/s/3acbb8aed758 提取码:dSyt VSCode 是一款由微软开发且跨平台的免费源代码编辑器;该软件支持语法高亮、代码自动补全、代码重构、查看定义功能,并且内置了命令行工具和Git版本控制系统。 …...

PHP中类名加双冒号的作用

在 PHP 中,类名加双冒号(::) 是一种用于访问类的静态成员和常量的语法。它也可以用来调用类的静态方法和访问 PHP 的类相关关键词(如 parent、self 和 static)。以下是详细的解释和用法。 1. 用途概述 :: 被称为作用域…...

前端编程训练 异步编程篇 请求接口 vue与react中的异步

文章目录 前言代码执行顺序的几个关键点接口请求vue与react中的异步vue中的异步react的state修改异步 前言 本文是B站三十的前端课的笔记前端编程训练,异步编程篇 代码执行顺序的几个关键点 我们可以理解为代码就是一行一行,一句一句是执行(定义变量&…...

【kafka03】消息队列与微服务之Kafka 读写数据

Kafka 读写数据 参考文档 Apache Kafka 常见命令 kafka-topics.sh #消息的管理命令 kafka-console-producer.sh #生产者的模拟命令 kafka-console-consumer.sh #消费者的模拟命令 创建 Topic 创建topic名为 chen,partitions(分区)为3&#xff0…...

【分布式系统】唯一性ID的实现

1、UUID(通用唯一标识符) 1、UUID本身 一种用于标识信息的标准化方法。一个128位的数字,常表示为32个十六进制数字,以连字符分隔成五组:8-4-4-4-12。 版本: UUID有不同的版本,最常见的是基于时…...

哪里能找到好用的动物视频素材 优质网站推荐

想让你的短视频增添些活泼生动的动物元素?无论是搞笑的宠物瞬间,还是野外猛兽的雄姿,这些素材都能让视频更具吸引力。今天就为大家推荐几个超实用的动物视频素材网站,不论你是短视频新手还是老手,都能在这些网站找到心…...

SRAM芯片数据采集解决方案

SRAM芯片数据采集解决方案致力于提供一种高效、稳定且易于操作的方法,以确保从静态随机存取存储器SRAM芯片中准确无误地获取数据。 这种解决方案通常包括硬件接口和软件工具,它们协同工作,以实现对SRAM芯片的无缝访问和数据传输。 在硬件方…...

【贪心算法第七弹——674.最长连续递增序列(easy)】

目录 1.题目解析 题目来源 测试用例 2.算法原理 3.实战代码 代码分析 1.题目解析 题目来源 674.最长递增子序列——力扣 测试用例 2.算法原理 贪心思路 3.实战代码 class Solution { public:int findLengthOfLCIS(vector<int>& nums) {int n nums.size();in…...

[AI] 知之AI推出3D智能宠物:助力语言学习与口语提升的新选择

Hello! 知之AI官网 [AI] 知之AI推出3D智能宠物&#xff1a;助力语言学习与口语提升的新选择 随着人工智能技术的飞速发展&#xff0c;虚拟助手和智能设备不断进入我们的生活。近日&#xff0c;知之AI重磅推出了一款创新产品——3D智能宠物。这一产品不仅具备多国语言交流能力&…...

Android 14之HIDL转AIDL通信

Android 14之HIDL转AIDL通信 1、interface接口1.1 接口变更1.2 生成hidl2aidl工具1.3 执行hidl2aidl指令1.4 修改aidl的Android.bp文件1.5 创建路径1.6 拷贝生成的aidl到1和current1.7 更新与冻结版本1.8 编译模块接口 2、服务端代码适配hal代码修改2.1 修改Android.bp的hidl依…...

【R库包安装】R库包安装总结:conda、CRAN等

【R库包安装】R studio 安装rgdal库/BPST库 R studio 安装rgdal库解决方法 R studio 安装BPST库&#xff08;github&#xff09;解决方法方法1&#xff1a;使用devtools安装方法2&#xff1a;下载安装包直接在Rstudio中安装 参考 基础 R 库包的安装可参见另一博客-【R库包安装】…...

学习PMC要不要去培训班?

在当今快速变化的商业环境中&#xff0c;PMC作为供应链管理的核心环节之一&#xff0c;其重要性日益凸显。PMC不仅关乎产品的物料计划、采购、库存控制及物流协调&#xff0c;还直接影响到企业的生产效率、成本控制以及市场竞争力。面对这一专业领域的学习需求&#xff0c;许多…...

前端 用js封装部分数据结构

文章目录 Stack队列链表Setset 用来数组去重set用来取两个数组的并集set用来取两个数组的交集set用来取两个数组的差集 字典 Stack 栈&#xff0c;先进后出&#xff0c;后进先出。用数组来进行模拟&#xff0c;通过push存入&#xff0c;通过pop取出。 class Stack {// 带#表示…...

cocoscreator-doc-TS:目录

cocoscreator-doc-TS-脚本开发-访问节点和组件-CSDN博客 cocoscreator-doc-TS-常用节点和组件接口-CSDN博客 cocoscreator-doc-TS-脚本开发-创建和销毁节点-CSDN博客 cocoscreator-doc-TS-脚本开发-加载和切换场景-CSDN博客 cocoscreator-doc-TS-脚本开发-获取和设置资源-CS…...

理解Java集合的基本用法—Collection:List、Set 和 Queue,Map

本博文部分参考 博客 &#xff0c;强烈推荐这篇博客&#xff0c;写得超级全面&#xff01;&#xff01;&#xff01; 图片来源 Java 集合框架 主要包括两种类型的容器&#xff0c;一种是集合&#xff08;Collection&#xff09;&#xff0c;存储一个元素集合&#xff08;单列…...

IOC容器实现分层解耦

文章开始之前&#xff0c;先引入软件开发的两个名词&#xff1a;耦合和内聚。耦合是指&#xff1a;衡量软件中各个层&#xff08;三层架构&#xff09;/各个模块的依赖关联程度&#xff1b;内聚是指&#xff1a;软件中各个功能模块内部的功能联系。三层架构中Controller、Servi…...

Flutter 共性元素动画

在 Flutter 中&#xff0c;共性元素动画&#xff08;Shared Element Transitions&#xff09;用于在页面导航或组件切换时创建视觉上更流畅和连贯的动画效果。这种动画可以使用户感受到两个界面之间的“物理联系”&#xff0c;比如图片从缩略图到全屏的扩大效果。 前置知识点整…...

K8s内存溢出问题剖析:排查与解决方案

文章目录 一、背景二、排查方案&#xff1a;1. 可能是数据量超出了限制的大小&#xff0c;检查数据目录大小2. 查看是否是内存溢出2.1 排查数据量&#xff08;查看数据目录大小是否超过limit限制&#xff09;2.2 查看pod详情发现问题 三、解决过程 一、背景 做redis压测过程中…...

FPGA与CPU电源时序测试技术解析与实践

1. FPGA与CPU电源时序测试的核心挑战在现代电子系统中&#xff0c;FPGA、MCU和CPU等处理器件的电源设计堪称"心脏手术"。我曾参与过多个Xilinx UltraScale和Intel Stratix 10项目的电源验证&#xff0c;深刻体会到毫秒级的时序偏差就可能导致数千美元的芯片瞬间损毁。…...

从HEX到芯片:使用J-Flash实现高效固件烧录与生产级加密

1. 认识J-Flash&#xff1a;你的芯片烧录好帮手 第一次接触J-Flash时&#xff0c;我正为一个量产项目发愁——需要给500片GD32F103烧录固件。手动用IDE一个个烧&#xff1f;效率太低&#xff1b;找代工厂&#xff1f;成本太高。直到同事推荐了J-Flash&#xff0c;我才发现原来烧…...

ARM PMCCNTR寄存器:性能监控与时钟周期计数详解

1. ARM PMCCNTR寄存器深度解析在现代处理器架构中&#xff0c;性能监控单元(PMU)是系统调优和性能分析的关键组件。作为ARM架构性能监控的核心&#xff0c;PMCCNTR寄存器提供了精确的处理器时钟周期计数能力。这个64位寄存器在AArch32和AArch64执行模式下具有架构映射关系&…...

淘宝淘金币自动化脚本终极指南:每天节省20分钟,彻底解放双手

淘宝淘金币自动化脚本终极指南&#xff1a;每天节省20分钟&#xff0c;彻底解放双手 【免费下载链接】taojinbi 淘宝淘金币自动执行脚本&#xff0c;包含蚂蚁森林收取能量&#xff0c;芭芭农场全任务&#xff0c;解放你的双手 项目地址: https://gitcode.com/gh_mirrors/ta/t…...

Cursor AI 编程助手配置优化:一键安装与自定义指南

1. 项目概述&#xff1a;为什么需要一套现成的 Cursor 配置&#xff1f;如果你和我一样&#xff0c;是 Cursor 的重度用户&#xff0c;那么你肯定经历过这样的阶段&#xff1a;刚上手时&#xff0c;觉得这个 AI 驱动的 IDE 简直是神器&#xff0c;但随着项目越来越复杂&#xf…...

第57篇:Vibe Coding时代:LangGraph + 代码所有者规则实战,解决 Agent 修改核心模块无人负责的问题

第57篇:Vibe Coding时代:LangGraph + 代码所有者规则实战,解决 Agent 修改核心模块无人负责的问题 一、问题场景:Agent 修改了核心文件,但没有找到该找谁审 在团队项目中,不同模块通常有不同负责人: auth 模块:安全团队 payment 模块:支付团队 database 模块:平台团…...

从零搭建生产级LLM API服务:架构设计、部署与性能调优实战

1. 项目概述与核心价值 最近在折腾大语言模型本地部署和API服务搭建的朋友&#xff0c;估计都绕不开一个词&#xff1a;文档。不是模型本身的论文&#xff0c;而是那些能把复杂技术栈串起来、让你从“能跑起来”到“能稳定用起来”的操作指南。我关注到 GitHub 上一个名为 var…...

Simulink模块搭建跟踪误差不归零?可能是隐藏的信号延迟在捣鬼(附S函数解法)

Simulink隐性信号延迟&#xff1a;从图形化建模到S函数的高精度控制实践 在控制系统仿真领域&#xff0c;Simulink作为行业标准工具链的核心组件&#xff0c;其图形化建模方式极大降低了算法验证的门槛。但当工程师从功能实现进阶到性能优化阶段时&#xff0c;常常会遇到一个令…...

Cookie AutoDelete技术架构解析:深入理解Redux驱动的浏览器扩展实现

Cookie AutoDelete技术架构解析&#xff1a;深入理解Redux驱动的浏览器扩展实现 【免费下载链接】Cookie-AutoDelete Firefox and Chrome WebExtension that deletes cookies and other browsing site data as soon as the tab closes, domain changes, browser restarts, or a…...

《线性代数思维》:以代码和案例开启线性代数实用学习之旅!

《线性代数思维》介绍《线性代数思维》以代码为先导、以案例为基础&#xff0c;介绍了线性代数中最常用的概念&#xff0c;专为那些想理解并应用这些概念&#xff0c;而非仅抽象学习的读者设计。每一章都围绕一个现实世界的问题展开&#xff0c;如模拟网络流量、仿真鸟群飞行或…...