02-机器学习-核心概念
以下是机器学习核心概念的详细梳理。
1. 机器学习三大范式
| 类型 | 定义 | 典型应用 |
|---|---|---|
| 监督学习 | 使用带标签的数据训练模型,预测未知数据的标签。 | 分类(邮件垃圾过滤)、回归(房价预测) |
| 无监督学习 | 从无标签的数据中发现隐藏模式或结构。 | 聚类(客户分群)、降维(数据可视化) |
| 强化学习 | 通过试错与奖励机制训练智能体,使其在环境中做出最优决策。 | 游戏AI(AlphaGo)、自动驾驶 |
2. 核心算法分类
监督学习算法
-
分类
- 逻辑回归:二分类问题,输出概率值。
- 决策树:基于特征阈值递归分割数据。
- 支持向量机(SVM):寻找最大化分类间隔的超平面。
- 随机森林:多棵决策树的集成,降低过拟合风险。
-
回归
- 线性回归:拟合数据的最佳直线/超平面。
- 岭回归/Lasso回归:加入正则化项防止过拟合。
无监督学习算法
- 聚类
- K-Means:将数据划分为K个簇,最小化簇内距离。
- 层次聚类:通过树状图展示数据分层聚合过程。
- 降维
- 主成分分析(PCA):通过正交变换提取主要特征。
- t-SNE:非线性降维,适用于高维数据可视化。
其他重要方法
- 半监督学习:结合少量标签数据和大量无标签数据训练模型。
- 集成学习:通过Bagging(随机森林)、Boosting(XGBoost)提升模型性能。
3. 模型评估指标
| 任务类型 | 评估指标 | 解释 |
|---|---|---|
| 分类 | 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数、ROC-AUC | - 精确率:预测为正的样本中实际为正的比例。 - 召回率:实际为正的样本中被正确预测的比例。 |
| 回归 | 均方误差(MSE)、平均绝对误差(MAE)、R²分数 | - R²分数:模型对数据变动的解释能力(0~1,越大越好)。 |
| 聚类 | 轮廓系数(Silhouette Score)、Calinski-Harabasz指数 | - 轮廓系数:衡量簇内紧密度和簇间分离度(-1~1,越大越好)。 |
4. 关键问题与解决方法
过拟合(Overfitting)
- 现象:模型在训练集表现极佳,但在测试集表现差。
- 解决:
- 增加训练数据量。
- 正则化(L1/L2正则化)。
- 交叉验证(如K-Fold)。
- 减少模型复杂度(如剪枝决策树)。
欠拟合(Underfitting)
- 现象:模型在训练集和测试集均表现不佳。
- 解决:
- 增加模型复杂度(如使用更深的神经网络)。
- 添加更多特征或进行特征工程。
偏差-方差权衡
- 高偏差:模型过于简单,无法捕捉数据规律(欠拟合)。
- 高方差:模型过于复杂,对噪声敏感(过拟合)。
- 目标:通过调整模型复杂度和正则化,找到平衡点。
5. 核心流程
- 数据预处理:缺失值填充、标准化/归一化、编码类别特征。
- 特征工程:特征选择(如卡方检验)、特征构造(如多项式特征)。
- 模型训练:划分训练集/验证集/测试集,选择算法并调参。
- 模型评估:根据任务类型选择指标,分析结果。
- 模型部署:将训练好的模型转化为API服务或嵌入应用。
6. 实际应用场景
- 分类:垃圾邮件识别、图像分类(猫 vs 狗)。
- 回归:股票价格预测、销售额趋势分析。
- 聚类:用户分群(电商推荐)、异常检测(信用卡欺诈)。
- 降维:高维数据可视化(如将100维数据压缩为2维)。
掌握这些核心概念后,可以通过框架(如Scikit-learn)快速实现算法,并逐步深入理论细节。下一步建议通过实战项目(如Kaggle竞赛)巩固知识! 🚀
相关文章:
02-机器学习-核心概念
以下是机器学习核心概念的详细梳理。 1. 机器学习三大范式 类型定义典型应用监督学习使用带标签的数据训练模型,预测未知数据的标签。分类(邮件垃圾过滤)、回归(房价预测)无监督学习从无标签的数据中发现隐藏模式或结…...
企业财务管理系统的需求设计和实现
该作者的原创文章目录: 生产制造执行MES系统的需求设计和实现 企业后勤管理系统的需求设计和实现 行政办公管理系统的需求设计和实现 人力资源管理HR系统的需求设计和实现 企业财务管理系统的需求设计和实现 董事会办公管理系统的需求设计和实现 公司组织架构…...
Couchbase UI: Server
在 Couchbase UI 中的 Server(服务器)标签页主要用于管理和监控集群中的各个节点。以下是 Server 标签页的主要内容和功能介绍: 1. 节点列表 显示集群中所有节点的列表,每个节点的详细信息包括: 节点地址࿱…...
【软件设计师中级】-笔记缩减版本-计算机系统基础知识
1. 计算机系统基础知识 1.1. 计算机系统硬件基本组成硬件 中央处理器(CPU)硬件系统的核心 运算器 控制器 存储器(记忆设备) 内部存储器(速度高,容量小):临时存放程序、数据及中间结…...
SAP MM 记录一次SAP外协采购收货提示 这种物料的特殊库存 O 0100003359 14019002不存在的问题
根据采购订单收货,调用时 BAPI_GOODSMVT_CREATE时返回 { "TYPE":"E", "ID":"M7", "NUMBER":"076", "MESSAGE":"这种物料的特殊库存 O 0100003359 14019002不存在"…...
2025牛客寒假算法基础集训营2
H 一起画很大的圆! 看起来像是一道计算几何的题,实际上通过分析和猜想,是有O1复杂度的结论的。具体证明略,结论是三点越接近共线,得出的半径越大。 #include <bits/stdc.h> using namespace std; #define endl \…...
统计学中的样本概率论中的样本
不知道当初谁想的把概率论和数理统计合并,作为一门课。这本身是可以合并,完整的一条线,看这里。但是,作为任课老师应该从整体上交代清楚,毕竟是两个学科,不同的学科合并必然会有各种不协调的问题。 举个最…...
DDD-全面理解领域驱动设计中的各种“域”
一、DDD-领域 在领域驱动设计(Domain-Driven Design,DDD)中,**领域(Domain)**指的是软件系统所要解决的特定业务问题的范围。它涵盖了业务知识、规则和逻辑,是开发团队与领域专家共同关注的核心…...
在 Ubuntu22.04 上安装 Splunk
ELK感觉太麻烦了,换个日志收集工具 Splunk 是一种 IT 工具,可帮助在任何设备上收集日志、分析、可视化、审计和创建报告。简单来说,它将“机器生成的数据转换为人类可读的数据”。它支持从虚拟机、网络设备、防火墙、基于 Unix 和基于 Windo…...
计算机网络 (60)蜂窝移动通信网
一、定义与原理 蜂窝移动通信网是指将一个服务区分为若干蜂窝状相邻小区并采用频率空间复用技术的移动通信网。其原理在于,将移动通信服务区划分成许多以正六边形为基本几何图形的覆盖区域,称为蜂窝小区。每个小区设置一个基站,负责本小区内移…...
壁纸设计过程中如何增加氛围感
在壁纸设计过程中,增加氛围感是提升整体视觉效果和情感传达的关键。以下是一些具体的方法和技巧,帮助你在设计中营造出强烈的氛围感: 一、色彩运用 选择主题色: 根据你想要传达的情感选择主色调。例如,温暖的色调&…...
|Python新手小白中级教程|第二十九章:面向对象编程(Python类的拓展延伸与10道实操题目)(5)
文章目录 前言1.类变量与实例变量2.静态方法和类方法1.静态方法2.类方法 3.实操使用1. 创建一个名为Person的类,包含属性name和age,并且有一个方法introduce()用于介绍自己的名字和年龄。2. 创建一个名为Circle的类,包含属性radius和color&am…...
专为课堂打造:宏碁推出三款全新耐用型 Chromebook
IT之家 1 月 25 日消息,宏碁(Acer)昨日(1 月 24 日)发布公告,针对教育市场,推出 Chromebook Spin 512 (R857T)、Chromebook Spin 511 (R757T) 和 Chromebook 511 (C737) 三款产品,兼…...
UE求职Demo开发日志#12 完善击杀获得物品逻辑和UI
1 实现思路 1.给WarehouseManager添加一个按TArray增加物品的函数 2.Enemy身上一个变量记录掉落物品,死亡时调用增加物品函数 3.同时调用UI显示 2 实现过程 2.1 在WarehouseManager里添加一个AddItemByArray函数 遍历数组调用添加函数 void UWarehouseManage…...
Oracle查看数据库表空间使用情况
Oracle RAC环境查看表空间使用情况 查询字段释义: NEED_ADDFILE,--是否需增加表空间文件 TABLESPACE_NAME,--表空间名称 TABLESPACE_FILE_COUNT, --表空间当前数据文件数量 NOW_FILEENABLE_BLOCKS,--表空间文件当前数据块数 NOW_FILEENABLE_BYTES_GB,--表空间文件当…...
安装Ubuntu22.04
1.引用教程 如何安装Ubuntu Server 22.04 LTS_ubuntu22.04 server-CSDN博客 2.空间分配 要使用 docker 比较多所以分别的 docker 空间大...
【阅读笔记】基于整数+分数微分的清晰度评价算子
本文介绍的是一种新的清晰度评价算子,整数微分算子分数微分算子 一、概述 目前在数字图像清晰度评价函数中常用的评价函数包括三类:灰度梯度评价函数、频域函数和统计学函数,其中灰度梯度评价函数具有计算简单,评价效果好等优点…...
scratch七彩六边形 2024年12月scratch三级真题 中国电子学会 图形化编程 scratch三级真题和答案解析
目录 scratch七彩六边形 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 1、思路分析 2、详细过程 四、程序编写 五、考点分析 六、推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程 5、…...
Alfresco Content Services dockerCompose自动化部署详尽操作
Alfresco Content Services docker社区部署文档 Alfresco Content Services简介 Alfresco Content Services(简称ACS)是一款功能完备的企业内容管理(ECM)解决方案,主要面向那些对企业级内容管理有高要求的组织。具体…...
Spring无法解决的循环依赖
在Spring框架中,循环依赖是指两个或多个Bean相互依赖,形成一个闭环。例如,Bean A依赖于Bean B,而Bean B又依赖于Bean A。虽然Spring通过三级缓存(一级缓存、二级缓存、三级缓存)机制解决了大多数情况下的循…...
电子应用设计方案105:智能家庭AI拖把系统设计
智能家庭 AI 拖把系统设计 一、引言 智能家庭 AI 拖把系统旨在为用户提供更高效、便捷和智能化的地面清洁解决方案,减轻家务劳动负担。 二、系统概述 1. 系统目标 - 自动清洁地面,包括吸尘、拖地和擦干功能。 - 智能识别地面材质和污渍程度,…...
01-02 三元组与七元组
01-02 三元组与七元组 好的!以下是关于网络中的 三元组(3-Tuple) 和 七元组(7-Tuple) 的详细扩展说明,包括它们的组成、用途以及与五元组的对比。 1. 三元组(3-Tuple) 组成 三元组…...
Spring整合Mybatis、junit纯注解
如何创建一个Spring项目 错误问题 不知道什么原因,大概是依赖版本不兼容、java版本不对的问题,折磨了好久就是搞不成。 主要原因看pom.xml配置 pom.xml配置 java版本 由于是跟着22年黑马视频做的,java版本换成了jdk-11,用21以…...
vue3中customRef的用法以及使用场景
1. 基本概念 customRef 是 Vue3 提供的用于创建自定义响应式引用的 API,允许显式地控制依赖追踪和触发响应。它返回一个带有 get 和 set 函数的工厂函数来自定义 ref 的行为。 1.1 基本语法 import { customRef } from vuefunction createCustomRef(value) {retu…...
深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用
title: 深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用 date: 2025/1/26 updated: 2025/1/26 author: cmdragon excerpt: 在现代数据库管理系统中,索引技术是提高查询性能的重要手段。当数据量不断增长时,如何快速、有效地访问这些数据成为了数据库设计的核…...
两数相加:链表操作的基础与扩展
两数相加:链表操作的基础与扩展 引言 链表(Linked List)是一种灵活且高效的数据结构,特别适用于动态增删操作。无论是初学者还是资深程序员,链表的基本操作都是算法学习中的重要一环。而 “两数相加” 问题则是链表操…...
智能码二维码的成本效益分析
以下是智能码二维码的成本效益分析: 成本方面 硬件成本 标签成本:二维码标签本身价格低廉,即使进行大规模应用,成本也相对较低。如在智能仓储中,塑料托盘加二维码方案的标签成本几乎可以忽略不计4。扫描设备成本&…...
分布式系统学习:小结
关于分布式系统的学习就暂时告一段落了,下面整理了个思维导图,只涉及分布式的一些相关概念,需要的可自取。后面准备写下关于AI编程相关的技术文章,毕竟要紧跟时代的脚步嘛 思维导图xmind文件下载地址:https://download…...
基于STM32的阿里云智能农业大棚
目录 前言: 项目效果演示: 一、简介 二、硬件需求准备 三、硬件框图 四、CubeMX配置 4.1、按键、蜂鸣器GPIO口配置 4.2、ADC输入配置 4.3、IIC——驱动OLED 4.4、DHT11温湿度读取 4.5、PWM配置——光照灯、水泵、风扇 4.6、串口——esp8266模…...
WGCLOUD使用介绍 - 如何监控ActiveMQ和RabbitMQ
根据WGCLOUD官网的信息,目前没有针对ActiveMQ和RabbitMQ这两个组件专门做适配 不过可以使用WGCLOUD已经具备的通用监测模块:进程监测、端口监测或者日志监测、接口监测 来对这两个组件进行监控...
