当前位置：首页 > news >正文

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门

news 2026/2/9 3:28:37

文章目录

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门
前言
- 一、什么是机器学习？
- 二、机器学习的基本类型
- - - 1. 监督学习（Supervised Learning）
    - 2. 无监督学习（Unsupervised Learning）
    - 3. 半监督学习（Semi-supervised Learning）
    - 4. 强化学习（Reinforcement Learning）
- 三、机器学习的工作流程
- 四、常见的机器学习算法
- 五、模型评价指标
- - - 1. 回归问题
    - 2. 分类问题
- 六、常见问题
- - - 1. 过拟合（Overfitting）
    - 2. 欠拟合（Underfitting）
- 七、机器学习的实际应用
结语

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门

💬欢迎交流：在学习过程中如果你有任何疑问或想法，欢迎在评论区留言，我们可以共同探讨学习的内容。你的支持是我持续创作的动力！
👍点赞、收藏与推荐：如果你觉得这篇文章对你有所帮助，请不要忘记点赞、收藏，并分享给更多的小伙伴！你们的鼓励是我不断进步的源泉！
🚀推广给更多人：如果你认为这篇文章对你有帮助，欢迎分享给更多对机器学习感兴趣的朋友，让我们一起进步，共同提升！

前言

随着人工智能的快速发展，机器学习作为其重要的基础分支，越来越受到关注。

本文将从两个方面对机器学习进行全面介绍。

什么是机器学习？
机器学习的主要内容和核心知识

一、什么是机器学习？

机器学习（Machine Learning, ML）是人工智能的一个分支，其核心目标是让计算机系统通过从数据中学习，而非依赖人工显式编程。

数学定义：
机器学习可以被视为一种优化问题。给定训练数据 ( D = {(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)} )，目标是找到一个函数 ( f )，使得对于新数据 ( x’ )，预测 ( y’ = f(x’) ) 尽可能准确。

通俗解释：
人类通过经验总结规律并解决问题，机器学习的本质是用算法让计算机从数据中自动提取规律，从而完成类似任务。

二、机器学习的基本类型

机器学习按数据标签和学习方式划分为四类：

1. 监督学习（Supervised Learning）

目标：从标注数据中学习输入与输出的映射关系。

数学公式：给定数据 $D = \{(x_i, y_i)\}$ 寻找函数 $(f)$ 使得 $f(x_i) \approx y_i \$
代码示例（线性回归）：

from sklearn.linear_model import LinearRegression
X = [[1], [2], [3]]  # 输入特征
y = [2, 4, 6]        # 标签
model = LinearRegression()
model.fit(X, y)  # 训练模型
print(model.predict([[4]]))  # 输出 [8]

应用场景：垃圾邮件分类（分类问题），房价预测（回归问题）。

2. 无监督学习（Unsupervised Learning）

目标：从无标签数据中发现模式或结构。

数学公式：寻找数据的分布 $p (x)$ 或最优聚类 $C$ 使得类内相似性最大，类间相似性最小。
代码示例（K-Means 聚类）：

from sklearn.cluster import KMeans
X = [[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
print(kmeans.labels_)  # 输出每个点的簇编号

应用场景：客户分群、降维（PCA）。

3. 半监督学习（Semi-supervised Learning）

目标：结合少量标注数据和大量未标注数据，提升模型性能。

特点：减少对标注数据的依赖，适合标注成本高的场景。
应用场景：医学影像分析（部分数据有标签）。

4. 强化学习（Reinforcement Learning）

目标：通过智能体与环境的交互，基于奖励反馈优化策略。

数学公式：最大化累计奖励 $\sum_t \gamma^t r_t$ ，其中 $r_t$ 为每步的即时奖励， $\gamma$ 为折扣因子。
代码示例（简单 Q-Learning）：

import numpy as np
Q = np.zeros((5, 2))  # 状态-动作值表
for episode in range(100):state = np.random.randint(0, 5)action = np.argmax(Q[state])reward = np.random.random()  # 假设奖励Q[state, action] += 0.1 * (reward - Q[state, action])

应用场景：AlphaGo、自动驾驶、机器人控制。

三、机器学习的工作流程

机器学习的典型工作流程如下：

数据收集：从传感器、网络、数据库中获取数据。
数据预处理：填补缺失值、标准化、降维等。
特征工程：提取重要特征（如词频统计、主成分分析）。
模型训练：选择算法（如 SVM、决策树）并优化超参数。
模型评估：使用训练集和验证集评估模型性能。
模型部署：将模型用于实际应用中。

四、常见的机器学习算法

以下是几种常用算法及其适用场景：

算法	任务类型	应用场景
线性回归	回归问题	房价预测、温度预测
决策树	分类/回归	用户行为预测
K-Means 聚类	聚类问题	市场细分、客户分群
主成分分析（PCA）	降维	数据压缩、可视化
支持向量机（SVM）	分类问题	图像识别、文本分类
卷积神经网络（CNN）	图像处理	人脸识别、目标检测
循环神经网络（RNN）	序列数据	语音识别、时间序列预测

五、模型评价指标

根据任务不同，模型评价指标各异：

1. 回归问题

均方误差（MSE）：
$\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
决定系数（R²）：
$R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}$

2. 分类问题

精度（Accuracy）：预测正确的样本比例。
F1 分数：
$\cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

六、常见问题

1. 过拟合（Overfitting）

表现：模型在训练集上表现极好，但对测试集效果差。
解决方法：正则化（L1/L2）、增加数据量、剪枝等。

2. 欠拟合（Underfitting）

表现：模型过于简单，无法捕获数据中的规律。
解决方法：增加特征、提升模型复杂度。

七、机器学习的实际应用

机器学习作为一项强大的技术工具，已经在多个领域广泛应用，其核心价值体现在数据驱动的预测、决策和优化能力。以下是机器学习在不同领域的主要应用场景：

1. 自然语言处理（NLP）
自然语言处理旨在让计算机理解和生成人类语言，是机器学习的重要应用方向。

文本分类：如垃圾邮件识别、新闻分类、社交媒体内容过滤。
情感分析：分析评论、社交媒体内容中的情感倾向（正面、中立或负面）。
机器翻译：如 Google 翻译，将文本从一种语言转换为另一种语言。
语音识别：通过语音转文字，实现人机交互的自然沟通。

2. 计算机视觉（CV）
计算机视觉利用机器学习从图像或视频数据中提取信息，广泛用于以下任务：

人脸识别：应用于安防、社交软件（如人脸解锁）。
目标检测：识别图像中的物体位置和类别，如自动驾驶中的障碍物检测。
图像生成：通过生成对抗网络（GAN）生成高质量的图像、视频或艺术品。
医学影像分析：如肿瘤检测、医学图像分割。

3. 金融领域
金融领域对精准预测和风险评估的需求，使机器学习成为关键技术：

信用风险评估：分析用户信用记录，预测违约风险。
股票价格预测：通过时间序列分析，预测金融市场趋势。
欺诈检测：识别异常交易模式，防止金融欺诈。
智能投顾：根据用户的投资偏好，提供个性化理财建议。

4. 推荐系统
推荐系统通过分析用户行为和偏好，为用户提供个性化推荐内容：

商品推荐：如电商平台推荐相关商品（如亚马逊、淘宝）。
个性化广告：根据用户兴趣投放精准广告，提升广告转化率。
内容推荐：如 Netflix、YouTube、Spotify 的视频或音乐推荐。

5. 医疗健康
医疗领域的机器学习应用正在改变疾病诊断、治疗和管理的方式：

疾病预测：基于患者历史数据预测疾病风险，如心脏病预测。
医学影像分析：自动检测病灶（如癌症筛查）并辅助医生诊断。
药物研发：通过分析化合物数据，快速筛选潜在药物。
个性化医疗：根据患者的基因信息和病史制定精准治疗方案。

6. 自动驾驶
自动驾驶是机器学习和人工智能的前沿应用之一：

环境感知：通过传感器和摄像头收集数据，识别道路、障碍物、行人等。
路径规划：基于地图和交通信息计算最优驾驶路径。
实时决策：处理实时数据，做出刹车、加速、转向等驾驶决策。
车队管理：在无人车车队中实现协同优化，提高交通效率。

结语

机器学习是一个跨学科的领域，其核心是数据驱动的建模和优化。在实际应用中，需要根据任务选择合适的学习类型、算法和评价指标，同时关注模型的泛化能力。

感谢你可以看到这里❤️

意气风发，漫卷疏狂
学习是成长的阶梯，每一次的积累都将成为未来的助力。我希望通过持续的学习，不断汲取新知识，来改变自己的命运，并将成长的过程记录在我的博客中。
如果我的博客能给您带来启发，如果您喜欢我的博客内容，请不吝点赞、评论和收藏，也欢迎您关注我的博客。
您的支持是我前行的动力。听说点赞会增加自己的运气，希望您每一天都能充满活力！
愿您每一天都快乐，也欢迎您常来我的博客。我叫意疏，希望我们一起成长，共同进步。
我是意疏下次见！

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门

文章目录【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门前言一、什么是机器学习？二、机器学习的基本类型1. 监督学习（Supervised Learning）2. 无监督学习（Unsupervised Learning）3. 半监督学习&a…...

编程日记 2025/1/6 4:20:14

ffmpeg八大开发库

‌FFmpeg八大库‌是指FFmpeg项目中最重要的八个库，它们各自承担不同的功能，共同构成了FFmpeg的强大功能。以下是这八大库的详细介绍： ‌libavcodec‌：负责音频和视频的编解码。它支持多种编解码器，如H.264、AAC、MP3、…...

编程日记 2025/1/6 4:19:13

【ArcGISPro/GeoScenePro】解决常见的空间参考和投影问题

修复空间参考缺失的图像数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 查看属性坐标查看属性范围范围值并不是零或接近于零。这意味着栅格具有范围，因此其已正确进行...

编程日记 2025/1/6 4:18:12

Linux上安装配置单节点zookeeper

直接先去官网下载安装包， https://downloads.apache.org/zookeeper/ 选择合适的版本，然后上传至服务器解压： tar -zxvf apache-zookeeper-3.9.3-bin.tar.gz创建data和logs目录 mkdir data mkdir logs配置环境变量： vim /etc/p…...

编程日记 2025/1/6 4:16:11

现代光学基础-1

总结自老师的讲义 yt1 目录光纤通信系统组成部分三大里程碑技术实例分析激光器定义自振荡器的特性组成输出特性应用领域受激辐射、自然辐射与吸收 LASER的定义受激辐射的特点光与物质的相互作用能量守恒与材料特性净增益条件谐振器定义组成部分性能描述 F-P谐振器&am…...

编程日记 2025/1/6 4:12:07

pytorch中nn.Conv2d详解及参数设置原则

文章目录基础参数1. in_channels (输入通道数)2. out_channels (输出通道数)3. kernel_size (卷积核大小)4. stride (步幅)5. padding (填充)6. dilation (膨胀)7. groups (分组卷积)8. bias (偏置) 如何设置参数？1. **in_channels 和 out_channels（输入…...

编程日记 2025/1/6 4:04:58

T-SQL语言的正则表达式

T-SQL语言的正则表达式在现代数据库管理系统中，SQL（结构化查询语言）被广泛用于数据的操作与管理。对数据的查询、插入、更新和删除几乎是每一个数据库管理系统中的基本功能。T-SQL（Transact-SQL）是微软对SQL的扩展&a…...

编程日记 2025/1/6 4:03:56

UDP_TCP

目录 1. 回顾端口号2. UDP协议2.1 理解报头2.2 UDP的特点2.3 UDP的缓冲区及注意事项 3. TCP协议3.1 报头3.2 流量控制2.3 数据发送模式3.4 捎带应答3.5 URG && 紧急指针3.6 PSH3.7 RES 1. 回顾端口号在 TCP/IP 协议中，用 “源IP”， “源端口号”…...

编程日记 2025/1/6 4:02:55

Python 中常见的数据结构之二推导式

Python 中常见的数据结构之二推导式使用推异式列表推导式字典推导式集合推导式使用推异式推导式是一种从已存在的序列中快速构建列表(list)、集合(set) 和字典(dictionary)方式。Python 支持 3 种不同类型的推导式： 列表推导式；字典推导式&#xf…...

编程日记 2025/1/6 4:01:52

STM32 拓展低功耗案例3：待机模式（hal）

配置PA0的两种方式： 第一种第二种复制寄存器代码然后对其进行修改 mian.c /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program body…...

编程日记 2025/1/6 3:54:46

【开源社区openEuler实践】探索 Yocto-Meta-OpenEuler：嵌入式开发的强大基石

title: 探索 Yocto-Meta-OpenEuler：嵌入式开发的强大基石 date: ‘2024-11-19’ category: blog tags: Yocto-Meta-OpenEuler嵌入式系统开源项目定制化开发 sig: EmbeddedTech archives: ‘2024-12’ author:way_back summary: Yocto-Meta-OpenEuler 为嵌入式系统开…...

编程日记 2025/1/6 3:53:44

C++ hashtable

文章目录 1. 基本概念2. 哈希函数3. 哈希冲突及解决方法开放定址法链地址法再哈希法建立公共溢出区4. 哈希表的操作实现5. 内存管理及优化时间复杂度理想情况（无哈希冲突或冲突极少）一般情况（考虑哈希冲突及解决方法）综合来看以…...

编程日记 2025/1/6 3:48:39

JS (node) 的 ACM 模式 + debug方法 (01背包为例)

文章目录 JS 的 ACM 模式输入处理 JS dubug (01背包为例)动态输入在本地通过 Node.js 运行和调试硬编码 Hard CodingVS Code JS 的 ACM 模式在 JavaScript 中，ACM 模式一般通过 Node.js 的 readline 模块实现。输入处理使用 readline 模块监听输入。将每行输…...

编程日记 2025/1/6 3:47:38

vue设计与实现-框架设计

权衡的艺术命令式和声明式视图层框架通常分为命令式和声明式，各有优缺。jquery是一种命令式框架。命令式框架关注过程，而声明式框架关注结果。对于vue来说，过程被vue封装了，所以vue内部是命令式的，但vue暴露给用户…...

编程日记 2025/1/6 3:44:34

Stable Diffusion和Midjourney有什么区别？

Stable Diffusion 和 Midjourney 主要有以下区别： 目录费用与可访问性设备要求安装与使用学习成本图像生成效果可控性与定制性私密性费用与可访问性 Stable Diffusion：开源免费，任何人都可以免费下载并自行部署使用&#xf…...

编程日记 2025/1/6 3:35:23

即插即用，无痛增强模型生成美感！字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

文章链接：https://arxiv.org/pdf/2412.20800 代码地址：https://github.com/fenfenfenfan/VMix 项目地址：https://vmix-diffusion.github.io/VMix/ 亮点直击分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异，提出…...

编程日记 2025/1/6 3:28:15

面向对象分析和设计OOA/D，UML，GRASP

目录什么是分析和设计？ 什么是面向对象的分析和设计？ 迭代开发 UML 用例图交互图基于职责驱动设计 GRASP 常见设计原则什么是分析和设计？ 分析，强调是对问题和需求的调查研究，不是解决方案。例如&#x…...

编程日记 2025/1/6 3:27:13

【每日学点鸿蒙知识】广告ID、NFC手机充值、CSS支持语法、PC与模拟器交互、SO热更新等

1、HamonyOS 样机获取成功返回Oaid为00000000-0000-0000-0000-000000000000？ 请求授权时需要触发动态授权弹窗,看一下是不是没有触发授权弹窗。可以参考以下代码以及文档： // ets import identifier from ohos.identifier.oaid; import hilog from oh…...

编程日记 2025/1/6 3:25:11

30分钟学会HTML

HTML 基本语法 HTML（HyperText Markup Language）是构成网页内容的基础。它使用一系列的标签来描述网页的结构，包括文本、图片、链接等元素。浏览器会解析这些标签并渲染成我们看到的网页。在线体验一下 CodePen (在线 HTML 编辑器)。千万不…...

编程日记 2025/1/6 3:24:10

服务器信息整理：用途、操作系统安装日期、设备序列化、IP、MAC地址、BIOS时间、系统

文章目录引言I BIOS时间Windows查看BIOS版本安装日期linux查看BIOS时间II 操作系统安装日期LinuxWindowsIII MAC 地址IV 设备序列号Linux 查看主板信息知识扩展Linux常用命令引言信息内容：重点信息：用途、操作系统安装日期、设备序列化、IP、MAC地址、BIOS时间、系统 Linux…...

编程日记 2025/1/6 3:22:04

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/2/9 0:12:12

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/1/24 22:33:33

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

1.获取 authorizationCode： 2.利用 authorizationCode 获取 accessToken：文档中心 3.获取手机：文档中心 4.获取昵称头像：文档中心首先创建 request 若要获取手机号，scope必填 phone，permissions 必填 …...

编程新知 2025/9/17 2:39:21

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2026/2/3 8:20:06

AI，如何重构理解、匹配与决策？

AI 时代，我们如何理解消费？ 作者｜王彬封面｜Unplash 人们通过信息理解世界。曾几何时，PC 与移动互联网重塑了人们的购物路径：信息变得唾手可得，商品决策变得高度依赖内容。但 AI 时代的来…...

编程新知 2026/1/30 2:33:11

蓝桥杯冶炼金属

原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V，是一个正整数，表示每 V V V 个普通金属 O O O 可以冶炼出 …...

编程新知 2026/2/4 10:54:26

管理学院权限管理系统开发总结

文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...

编程新知 2026/1/24 6:30:25

手机平板能效生态设计指令EU 2023/1670标准解读

手机平板能效生态设计指令EU 2023/1670标准解读以下是针对欧盟《手机和平板电脑生态设计法规》(EU) 2023/1670 的核心解读，综合法规核心要求、最新修正及企业合规要点： 一、法规背景与目标生效与强制时间发布于2023年8月31日（OJ公报&…...

编程新知 2026/2/2 11:58:16

安卓基础（Java 和 Gradle 版本）

1. 设置项目的 JDK 版本方法1：通过 Project Structure File → Project Structure... (或按 CtrlAltShiftS) 左侧选择 SDK Location 在 Gradle Settings 部分，设置 Gradle JDK 方法2：通过 Settings File → Settings... (或 CtrlAltS)…...

编程新知 2025/7/10 0:32:50

嵌入式常见 CPU 架构

架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集，单周期执行；低功耗、CIP 独立外设；用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel（原始…...

编程新知 2025/6/10 21:24:01

文章目录

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门

前言

一、什么是机器学习？

二、机器学习的基本类型

1. 监督学习（Supervised Learning）

2. 无监督学习（Unsupervised Learning）

3. 半监督学习（Semi-supervised Learning）

4. 强化学习（Reinforcement Learning）

三、机器学习的工作流程

四、常见的机器学习算法

五、模型评价指标

1. 回归问题

2. 分类问题

六、常见问题

1. 过拟合（Overfitting）

2. 欠拟合（Underfitting）

七、机器学习的实际应用

结语

相关文章：