当前位置：首页 > news >正文

机器学习入门-读书摘要

news 2026/2/8 14:40:07

先看了《深度学习入门：基于python的理论和实践》这本电子书，早上因为入迷还坐过站了。。

因为里面的反向传播和链式法则特别难懂，又网上搜了相关内容进行进一步理解，参考的以下文章（个人认为都讲的都非常好）：
神经网络15分钟入门：https://zhuanlan.zhihu.com/p/65472471
神经网络中的链式法则：https://zhuanlan.zhihu.com/p/790621956
反向传播到底是怎么传播的？https://zhuanlan.zhihu.com/p/66534632

什么是卷积：https://zhuanlan.zhihu.com/p/526705694

CNN卷积神经网络30分钟入门：https://zhuanlan.zhihu.com/p/635438713

机器学习的问题大体上可以分为回归问题和分类问题
关于输出层的激活函数，回归问题使用恒等函数；分类问题一般使用softmax函数（概率函数）

学习指的是从训练数据中自动获取最优权重参数的过程。引入损失函数衡量调整的指标，学习的目的找出使得损失函数的值达到最小的权重参数。

1 forward 正向传播，由输入到输出的过程 ---推理处理
backward 反向传播，由输出到输入的过程 ---机器学习
2 激活函数
线性函数 可以表示为cx，c为常量，x为输入，也就是可以用一条直线标识，不适用于神经网络
非线性函数
阶跃函数感知机使用的，大于某个值，输出是另一个值
神经网络使用平滑变化的sigmoid或ReLU函数
softmax函数概率函数，所有输出加起来是1

机器学习中一般将数据分为训练数据（也可以成为监督数据）和测试数据分别进行学习和实验（评价得到的模型的实际能力，损失函数）。

学习数据：
MINIST数据集 ---手写数字图像集（0到9，图形是28像素*28的），经常作为实现数据出现；比如训练图片6w张，测试图片1w张
正规化--将数据限定再一定范围，比如0-1

图像的特征量通常表示为向量的形式。在计算机视觉领域，常用的特征量包括SIFT、SURF和HOG等。
使用这些特征量将图像数据转换为向量，然后对转换后的向量使用机器学习中的SVM、KNN等分类器进行学习。

泛化能力评价学习能力，能否将训练模型应用于未来的数据预测。
过度拟合问题：指模型在训练数据上表现优异，但在测试数据或新数据上表现不佳的现象。原因：
（1）模型复杂度过高：捕捉到了训练数据中的一些特定的局部的特点（噪声）
（2）训练数据不足

神经网络学习用的指标成为损失函数，可以是任何函数，一般用均方差（mean squared error）等。
机器学习使用训练数据学习，严格来说，就是针对训练数据计算损失函数的值，找出使得该值最小的参数。

导数、偏导数、梯度
导数就是计算某个瞬间的变化量。
为了寻找使损失函数最小的参数，需要计算该参数的导数（确切的说就是梯度？），然后以这个导数为指引，逐步更新参数值。
损失函数其实是对权重参数求偏导数（因为神经元有多个参数，对某个参数求的是偏导数）。

像这样的由全部变量的偏导数汇总而成的向量称为梯度(gradient)。这个梯度意味着什么？可以用图像直观表示。
梯度呈现为有向向量（箭头）。我们发现梯度指向函数的“最低处”（最小值），就像指南针一样，所有的箭头都指向同一点。其次，
我们发现离“最低处”越远，箭头越大。梯度指示的方向是各点处的函数值减少最多的地方，无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。
虽然梯度的方向并不一定指向最小值，但沿着它的方向能够最大限度地减小函数的值。因此，
在寻找函数的最小值（或者尽可能小的值）的位置的任务中，要以梯度的信息为线索，决定前进的方向。
梯度法：位置沿着梯度方向前进一定距离，然后在新的地方重新求梯度，再沿着新梯度方向前进，如此反复，不断地沿梯度方向前进。
像这样，通过不断地沿梯度方向前进，逐渐减小函数值的过程就是梯度法(gradient method)。梯度法是解决机器学习中最优化问题的常用方法，特别是在神经网络的学习中经常被使用。
梯度下降法和梯度上升法本质上是一样的，将损失函数加个负号即可。

神经网络的学习分成下面4个步骤。
步骤1(mini-batch)
从训练数据中随机选出一部分数据，这部分数据称为mini-batch。我们的目标是减小mini-batch的损失函数的值。
步骤2（计算梯度）
为了减小mini-batch的损失函数的值，需要求出各个权重参数的梯度。梯度表示损失函数的值减小最多的方向。
步骤3（更新参数）
将权重参数沿梯度方向进行微小更新。
步骤4（重复）
重复步骤1、步骤2、步骤3。
神经网络的学习按照上面4个步骤进行。这个方法通过梯度下降法更新参数，不过因为这里使用的数据是随机选择的mini batch数据，所以又称为随机梯度下降法(stochastic gradient descent)。
在很多神经网络，随机梯度下降法一般由一个名为SGD的函数来实现，也就是随机梯度下降的首写字母。

数值微分，可以计算权重的梯度，但还有一种更高效的计算梯度的方法，但实现较复杂，误差反向传播法计算梯度效率比较高，它利用链式法则计算
反向传播是基于链式法则的。
如果一个函数由复合函数表示，则该复合函数的导数就是各个函数的导数的乘积表示。
比如 z = t*t t=x+y 则z对x的导数可以用z对t导数 * t对x导数。
反向传播的理解====有点儿难度。。。可能我脑子不好使了
链式法则（Chain Rule）是微积分中的重要规则，用于计算复合函数的导数。在神经网络的反向传播算法中，链式法则是计算梯度的核心工具。它允许我们通过将复杂的神经网络分解为简单的函数来逐层计算梯度，从而优化网络的权重。

机器学习入门-读书摘要

相关文章：

机器学习入门-读书摘要

前端【技术方案】重构项目

大语言模型简史：从Transformer（2017）到DeepSeek-R1（2025）的进化之路

RabbitMQ服务异步通信

Python常见面试题的详解7

Django REST Framework (DRF) 中用于构建 API 视图类解析

Huatuo热更新--安装HybridCLR

读书笔记 - 修改代码的艺术

【Go并发编程】Goroutine 调度器揭秘：从 GMP 模型到 Work Stealing 算法

c# -01新属性-模式匹配、弃元、析构元组和其他类型

同步异步日志系统-日志落地模块的实现

LabVIEW 天然气水合物电声联合探测

类型通配符上限

嵌入式音视频开发（二）ffmpeg音视频同步

Mongodb数据管理

Django 创建表 choices的妙用：get_＜field_name＞_display()

Spring Boot 集成 Kettle

自学Java-面向对象高级（final、单例类、枚举类、抽象类、接口）

Hutool - Cache：简单而强大的缓存实现

DeepSeek 通过 API 对接第三方客户端告别“服务器繁忙”

Redis相关知识总结（缓存雪崩，缓存穿透，缓存击穿，Redis实现分布式锁，如何保持数据库和缓存一致）

《Playwright：微软的自动化测试工具详解》

376. Wiggle Subsequence

Linux云原生安全：零信任架构与机密计算

拉力测试cuda pytorch 把 4070显卡拉满

《基于Apache Flink的流处理》笔记

Linux --进程控制

Go 语言并发编程基础：无缓冲与有缓冲通道

三分算法与DeepSeek辅助证明是单峰函数

uniapp 字符包含的相关方法