当前位置：首页 > news >正文

DataWhale - 吃瓜教程学习笔记（一）

news 2026/2/9 11:46:39

学习视频：第1章-绪论_哔哩哔哩_bilibili
西瓜书对应章节：第一章 & 第二章

文章目录

机器学习三观
- What：什么是机器学习？
- Why: 为什么要学机器学习？
- - - 1. 机器学习理论研究
    - 2. 机器学习系统开发
    - 3. 机器学习算法迁移（AI+）
    - 4. AI 应用方向研究：NLP, CV, 推荐系统
- How: 怎样学习深度学习？
- - - - 纯理论研究
    - - 系统的开发
    - - 算法迁移（AI for Science)
    - - AI 应用方向研究
基础核心知识概念
- - - 假设空间 & 版本空间
    - 算法
    - 样本（示例）
    - 标记
    - 样本空间 & 标记空间
    - 机器学习任务分类（根据标记取值类型不同）
    - 机器学习任务分类（根据是否用到标记信息）
    - 数据集
    - 泛化
    - 分布
    - 归纳偏好
数据决定模型的上限，算法则是让模型无限逼近上限
- - - - 数据决定模型的上限
模型评估与选择
- - 经验误差与过拟合
- - - - 精度
    - - 训练误差 & 泛化误差
    - - 过拟合
    - - 欠拟合
- - 评估方法
- - - - 留出法
    - - 交叉验证法
    - - 自助法
    - - 验证集
- 性能度量
- - - - 均方误差
    - - 错误率
    - - 精度
    - - 查准率 & 查全率
    - - F1 度量
    - - ROC 曲线
    - - 代价敏感错误率 & 代价曲线
    - - 比较检验
    - - - 假设检验
    - - 交叉验证T检验
    - - McNemar 检验
    - - Friedman 检验和 Nemenyi 后续检验
    - - 偏差与方差

机器学习三观

What：什么是机器学习？

关键词：“学习算法”

Why: 为什么要学机器学习？

1. 机器学习理论研究

2. 机器学习系统开发

3. 机器学习算法迁移（AI+）

4. AI 应用方向研究：NLP, CV, 推荐系统

How: 怎样学习深度学习？

- 纯理论研究

- 系统的开发

1C6PR5L3A4ALU899PL%6V.png

- 算法迁移（AI for Science)

- AI 应用方向研究

基础核心知识概念

假设空间 & 版本空间

假设空间定义了所有可能的解决方案；版本空间则是在考虑了训练数据后，认为可能正确的解决方案的集合

算法

从数据中学得模型的“具体方法”，其产出结果称为“模型”

样本（示例）

关于一个事件或对象的描述。用向量进行表示，向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 “;” 表示为列向量，用逗号 ","表示为行向量。

标记

学习样本在某方面的表现存在潜在规律的的信息。

样本空间 & 标记空间

所有可能的输入数据或特征向量的集合；
所有可能的输出标签或目标值的集合

机器学习任务分类（根据标记取值类型不同）

标记取值为“离散型”，任务为分类
标记取值为 “连续型”，任务为回归

机器学习任务分类（根据是否用到标记信息）

训练阶段有用到标记信息，此类任务为 “监督学习”
训练阶段没用到标记信息，此类任务为 “无监督学习”

数据集

通常用集合表示
一般同一份数据集中的每个样本都含相同个数的特征
样本 $x_{ij}$ 表示样本 $x_i$ 在第 j 个属性上的取值

泛化

模型对未在训练过程中见过的数据进行准确预测的能力

分布

概率论中的概率分布。

归纳偏好

不同的机器学习算法有不同的偏好

最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。
机器学习算法没有绝对的优劣之分，只有是否适合当前待解决问题之分。
没有免费的午餐定理（NFL)：众算法生而平等（哪个算法训出来的模型在测试集上表现好哪个算法 nb）。

数据决定模型的上限，算法则是让模型无限逼近上限

- 数据决定模型的上限

数据是指从 数据量 和 特征工程 两个角度考虑

通常数据量越大模型效果越好
通常对特征数值化越合理，特征收集越全越细致，模型效果通常越好

模型评估与选择

- 经验误差与过拟合

- 精度

- 训练误差 & 泛化误差

训练集上的误差；新样本上的误差

- 过拟合

- 欠拟合

- 评估方法

- 留出法

直接将数据集划分为 数据集 和 测试集 。

训练集和测试集要尽量保证数据分布的一致性
采用采样类别比例相似的 分层采样 。

- 交叉验证法

先将数据集划分为 k 个互斥子集，尽可能保持数据分布的一致性，然后以 k-1 个子集的并集作为训练集，余下子集作为测试集，进行k次训练测试，最终返回训练结果的均值。

有m个数据，令 k = m，则为 留一法 。

- 自助法

可重复有放回采样。

训练集的数量会增多
有可能会改变数据集的分布

- 验证集

对模型进行评估测试的数据集。

性能度量

- 均方误差

- 错误率

分类错误样本数占样本总数的比例。

- 精度

分类正确的样本数占样本总数的比例。

- 查准率 & 查全率

- F1 度量

- ROC 曲线

- 代价敏感错误率 & 代价曲线

X轴 -

Y轴 -

- 比较检验

- 假设检验

- 交叉验证T检验

- McNemar 检验

- Friedman 检验和 Nemenyi 后续检验

- 偏差与方差

偏差度量了学习算法的期望预测与真实结果的偏离程度，刻画了学习算法本身的拟合能力
方差度量了同样大小的训练集的变动导致的学习性能的变化，刻画了数据扰动造成的影响
噪声表达了当前任务上任何学习算法所能达到的期望泛化的误差的下界，刻画了学习问题本身的难度
泛化性能是由学习算法的能力、数据的充分性、学习任务本身的难度共同决定的。为了取得良好的泛化性能，需要使得方差、偏差都较小。

DataWhale - 吃瓜教程学习笔记（一）

学习视频：第1章-绪论_哔哩哔哩_bilibili 西瓜书对应章节： 第一章 & 第二章文章目录机器学习三观What：什么是机器学习？Why: 为什么要学机器学习？1. 机器学习理论研究2. 机器学习系统开发3. 机器学习算法迁移 &…...

编程日记 2024/6/20 4:35:43

如何优雅的一键下载OpenHarmony活跃分支代码？请关注【itopen: ohos_download】

itopen组织：1、提供OpenHarmony优雅实用的小工具2、手把手适配riscv qemu linux的三方库移植3、未来计划riscv qemu ohos的三方库移植小程序开发4、一切拥抱开源，拥抱国产化一、概述为方便大家每次下载OpenHarmony不同分支/tag代码&#xff0c…...

编程日记 2024/6/20 4:31:37

torch.topk用法

torch.topk用法介绍使用示例介绍官网介绍：https://pytorch.org/docs/stable/generated/torch.topk.html 在指定维度选取k个最大（最小）的值。使用示例 values torch.tensor([[2, 1, 3], [1, 2, 3]]) # values # tensor([[2, 1, 3], #…...

编程日记 2024/6/20 4:30:33

终极版本的Typora上传到博客园和csdn

激活插件下载网址是这个： https://codeload.github.com/obgnail/typora_plugin/zip/refs/tags/1.9.4 解压之后这样的： 解压之后将plugin，复制到自己的安装目录下的resources 点击安装即可： 更改配置文件 "dependencies&q…...

编程日记 2024/6/20 4:29:31

洛谷：P5707【深基2.例12】上学迟到

1. 题目链接 https://www.luogu.com.cn/problem/P5707 【深基2.例12】上学迟到 2. 题目描述学校和y的家距离s米，s以v的速度去学校，8点之前到，y出门前要打扫10分钟卫生，求s最晚的出门时间输入：两个正整数路程s&…...

编程日记 2024/6/20 4:28:29

数据治理：数据提取过程中的合规性与安全性

数据治理：数据提取过程中的合规性与安全性随着数字化时代的到来，数据已经成为企业运营和决策的核心驱动力。然而，在数据提取的过程中，确保数据的合规性和安全性成为了企业面临的重要挑战。数据治理作为一种系统的方法&#xff0…...

编程日记 2024/6/20 4:25:26

24计算机应届生的活路是什么

不够大胆❗ 很多小伙伴在找工作时觉得自己没有竞争力，很没有自信，以至于很害怕找工作面试，被人否定的感觉很不好受。其实很多工作并没有想象中的高大上，不要害怕，计算机就业的方向是真的广，不要走窄了&…...

编程日记 2024/6/20 4:21:18

HTML页面布局-使用div示例

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><!--text-align:center 文字水平居中line-height：200px; 文字垂直居中,行高设置跟高…...

编程日记 2024/6/20 4:20:14

怎么把webp文件转换为jpg？快来试试这四种转换方法！

怎么把webp文件转换为jpg？Webp是一种不常见的图片格式，这种格式在使用过程中有很多缺点，首先它的浏览器兼容性不是很强，这就代表大家无法随意进行网络传输，可能需要准备特定的操作才能进行，然后编辑webp的工…...

编程日记 2024/6/20 4:19:12

计算机网络(7) 错误检测

一.校验和使用补码计算校验和是一种常见的错误检测方法，应用于网络协议如IP和TCP。补码是二进制数的一种表示方法，可以有效地处理符号位和进位。下面是如何利用补码计算校验和的详细步骤和算数例子。 ### 计算步骤 1. **将数据分块**：将数…...

编程日记 2024/6/20 4:18:09

实体类status属性使用枚举类型的步骤

1. 问题引出当实体类的状态属性为Integer类型时，容易写错 2. 初步修改把状态属性强制为某个类型，并且自定义一些可供选择的常量。 public class LessonStatus {public static final LessonStatus NOT_LEARNED new LessonStatus(0,"未学习"…...

编程日记 2024/6/20 4:16:05

pytorch基础【4】梯度计算、链式法则、梯度清零

文章目录梯度计算计算图（Computational Graph）梯度求导（Gradient Computation）函数与概念示例代码更多细节梯度求导的过程梯度求导的基本步骤示例代码注意事项总结链式法则是什么？链式法则的数学定义链式法则在深度…...

编程日记 2024/6/20 4:15:04

mapreduce综合应用案例 — 招聘数据清洗

MapReduce是一个编程模型和处理大数据集的框架，它由Google开发并广泛使用于分布式计算环境中。MapReduce模型包含两个主要的函数：Map和Reduce。Map函数用于处理输入的键值对生成中间键值对，Reduce函数则用于合并Map函数输出的具有相同键的中间…...

编程日记 2024/6/20 4:14:02

发力采销，京东的“用户关系学”

作者 | 曾响铃文 | 响铃说 40多岁打扮精致的城市女性，在西藏那曲的偏远农村，坐着藏民的摩托车，行驶在悬崖边的烂泥路上，只因为受顾客的“委托”，要寻找最原生态的藏区某款产品。 30多岁的憨厚中年男性，…...

编程日记 2024/6/20 4:13:00

期望23K，go高级社招面试复盘

面经哥只做互联网社招面试经历分享，关注我，每日推送精选面经，面试前，先找面经哥我最终还是上岸了，花了一周总结了3万字的go社招高级面试知识体系思维导图，分享出来希望能帮助有缘人吧，以下只是…...

编程日记 2024/6/20 4:10:58

电感（线圈）具有哪些基本特性

首先，电感（线圈）具有以下基本特性，称之为“电感的感性电抗” ?①直流基本上直接流过。 ?②对于交流，起到类似电阻的作用。 ?③频率越高越难通过。下面是表示电感的频率和阻抗特性的示意图。在理想电感器中&#…...

编程日记 2024/6/20 4:09:56

tkinter实现一个GUI界面-快速入手

目录一个简单界面输出效果其他功能插入进度条文本框内容输入和删除标签内容显示和删除一个简单界面含插入文本、文本框、按钮、按钮调用函数 # -*- coding: UTF-8 -*-import tkinter as tk from tkinter import END from tkinter import filedialog from tkinter impor…...

编程日记 2024/6/20 4:08:55

Top10在线音频剪辑软件，你了解几款？（免费分享）

多年来，随着音乐制作人和音频工程师的需求不断增长，音频剪辑软件领域经历了巨大的发展。最新的音频剪辑软件提供了从基本录制到最终发布所需的一切功能。其中一些软件专为播客设计，一些软件是免费的，并且一些软件提供了出色的音效…...

编程日记 2024/6/20 4:07:52

mysql报错：You can‘t specify target table ‘Person‘ for update in FROM clause

背景在做leetcode里数据库的196题删除重复数据时，我参考评论区大佬的方法先用group by找到每个分组里的最小的id的那条记录，然后删掉原表中id不在其中的记录，然后就报了如题所示的错误。我的写法如下： DELETE FROMPerson WHER…...

编程日记 2024/6/20 4:06:50

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/2/9 0:12:12

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留，CCA-Attention为LLM长文本建模带来突破性进展琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制（CCA-Attention），…...

编程新知 2026/2/5 4:25:15

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个？3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制半数机制（过半机制&#xff0…...

编程新知 2026/1/25 13:13:20

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/12/13 4:20:30

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2026/1/29 17:06:33

问题： 在uniapp中使用aixos，运行后报如下错误： AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...

编程新知 2025/11/29 21:26:48

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/12/14 17:38:21

Web 架构之 CDN 加速原理与落地实践

文章目录一、思维导图二、正文内容（一）CDN 基础概念1. 定义2. 组成部分 （二）CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 （三）CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...

编程新知 2025/9/13 16:17:01

文章目录

机器学习三观

What：什么是机器学习？

Why: 为什么要学机器学习？

1. 机器学习理论研究

2. 机器学习系统开发

3. 机器学习算法迁移 （AI+）

4. AI 应用方向研究：NLP, CV, 推荐系统

How: 怎样学习深度学习？

- 纯理论研究

- 系统的开发

- 算法迁移 （AI for Science)

- AI 应用方向研究

基础核心知识概念

假设空间 & 版本空间

算法

样本（示例）

标记

样本空间 & 标记空间

机器学习任务分类 （根据标记取值类型不同）

机器学习任务分类 （根据是否用到标记信息）

数据集

泛化

分布

归纳偏好

数据决定模型的上限，算法则是让模型无限逼近上限

- 数据决定模型的上限

模型评估与选择

- 经验误差与过拟合

- 精度

- 训练误差 & 泛化误差

- 过拟合

- 欠拟合

- 评估方法

- 留出法

- 交叉验证法

- 自助法

- 验证集

性能度量

- 均方误差

- 错误率

- 精度

- 查准率 & 查全率

- F1 度量

- ROC 曲线

- 代价敏感错误率 & 代价曲线

- 比较检验

- 假设检验

- 交叉验证T检验

- McNemar 检验

- Friedman 检验 和 Nemenyi 后续检验

- 偏差与方差

相关文章：

3. 机器学习算法迁移（AI+）

- 算法迁移（AI for Science)

机器学习任务分类（根据标记取值类型不同）

机器学习任务分类（根据是否用到标记信息）

- Friedman 检验和 Nemenyi 后续检验