当前位置：首页 > news >正文

机器学习-启航

news 2026/2/10 19:44:22

文章目录

- 原理分析
- 机器学习的两种典型任务
- 机器学习分类
- 总结
- - 数据
  - 机器学习分类解读
  - - 简单
    - 复杂

原理分析

马克思主义哲学-规律篇
规律客观存在，万事万物皆有规律。

机器学习则是多维角度拆解分析复杂事实数据，发现复杂事实背后的规律，然后将规律用多参数公式表达出来，从而可以套用解决问题。
在这里插入图片描述

例如-分类任务：
将西瓜拆分为（x,y,z）三个维度，x=瓜秧卷曲程度，y=瓜皮纹理，z=瓜蒂大小。
ax+by+cz=是|否甜
大量(x1,y1,z1)=>甜，(x2,y2,z2)=>酸,(x3,y3,z3)=>甜等数据来求解a,b,c值。
后续便可以直接带入(Xn,Yn,Zn)到该公式中便可获取结果。
结论：
不论是机器学习还是深度学习，都是对大量数据的学习，掌握数据背后的分布规律，进而对符合该分布的其他数据进行准确预测。
在这里插入图片描述

机器学习的两种典型任务

简单的理解，分类任务是对离散值进行预测，根据每个样本的值/特征预测该样本属于类型A、类型B还是类型C，例如情感分类、内容审核，相当于学习了一个分类边界（决策边界），用分类边界把不同类别的数据区分开来。

回归任务是对连续值进行预测，根据每个样本的值/特征预测该样本的具体数值，例如房价预测，股票预测等，相当于学习到了这一组数据背后的分布，能够根据数据的输入预测该数据的取值。

在这里插入图片描述
实际上，分类与回归的根本区别在于输出空间是否为一个度量空间。

对于分类问题，目的是寻找决策边界，其输出空间B不是度量空间，即“定性”。也就是说，在分类问题中，只有分类“正确”与“错误”之分，至于分类到了类别A还是类别B，没有分别，都是错误数量+1。
对于回归问题，目的是寻找最优拟合，其输出空间B是一个度量空间，即“定量”，通过度量空间衡量预测值与真实值之间的“误差大小”。当真实值为10，预测值为5时，误差为5，预测值为8时，误差为2。
在这里插入图片描述

机器学习分类

有监督学习：监督学习利用大量的标注数据来训练模型，对模型的预测值和数据的真实标签计算损失，然后将误差进行反向传播（计算梯度、更新参数），通过不断的学习，最终可以获得识别新样本的能力。

每条数据都有正确答案，通过模型预测结果与正确答案的误差不断优化模型参数。

无监督学习：无监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系，比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。

只有数据没有答案，常见的是聚类算法，通过衡量样本之间的距离来划分类别。

半监督学习：利用有标签数据和无标签数据来训练模型。一般假设无标签数据远多于有标签数据。例如先使用有标签数据训练出初始模型，然后用初始模型对无标签数据进行分类，再使用正确分类的无标签数据训练初始模型，不断迭代，优化模型；

利用大量的无标注数据和少量有标注数据进行模型训练

自监督学习：机器学习的标注数据源于数据本身，而不是由人工标注。目前主流大模型的预训练过程都是采用自监督学习，将数据构建成完型填空形式，让模型预测对应内容，实现自监督学习。

通过对数据进行处理，让数据的一部分成为标签，由此构成大规模数据进行模型训练。

正确答案就是数据本身，训练的数据就是挖空数据，大模型填完空，对比完整数据，再次训练。
例如：
原始数据：我去玩剧本杀
挖空数据：我去玩（）
大模型：我去玩（走路）----对比正确答案---->再次填空。。。。。。
优势：
可供训练的数据极多且获取容易预处理简单，暴力出奇迹。

远程监督学习：主要用于关系抽取任务，采用bootstrap的思想（自力更生）通过已知三元组在文本中寻找共现句，自动构成有标签数据，进行有监督学习。

基于现有的三元组收集训练数据，进行有监督学习

强化学习：强化学习是智能体根据已有的经验，采取系统或随机的方式，去尝试各种可能答案的方式进行学习，并且智能体会通过环境反馈的奖赏来决定下一步的行为，并为了获得更好的奖赏来进一步强化学习。

以获取更高的环境奖励为目标优化模型

总结

数据

实际上算法工程师大部分时间都是在处理数据，调参，训练，模型效果不好，再调参，再训练。

数据标注是有监督学习最繁杂，重要且难的工作，有了成熟大模型之后就可以代替人工标注，直接用大模型标注好数据然后再训练自己的模型，牵一发动全身，师夷长技以制夷。
----注意确定非敏感数据让GPT标注，防止泄露。
中大厂之间最大的壁垒是数据壁垒，数据很重要。

数据标注（Data Annotation）是人工智能和机器学习领域中的一个重要过程，它涉及将原始数据（如文本、图片、语音、视频等）加上标签或注释，使得机器能够识别和理解这些数据。简而言之，数据标注就是将非结构化的数据转换为结构化的数据，以便机器可以对其进行处理和分析。
例如，在自动驾驶技术的发展过程中，需要大量的图像数据来训练车辆识别道路、行人和各种交通标志。数据标注师会处理这些图像数据，为每张图片添加标签，如“行人”、“自行车”、“红绿灯”等。这些标签帮助机器学习模型识别和分类图像中的不同对象。
具体到自动驾驶的例子，数据标注师可能需要对一张捕捉到的道路场景图片进行标注，标出图片中的车辆、行人、车道线、交通标志等。通过对大量此类图片进行标注，机器学习模型能够学习如何识别和反应这些不同的元素，从而实现在道路上的自主驾驶。
数据标注的过程不仅包括简单的分类，还可以包括更复杂的注释任务，如边界框的绘制（如在图像中标识对象的位置）、属性注释（如描述对象的属性，如颜色、形状等）、关系注释（如描述不同对象之间的关系）以及自由文本注释等。随着人工智能技术的发展，数据标注的要求也越来越高，需要标注的数据从简单的客观信息延伸到更加复杂的主观判断和理解。

机器学习分类解读

当我们谈论机器学习时，有监督学习、无监督学习、半监督学习、自监督学习、远程监督学习和强化学习是常见的学习方式。以下是对每种学习方式的例子，用日常用品来解释。

简单

有监督学习（Supervised Learning）:
- 例子：图书分类器
  假设你有一堆已经标记好的书籍，每本书都标明了它属于哪个类别（小说、科幻、历史等）。有监督学习就像是让机器学会根据这些标记来预测未标记书籍的类别，使其能够正确地分类新书。
无监督学习（Unsupervised Learning）:
- 例子：果篮分拣机
  想象你有一个摄像头监视着传送带上的水果。无监督学习就是让机器自己学会识别并分拣水果，而不需要提前告诉机器每种水果是什么。机器会自动找到数据中的模式，将相似的水果分组。
半监督学习（Semi-Supervised Learning）:
- 例子：邮件过滤器
  假设你有大量已经标记好的垃圾邮件和一些正常邮件，但未标记的邮件较多。半监督学习是让机器根据已知标记的数据进行学习，然后尽可能准确地过滤未标记的邮件，以提高整体过滤效果。
自监督学习（Self-Supervised Learning）:
- 例子：拼图游戏
  想象一个拼图游戏，其中一些拼图块已经缺失。自监督学习是让机器学会通过已知的拼图块来预测缺失的拼图块，而不需要额外的标签信息。通过这个过程，机器可以自我生成标签信息。
远程监督学习（Distant Supervision）:
- 例子：语音识别
  在语音识别中，远程监督学习可能涉及到使用一组正确标记的音频数据，但并非所有都需要人工标注。通过部分标记的数据，机器可以学会识别新的音频数据。
强化学习（Reinforcement Learning）:
- 例子：智能驾驶汽车
  将智能驾驶汽车看作一个强化学习代理。汽车通过感知环境（摄像头、雷达等），执行动作（转向、加速、刹车），并根据执行的动作获得奖励或惩罚（遵守交规奖励，违反交规惩罚）。通过不断尝试，汽车学会在不同情境下做出最优的驾驶决策。

复杂

当我们谈论机器学习时，有监督学习、无监督学习、半监督学习、自监督学习、远程监督和强化学习是常见的学习方式。为了更好地理解这些概念，我们可以用日常用品的例子来解释：

有监督学习（Supervised Learning）：
- 例子： 想象你是一名水果识别专家，你有一个标有水果名称的图像数据集。每张图片都有相应的标签，比如苹果、橙子或香蕉。
- 核心原理： 算法通过学习已标记的数据（带有标签）来建立模型，然后用这个模型对新的未标记数据进行分类。
无监督学习（Unsupervised Learning）：
- 例子： 现在，你只有一堆水果图片，但是没有标签。你的任务是发现这些数据中的模式，例如，将相似的水果归为一组，而无需事先知道水果的名称。
- 核心原理： 算法通过发现数据中的模式和结构，而不依赖于事先的标签来进行学习。
半监督学习（Semi-Supervised Learning）：
- 例子： 你有一些带有标签的水果图片，但是大多数数据是没有标签的。半监督学习的任务是在有限的标签数据下，尽可能提高对未标签数据的准确分类。
- 核心原理： 结合有标签和无标签的数据进行学习，以更好地泛化到新数据。
自监督学习（Self-Supervised Learning）：
- 例子： 假设你有一组水果图片，但是标签被随机删除了。自监督学习的目标是模型能够自行预测图像中水果的位置，而不是依赖外部标签。
- 核心原理： 模型通过利用数据本身的结构和信息来进行学习，无需外部标签。
远程监督（Distant Supervision）：
- 例子： 假设你想创建一个自动评估水果熟度的系统。虽然无法直接获取水果熟度的标签，但你可以使用远程传感器监测水果的颜色，声音等信息作为替代标签。
- 核心原理： 利用间接的、可能不太精确但可获得的监督信号来进行学习。
强化学习（Reinforcement Learning）：
- 例子： 想象你是一名机器人控制工程师，你的机器人学会通过尝试和错误来掌握在房间中导航的技能。每次成功导航或失败都会有相应的奖励或惩罚。
- 核心原理： 通过与环境的交互，系统学习在特定环境中采取哪些动作以最大化累积奖励。

机器学习-启航

文章目录原理分析机器学习的两种典型任务机器学习分类总结数据机器学习分类解读简单复杂原理分析马克思主义哲学-规律篇规律客观存在，万事万物皆有规律。机器学习则是多维角度拆解分析复杂事实数据，发现复杂事实背后的规律，然后将规律用…...

编程日记 2024/3/7 7:25:12

驱动调试第014期-变频调速的原理及相关计算公式应用

一、引言变频调速是一种通过改变电源频率来实现电动机调速的技术。它具有高效、精确、可靠等优点，广泛应用于工业、商业和家用领域。本文将介绍变频调速的基本原理、优点以及应用领域，并通过详细的公式计算过程和图片说明来帮助读者更好地理解。二、变…...

编程日记 2024/3/7 7:24:11

JavaWeb环境配置 IDE2022版

一、新建一个javaweb文件文件名可以自己随意改二、给建立的项目添加框架支持勾选Web Application,点击确定建立成功界面，会生成一个新的web文件夹三、配置tomcat 1、两种打开配置文件方式： 第一种第二种 2、打开后，点击号&#xf…...

编程日记 2024/3/7 7:23:10

Matlab偏微分方程拟合 | 完整源码 | 视频教程

专栏导读作者简介：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《复杂函数拟合案例分享》本专栏旨在提供 1.以案例的形式讲解各类复杂函数拟合的程序实现方法，并提供所有案例完整源码；2.…...

编程日记 2024/3/7 7:22:09

什么是yocto基本组件（bitbake,recipes,classes,configuration,layer)

文章目录 1基本组件1.1 bitbake1.2 Recipes1.3 Classes1.4 Configurations2 层的理解2.1 层结构2.2 nxp yocto示例2.3 ti yocto示例1基本组件 1.1 bitbake bitbake，是OpenEmbedded构建系统的核心工具，负责解析元数据，从中生成任务列表，然后执行这些任务。bitbake是一个通…...

编程日记 2024/3/7 7:21:09

electron 程序与安装包图标放大与制作

原因 electron-builder 在打包时需要最小支持到256x256像素的icon图标。原有历史图标都太小了。需要尝试将图标放大。工具 convertio.co/zh/ico-png/ 在线ico转png网站 https://github.com/upscayl/upscayl 图片放大工具 csdn下载 greenfish-icon-editor-pro.en.softonic.c…...

编程日记 2024/3/7 7:20:08

nginx,php-fpm

一，Nginx是异步非阻塞多进程，io多路复用 1、master进程：管理进程 master进程主要用来管理worker进程，具体包括如下4个主要功能： （1）接收来自外界的信号。 （2）向各worker进…...

编程日记 2024/3/7 7:19:07

网络编程(3/4)

广播 #include<myhead.h>int main(int argc, const char *argv[]) {//1、创建套接字int sfd socket(AF_INET, SOCK_DGRAM, 0);if(sfd -1){perror("socket error");return -1;}//2、将套接字设置成允许广播int broadcast 1;if(setsockopt(sfd, SOL_SOC…...

编程日记 2024/3/7 7:18:06

vue computed计算属性

模板中的表达式虽然方便，但也只能用来做简单的操作；如果在模板中写太多逻辑，会让模板变得臃肿，难以维护；因此我们推荐使用计算属性来描述依赖响应式状态的复杂逻辑 1. 选项式 API 中，可以提供computed选项来…...

编程日记 2024/3/7 7:17:06

智慧路灯物联网管理平台及应用

资产维护路灯物联网涉及的设备数量大，种类多，生产厂家和批次多样化，对路灯物联网的资产维护是一项艰巨的工作。资产维护管理能够有效的管理路灯资产及各类传感设备资产信息，实现精细化管理。平台提供了对集中控制器、各感测设备节点控制器等设备的信息进行管理，包括录入…...

编程日记 2024/3/7 7:16:05

基于OpenCV的图形分析辨认02

目录一、前言二、实验目的三、实验内容四、实验过程一、前言编程语言：Python，编程软件：vscode或pycharm，必备的第三方库：OpenCV，numpy，matplotlib，os等等。关于OpenCV&…...

编程日记 2024/3/7 7:15:04

python基础——基础语法

文章目录一、基础知识1、字面量2、常用值类型3、注释4、输入输出5、数据类型转换6、其他二、字符串拓展1、字符串定义2、字符串拼接3、字符串格式化4、格式化精度控制三、条件/循环语句1、if2、while3、for循环四、函数1、函数定义2、函数说明文档3、global关键字五、数据…...

编程日记 2024/3/7 7:13:02

vue3 vue-i18n 多语言

1. 安装 npm install vue-i18n -s 2. 引入main.js import { createI18n } from vue-i18n import messages from ./i18n/index const i18n createI18n({legacy: false,locale: Cookies.get(language) || en_us, // set localefallbackLocale: en_us, // set fallback local…...

编程日记 2024/3/7 7:12:01

二级水平导航菜单栏的实现

1. 这个是本人设计的一带一路的二级水平导航栏HTML代码； 这里最后实现的效果是鼠标悬停在导航栏上面，就会显示下面的4个部分页面，这里只是以评论热点作为例子，其他的类似； 2.首先要设计DIV，然后利用无…...

编程日记 2024/3/7 7:09:59

在GitLab Python库中，mr.changes()和mr.diffs()的区别

在GitLab Python库中，mr.changes()和mr.diffs()都用于获取合并请求（Merge Request）中的文件更改信息，但它们之间有一些区别： mr.changes()： mr.changes() 方法返回合并请求中所有文件的更改信息。返回的结果…...

编程日记 2024/3/7 7:08:58

JavaScript | 【讨论】微软早在2022年已经停用ie的今天，js开发还需要考虑ie9以下的情况嘛？

CSDN的C知道机器回复： 在进行JavaScript开发时，通常需要考虑IE9以下的况。尽管IE9以下的浏览器在市场份额上逐渐减少，但仍然有一部分用户在使用这些旧版本的浏览器。为了确保网站或应用在这些浏览器上能够正常运行，以下是一些需要…...

编程日记 2024/3/7 7:07:57

网康科技 NS-ASG 应用安全网关 SQL注入漏洞复现(CVE-2024-2022)

0x01 产品简介网康科技的NS-ASG应用安全网关是一款软硬件一体化的产品，集成了SSL和IPSec，旨在保障业务访问的安全性，适配所有移动终端，提供多种链路均衡和选择技术，支持多种认证方式灵活组合，以及内置短信认证、LDAP令牌、USB KEY等多达13种认证方式。 0x02 漏洞概述 …...

编程日记 2024/3/7 7:04:55

英福康INFICON软件真空Tware32中文操作手册

英福康INFICON软件真空Tware32中文操作手册...

编程日记 2024/3/7 7:03:54

UnityAPI的学习——Quaternion类

Quaternion又称为四元数，由x、y、z和w这4个分量组成，属于struct类型。在Unity中，用Quaternion来存储和表示对象的旋转角度。 Quaternion类实例属性在Quaternion类中，涉及的实例属性主要有eulerAngles eulerAngles属性&#x…...

编程日记 2024/3/7 7:02:53

chromedriverUnable to obtain driver for chrome using ,selenium找不到chromedriver

1、下载chromedriver chromedriver下载网址：CNPM Binaries Mirror 老版本在：chromedriver/ 较新版本在：chrome-for-testing/ 2、设置了环境变量还是找不到chromedriverUnable to obtain driver for chrome using NoSuchDriverException:…...

编程日记 2024/3/7 7:01:52

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

手游刚开服就被攻击怎么办？如何防御DDoS？

开服初期是手游最脆弱的阶段，极易成为DDoS攻击的目标。一旦遭遇攻击，可能导致服务器瘫痪、玩家流失，甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案，帮助快速应对并构建长期防护体系。一、遭遇攻击的紧急应…...

编程新知 2026/2/8 4:37:03

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现，设计原则设计原则是设计模式的理论基石，设计模式在经典的设计模式分类中（如《设计模式：可复用面向对象软件的基础》一书中），总共有23种设计模式，分为三大类：一、创建型模式（5种） 1. 单例模式（Sing…...

编程新知 2025/12/14 20:57:41

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2026/2/8 22:56:45

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/1/24 22:33:33

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据准备一个容器,例如: …...

编程新知 2026/2/7 10:59:19

postgresql|数据库|只读用户的创建和删除（备忘）

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

编程新知 2025/9/18 19:34:22

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2026/2/6 9:24:15

10-Oracle 23 ai Vector Search 概述和参数

一、Oracle AI Vector Search 概述企业和个人都在尝试各种AI，使用客户端或是内部自己搭建集成大模型的终端，加速与大型语言模型（LLM）的结合，同时使用检索增强生成（Retrieval Augmented Generation &#…...

编程新知 2026/2/9 20:30:28

Docker 本地安装 mysql 数据库

Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker ；并安装。基础操作不再赘述。打开 macOS 终端，开始 docker 安装mysql之旅第一步 docker search mysql 》〉docker search mysql NAME DE…...

编程新知 2026/2/9 17:06:25

文章目录

原理分析

机器学习的两种典型任务

机器学习分类

总结

数据

机器学习分类解读

简单

复杂

相关文章：