机器学习-启航
文章目录
- 原理分析
- 机器学习的两种典型任务
- 机器学习分类
- 总结
- 数据
- 机器学习分类解读
- 简单
- 复杂
原理分析
马克思主义哲学-规律篇
规律客观存在,万事万物皆有规律。
机器学习则是多维角度拆解分析复杂事实数据,发现复杂事实背后的规律,然后将规律用多参数公式表达出来,从而可以套用解决问题。
例如-分类任务:
将西瓜拆分为(x,y,z)三个维度,x=瓜秧卷曲程度,y=瓜皮纹理,z=瓜蒂大小。
ax+by+cz=是|否甜
大量(x1,y1,z1)=>甜,(x2,y2,z2)=>酸,(x3,y3,z3)=>甜等数据来求解a,b,c值。
后续便可以直接带入(Xn,Yn,Zn)到该公式中便可获取结果。
结论:
不论是机器学习还是深度学习,都是对大量数据的学习,掌握数据背后的分布规律,进而对符合该分布的其他数据进行准确预测。
机器学习的两种典型任务
简单的理解,分类任务是对离散值进行预测,根据每个样本的值/特征预测该样本属于类型A、类型B还是类型C,例如情感分类、内容审核,相当于学习了一个分类边界(决策边界),用分类边界把不同类别的数据区分开来。
回归任务是对连续值进行预测,根据每个样本的值/特征预测该样本的具体数值,例如房价预测,股票预测等,相当于学习到了这一组数据背后的分布,能够根据数据的输入预测该数据的取值。
实际上,分类与回归的根本区别在于输出空间是否为一个度量空间。
对于分类问题,目的是寻找决策边界,其输出空间B不是度量空间,即“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于分类到了类别A还是类别B,没有分别,都是错误数量+1。
对于回归问题,目的是寻找最优拟合,其输出空间B是一个度量空间,即“定量”,通过度量空间衡量预测值与真实值之间的“误差大小”。当真实值为10,预测值为5时,误差为5,预测值为8时,误差为2。
机器学习分类
有监督学习:监督学习利用大量的标注数据来训练模型,对模型的预测值和数据的真实标签计算损失,然后将误差进行反向传播(计算梯度、更新参数),通过不断的学习,最终可以获得识别新样本的能力。
每条数据都有正确答案,通过模型预测结果与正确答案的误差不断优化模型参数。
无监督学习:无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。
只有数据没有答案,常见的是聚类算法,通过衡量样本之间的距离来划分类别。
半监督学习:利用有标签数据和无标签数据来训练模型。一般假设无标签数据远多于有标签数据。例如先使用有标签数据训练出初始模型,然后用初始模型对无标签数据进行分类,再使用正确分类的无标签数据训练初始模型,不断迭代,优化模型;
利用大量的无标注数据和少量有标注数据进行模型训练
自监督学习:机器学习的标注数据源于数据本身,而不是由人工标注。目前主流大模型的预训练过程都是采用自监督学习,将数据构建成完型填空形式,让模型预测对应内容,实现自监督学习。
通过对数据进行处理,让数据的一部分成为标签,由此构成大规模数据进行模型训练。
正确答案就是数据本身,训练的数据就是挖空数据,大模型填完空,对比完整数据,再次训练。
例如:
原始数据:我去玩剧本杀
挖空数据:我去玩()
大模型:我去玩(走路)----对比正确答案---->再次填空。。。。。。
优势:
可供训练的数据极多且获取容易预处理简单,暴力出奇迹。
远程监督学习:主要用于关系抽取任务,采用bootstrap的思想(自力更生)通过已知三元组在文本中寻找共现句,自动构成有标签数据,进行有监督学习。
基于现有的三元组收集训练数据,进行有监督学习
强化学习:强化学习是智能体根据已有的经验,采取系统或随机的方式,去尝试各种可能答案的方式进行学习,并且智能体会通过环境反馈的奖赏来决定下一步的行为,并为了获得更好的奖赏来进一步强化学习。
以获取更高的环境奖励为目标优化模型
总结
数据
实际上算法工程师大部分时间都是在处理数据,调参,训练,模型效果不好,再调参,再训练。
数据标注是有监督学习最繁杂,重要且难的工作,有了成熟大模型之后就可以代替人工标注,直接用大模型标注好数据然后再训练自己的模型,牵一发动全身,师夷长技以制夷。
----注意确定非敏感数据让GPT标注,防止泄露。
中大厂之间最大的壁垒是数据壁垒,数据很重要。
数据标注(Data Annotation)是人工智能和机器学习领域中的一个重要过程,它涉及将原始数据(如文本、图片、语音、视频等)加上标签或注释,使得机器能够识别和理解这些数据。简而言之,数据标注就是将非结构化的数据转换为结构化的数据,以便机器可以对其进行处理和分析。
例如,在自动驾驶技术的发展过程中,需要大量的图像数据来训练车辆识别道路、行人和各种交通标志。数据标注师会处理这些图像数据,为每张图片添加标签,如“行人”、“自行车”、“红绿灯”等。这些标签帮助机器学习模型识别和分类图像中的不同对象。
具体到自动驾驶的例子,数据标注师可能需要对一张捕捉到的道路场景图片进行标注,标出图片中的车辆、行人、车道线、交通标志等。通过对大量此类图片进行标注,机器学习模型能够学习如何识别和反应这些不同的元素,从而实现在道路上的自主驾驶。
数据标注的过程不仅包括简单的分类,还可以包括更复杂的注释任务,如边界框的绘制(如在图像中标识对象的位置)、属性注释(如描述对象的属性,如颜色、形状等)、关系注释(如描述不同对象之间的关系)以及自由文本注释等。随着人工智能技术的发展,数据标注的要求也越来越高,需要标注的数据从简单的客观信息延伸到更加复杂的主观判断和理解。
机器学习分类解读
当我们谈论机器学习时,有监督学习、无监督学习、半监督学习、自监督学习、远程监督学习和强化学习是常见的学习方式。以下是对每种学习方式的例子,用日常用品来解释。
简单
-
有监督学习(Supervised Learning):
- 例子:图书分类器
假设你有一堆已经标记好的书籍,每本书都标明了它属于哪个类别(小说、科幻、历史等)。有监督学习就像是让机器学会根据这些标记来预测未标记书籍的类别,使其能够正确地分类新书。
- 例子:图书分类器
-
无监督学习(Unsupervised Learning):
- 例子:果篮分拣机
想象你有一个摄像头监视着传送带上的水果。无监督学习就是让机器自己学会识别并分拣水果,而不需要提前告诉机器每种水果是什么。机器会自动找到数据中的模式,将相似的水果分组。
- 例子:果篮分拣机
-
半监督学习(Semi-Supervised Learning):
- 例子:邮件过滤器
假设你有大量已经标记好的垃圾邮件和一些正常邮件,但未标记的邮件较多。半监督学习是让机器根据已知标记的数据进行学习,然后尽可能准确地过滤未标记的邮件,以提高整体过滤效果。
- 例子:邮件过滤器
-
自监督学习(Self-Supervised Learning):
- 例子:拼图游戏
想象一个拼图游戏,其中一些拼图块已经缺失。自监督学习是让机器学会通过已知的拼图块来预测缺失的拼图块,而不需要额外的标签信息。通过这个过程,机器可以自我生成标签信息。
- 例子:拼图游戏
-
远程监督学习(Distant Supervision):
- 例子:语音识别
在语音识别中,远程监督学习可能涉及到使用一组正确标记的音频数据,但并非所有都需要人工标注。通过部分标记的数据,机器可以学会识别新的音频数据。
- 例子:语音识别
-
强化学习(Reinforcement Learning):
- 例子:智能驾驶汽车
将智能驾驶汽车看作一个强化学习代理。汽车通过感知环境(摄像头、雷达等),执行动作(转向、加速、刹车),并根据执行的动作获得奖励或惩罚(遵守交规奖励,违反交规惩罚)。通过不断尝试,汽车学会在不同情境下做出最优的驾驶决策。
- 例子:智能驾驶汽车
复杂
当我们谈论机器学习时,有监督学习、无监督学习、半监督学习、自监督学习、远程监督和强化学习是常见的学习方式。为了更好地理解这些概念,我们可以用日常用品的例子来解释:
-
有监督学习(Supervised Learning):
- 例子: 想象你是一名水果识别专家,你有一个标有水果名称的图像数据集。每张图片都有相应的标签,比如苹果、橙子或香蕉。
- 核心原理: 算法通过学习已标记的数据(带有标签)来建立模型,然后用这个模型对新的未标记数据进行分类。
-
无监督学习(Unsupervised Learning):
- 例子: 现在,你只有一堆水果图片,但是没有标签。你的任务是发现这些数据中的模式,例如,将相似的水果归为一组,而无需事先知道水果的名称。
- 核心原理: 算法通过发现数据中的模式和结构,而不依赖于事先的标签来进行学习。
-
半监督学习(Semi-Supervised Learning):
- 例子: 你有一些带有标签的水果图片,但是大多数数据是没有标签的。半监督学习的任务是在有限的标签数据下,尽可能提高对未标签数据的准确分类。
- 核心原理: 结合有标签和无标签的数据进行学习,以更好地泛化到新数据。
-
自监督学习(Self-Supervised Learning):
- 例子: 假设你有一组水果图片,但是标签被随机删除了。自监督学习的目标是模型能够自行预测图像中水果的位置,而不是依赖外部标签。
- 核心原理: 模型通过利用数据本身的结构和信息来进行学习,无需外部标签。
-
远程监督(Distant Supervision):
- 例子: 假设你想创建一个自动评估水果熟度的系统。虽然无法直接获取水果熟度的标签,但你可以使用远程传感器监测水果的颜色,声音等信息作为替代标签。
- 核心原理: 利用间接的、可能不太精确但可获得的监督信号来进行学习。
-
强化学习(Reinforcement Learning):
- 例子: 想象你是一名机器人控制工程师,你的机器人学会通过尝试和错误来掌握在房间中导航的技能。每次成功导航或失败都会有相应的奖励或惩罚。
- 核心原理: 通过与环境的交互,系统学习在特定环境中采取哪些动作以最大化累积奖励。
相关文章:

机器学习-启航
文章目录 原理分析机器学习的两种典型任务机器学习分类总结数据机器学习分类解读简单复杂 原理分析 马克思主义哲学-规律篇 规律客观存在,万事万物皆有规律。 机器学习则是多维角度拆解分析复杂事实数据,发现复杂事实背后的规律,然后将规律用…...
驱动调试第014期-变频调速的原理及相关计算公式应用
一、引言 变频调速是一种通过改变电源频率来实现电动机调速的技术。它具有高效、精确、可靠等优点,广泛应用于工业、商业和家用领域。本文将介绍变频调速的基本原理、优点以及应用领域,并通过详细的公式计算过程和图片说明来帮助读者更好地理解。 二、变…...

JavaWeb环境配置 IDE2022版
一、新建一个javaweb文件 文件名可以自己随意改 二、给建立的项目添加框架支持 勾选Web Application,点击确定 建立成功界面,会生成一个新的web文件夹 三、配置tomcat 1、两种打开配置文件方式: 第一种 第二种 2、打开后,点击号…...

Matlab偏微分方程拟合 | 完整源码 | 视频教程
专栏导读 作者简介:工学博士,高级工程师,专注于工业软件算法研究本文已收录于专栏:《复杂函数拟合案例分享》本专栏旨在提供 1.以案例的形式讲解各类复杂函数拟合的程序实现方法,并提供所有案例完整源码;2.…...
什么是yocto基本组件(bitbake,recipes,classes,configuration,layer)
文章目录 1基本组件1.1 bitbake1.2 Recipes1.3 Classes1.4 Configurations2 层的理解2.1 层结构2.2 nxp yocto示例2.3 ti yocto示例1基本组件 1.1 bitbake bitbake,是OpenEmbedded构建系统的核心工具,负责解析元数据,从中生成任务列表,然后执行这些任务。bitbake是一个通…...

electron 程序与安装包图标放大与制作
原因 electron-builder 在打包时需要最小支持到256x256像素的icon图标。原有历史图标都太小了。需要尝试将图标放大。 工具 convertio.co/zh/ico-png/ 在线ico转png网站 https://github.com/upscayl/upscayl 图片放大工具 csdn下载 greenfish-icon-editor-pro.en.softonic.c…...

nginx,php-fpm
一,Nginx是异步非阻塞多进程,io多路复用 1、master进程:管理进程 master进程主要用来管理worker进程,具体包括如下4个主要功能: (1)接收来自外界的信号。 (2)向各worker进…...

网络编程(3/4)
广播 #include<myhead.h>int main(int argc, const char *argv[]) {//1、创建套接字int sfd socket(AF_INET, SOCK_DGRAM, 0);if(sfd -1){perror("socket error");return -1;}//2、将套接字设置成允许广播int broadcast 1;if(setsockopt(sfd, SOL_SOC…...
vue computed计算属性
模板中的表达式虽然方便,但也只能用来做简单的操作;如果在模板中写太多逻辑,会让模板变得臃肿,难以维护;因此我们推荐使用计算属性来描述依赖响应式状态的复杂逻辑 1. 选项式 API 中,可以提供computed选项来…...
智慧路灯物联网管理平台及应用
资产维护 路灯物联网涉及的设备数量大,种类多,生产厂家和批次多样化,对路灯物联网的资产维护是一项艰巨的工作。资产维护管理能够有效的管理路灯资产及各类传感设备资产信息,实现精细化管理。平台提供了对集中控制器、各感测设备节点控制器等设备的信息进行管理,包括录入…...

基于OpenCV的图形分析辨认02
目录 一、前言 二、实验目的 三、实验内容 四、实验过程 一、前言 编程语言:Python,编程软件:vscode或pycharm,必备的第三方库:OpenCV,numpy,matplotlib,os等等。 关于OpenCV&…...

python基础——基础语法
文章目录 一、基础知识1、字面量2、常用值类型3、注释4、输入输出5、数据类型转换6、其他 二、字符串拓展1、字符串定义2、字符串拼接3、字符串格式化4、格式化精度控制 三、条件/循环语句1、if2、while3、for循环 四、函数1、函数定义2、函数说明文档3、global关键字 五、数据…...

vue3 vue-i18n 多语言
1. 安装 npm install vue-i18n -s 2. 引入main.js import { createI18n } from vue-i18n import messages from ./i18n/index const i18n createI18n({legacy: false,locale: Cookies.get(language) || en_us, // set localefallbackLocale: en_us, // set fallback local…...

二级水平导航菜单栏的实现
1. 这个是本人设计的一带一路的二级水平导航栏HTML代码; 这里最后实现的效果是鼠标悬停在导航栏上面,就会显示下面的4个部分页面,这里只是以评论热 点作为例子,其他的类似; 2.首先要设计DIV,然后利用无…...
在GitLab Python库中,mr.changes()和mr.diffs()的区别
在GitLab Python库中,mr.changes()和mr.diffs()都用于获取合并请求(Merge Request)中的文件更改信息,但它们之间有一些区别: mr.changes(): mr.changes() 方法返回合并请求中所有文件的更改信息。返回的结果…...
JavaScript | 【讨论】微软早在2022年已经停用ie的今天,js开发还需要考虑ie9以下的情况嘛?
CSDN的C知道机器回复: 在进行JavaScript开发时,通常需要考虑IE9以下的况。尽管IE9以下的浏览器在市场份额上逐渐减少,但仍然有一部分用户在使用这些旧版本的浏览器。为了确保网站或应用在这些浏览器上能够正常运行,以下是一些需要…...

网康科技 NS-ASG 应用安全网关 SQL注入漏洞复现(CVE-2024-2022)
0x01 产品简介 网康科技的NS-ASG应用安全网关是一款软硬件一体化的产品,集成了SSL和IPSec,旨在保障业务访问的安全性,适配所有移动终端,提供多种链路均衡和选择技术,支持多种认证方式灵活组合,以及内置短信认证、LDAP令牌、USB KEY等多达13种认证方式。 0x02 漏洞概述 …...

英福康INFICON软件真空Tware32中文操作手册
英福康INFICON软件真空Tware32中文操作手册...
UnityAPI的学习——Quaternion类
Quaternion又称为四元数,由x、y、z和w这4个分量组成,属于struct类型。 在Unity中,用Quaternion来存储和表示对象的旋转角度。 Quaternion类实例属性 在Quaternion类中,涉及的实例属性主要有eulerAngles eulerAngles属性&#x…...

chromedriverUnable to obtain driver for chrome using ,selenium找不到chromedriver
1、下载chromedriver chromedriver下载网址:CNPM Binaries Mirror 老版本在:chromedriver/ 较新版本在:chrome-for-testing/ 2、设置了环境变量还是找不到chromedriverUnable to obtain driver for chrome using NoSuchDriverException:…...
HTML 语义化
目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性 标准答案: 语义化标签: <header>:页头<nav>:导航<main>:主要内容<article>&#x…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

智慧工地云平台源码,基于微服务架构+Java+Spring Cloud +UniApp +MySql
智慧工地管理云平台系统,智慧工地全套源码,java版智慧工地源码,支持PC端、大屏端、移动端。 智慧工地聚焦建筑行业的市场需求,提供“平台网络终端”的整体解决方案,提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...
Frozen-Flask :将 Flask 应用“冻结”为静态文件
Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是:将一个 Flask Web 应用生成成纯静态 HTML 文件,从而可以部署到静态网站托管服务上,如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...
Spring Boot面试题精选汇总
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别
OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别 直接训练提示词嵌入向量的核心区别 您提到的代码: prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...
MySQL用户和授权
开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务: test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...