当前位置: 首页 > news >正文

【NLP 2、机器学习简介】

人生的苦难不过伏尔加河上的纤夫

                                        —— 24.11.27

一、机器学习起源

机器学习的本质 —— 找规律

通过一定量的训练样本找到这些数据样本中所蕴含的规律

规律愈发复杂,机器学习就是在其中找到这些的规律,挖掘规律建立一个公式,导致对陌生的数据一样可以起到判断效果

机器学习就是从数据中找到这个公式(规律、函数、映射)的过程

机器预测就是用这个公式去推断未知数据的过程

通过已知的样本,寻找其中所蕴含的规律,根据规律得出一个公式,然后再用公式推导其他未知样本数据的信息


二、机器学习应用

很多时候我们都会得到一些数据,我们希望从其中找到数据间的规律,但是有些复杂的规律我们无法得到,所以可以依托机器帮助我们挖掘这些数据间的规律

例:

① 知道花朵的大小、颜色、型状等信息,我们判断未知花朵的类别

② 知道身体健康信息,如血压、血糖等指标,来判断人体是否健康,是否患病

③ 知道房屋的大小、年份、地理位置等信息,来预测该房的房价是多少

④ 知道企业的业务、规模等市场信息,来预测该公司的股价

⑤ 知道国家的人口、科技水平、GDP、经济发展情况,来预测国家未来的GDP

规律及公式是由我们给出一个初始值,然后通过机器在数据间学习的成果,我们对公式中的具体参数进行调整、优化


三、机器学习的分类

1.有监督学习

模型通过学习输入数据和数据对应的输出标签之间的关系来进行训练。

模型在训练过程中有明确的指导,知道每个输入数据对应的正确输出是什么。

核心目标

建立一个模型/函数,来描述带标签的已知数据的输入与输出间内含的映射关系

价值

对于新的未知输入数据,通过模型给出预测的输出结果

有监督学习中,训练数据十分重要,因为训练数据不足的话,无法从样本数据中提出正确的规律,也就无法正确进行预测

要点

① 一定数量的训练样本

② 输入和输出之间必须要有关联关系(决定性条件)

③ 输入和输出结果要能够转化为数字/数值(数值化表示),机器才能从中进行学习

④ 任务需要有预测价值(固定规则的不用预测)

有监督学习在人工智能中的应用

① 文本分类任务

输入:文本

输出:类别

关系:文本的内容决定了文本的类别

② 机器翻译内容

输入:A语种文本

输出:B语种文本

关系:A语种表达的意思,B语种中有相应的表达

③ 图像识别任务

输入:图像

输出:类别

关系:图像中的像素排列,决定了图像的内容

④ 语音识别任务

输入:音频

输出:文本

关系:声音信号在特定语言中对应特定的文本


2.无监督学习

数据中只有X(数据)没有Y(对应的标注),给予机器的数据没有标注信息,通过算法对数据进行一定的自动分析处理,得到一些结论,常见任务有:聚类、降维、找特征值等等

聚类

数据只有点(X)没有对应的标注(Y),将数据在空间中分布靠近的点划分在一组/类

降维

将一个高维数据,用一种方法,让每个数据进行低维表示,他们在降维后空间中的分布与降维前在空间中的分布比较接近(维度降低,空间中的分布不变


3.半监督学习

半监督学习是有监督学习和无监督学习之间的一种机器学习方式,将有监督学习和无监督学习结合起来,先利用无监督学习得到一些信息,再通过无监督学习得到的数据信息进行有监督学习,或者先对一些数据做有监督学习,将这些数据处理完后再做无监督学习,然后共同得到一种有意义的规律


4.自监督学习

数据中有数据X也有对应标注Y,但是对应标注Y由数据自身在训练过程中进行生成,不需要提前给出

现大多与无监督学习混用,但其实存在区别,自监督模型中学习数据的特征自动产生,相当于数据自身就是自身的标注,不需要人来标识数据,而无监督学习中数据的特征没有标注特征


5.有监督、无监督、半监督、自监督学习的区别

有监督学习是根据已知数据提供的数据特征,建立模型/算法,再用建立的模型/算法预测未知数据

无监督学习不需要数据特征,通过算法对未知数据自动分析处理提取特征,得出一些结论

自监督学习需要数据特征,但是由数据自动产生,不需要我们主动提供

半监督学习是将无监督学习和有监督学习融合起来,先后进行学习,得到一种有意义的规律


四、机器学习一般流程

训练数据 ——> 数据处理 ——> 选择处理的算法 ——> 训练数据(建模&评估)——> 反复进行优化  ——> 将模型输出

模型 == 函数 == 公式


五、机器学习常用概念

1.训练集

用于训练模型,是模型训练的训练数据集合

将训练集中的数据与测试集中的数据尽量分开

例:一般而言一百条数据,八十条用于训练,十条用于验证,十条用于测试(现常将验证集与测试集合体到验证集,直接在验证集进行测试模型效果),尽量保证训练集与测试 / 验证集无重合


2.验证集

对于每一种任务一般都有多种算法可以来选择,一般会使用验证集验证用于对比不同算法的效果差异


3.测试集

最终用于评判算法模型效果的数据集合


4.K折交叉验证(K fold cross validation)

初识采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用于训练。交叉验证重复K次(用这K个数据分别每个当作验证测试集,其余的作为训练集,最终求平均值),每个子样本验证一次,平均K次的结果


5.过拟合

模型失去了泛化能力,在特定的集合上表现很好,在新的集合上表现很差(模型在训练集和验证集上都有很不错的表现,但在测试集上的表现很差)

将测试集与训练集分开是预防发生过拟合现象


6.欠拟合

模型没能建立起合理的输入输出间的映射。当输入训练集中的样本时,预测结果与标注结果依然相差很大(由于训练数据过少,在训练数据上就没有找到好的规律,也就无法预测新样本数据)。

过拟合与欠拟合都与训练数据不足 / 选用的处理算法不当有关


7.评价指标

为了评估算法效果的好坏,需要找到一种评价模型效果的计算指标,根据不同的任务会使用不同的评价指标,常用的评价指标有:

① 准确率 ② 召回率 ③ F1值 ④ TopK ⑤ BLEU

相关文章:

【NLP 2、机器学习简介】

人生的苦难不过伏尔加河上的纤夫 —— 24.11.27 一、机器学习起源 机器学习的本质 —— 找规律 通过一定量的训练样本找到这些数据样本中所蕴含的规律 规律愈发复杂,机器学习就是在其中找到这些的规律,挖掘规律建立一个公式,导致对陌生的数…...

数据结构与算法——N叉树(自学笔记)

本文参考 N 叉树 - LeetBook - 力扣(LeetCode)全球极客挚爱的技术成长平台 遍历 前序遍历:A->B->C->E->F->D->G后序遍历:B->E->F->C->G->D->A层序遍历:A->B->C->D->…...

【趣味升级版】斗破苍穹修炼文字游戏HTML,CSS,JS

目录 图片展示 开始游戏 手动升级(满100%即可升级) 升级完成,即可解锁打怪模式 新增功能说明: 如何操作: 完整代码 实现一个简单的斗破苍穹修炼文字游戏,你可以使用HTML、CSS和JavaScript结合来构建…...

【Oracle】个人收集整理的Oracle常用SQL及命令

【建表】 create table emp( id number(12), name nvarchar2(20), primary key(id) ); 【充值一】 insert into emp select rownum,dbms_random.string(*,dbms_random.value(6,20)) from dual connect by level<101; 【充值二】 begin for i in 1..100 loop inser…...

Linux内核4.14版本——ccf时钟子系统(5)——通用API

1. clk_get 1.1 __of_clk_get_by_name 1.2 clk_get_sys 2. clk_prepare_enable 2.1 clk_prepare 2.2 clk_enable 3. clk_set_rate 1. clk_get clock get是通过clock名称获取struct clk指针的过程&#xff0c;由clk_get、devm_clk_get、clk_get_sys、of_clk_get、of_clk_g…...

安装MySQL 5.7 亲测有效

前言&#xff1a;本文是笔者在安装MySQL5.7时根据另一位博主大大的安装教程基础上做了一些修改而成 首先在这里表示对博主大大的感谢 下面附博主大大地址 下面的步骤言简意赅 跟着做就不会出错 希望各位读者耐下心来 慢慢解决安装中出现的问题~MySQL 5.7 安装教程&#xff08;全…...

《Django 5 By Example》阅读笔记:p455-p492

《Django 5 By Example》学习第 16 天&#xff0c;p455-p492 总结&#xff0c;总计 38 页。 一、技术总结 1.myshop (1)打折功能 使用折扣码实现&#xff0c;但是折扣码是手动生成的&#xff0c;感觉实际业务中应该不是这样的。 (2)推荐功能 使用 Redis 做缓存&#xff0…...

Element-UI 官网的主题切换动画

文章目录 实现圆形扩散过渡动画 实现一下 Element-UI 官网的主题切换动画加粗样式 实现 首先我们起一个 html 文件&#xff0c;写一个按钮&#xff0c;以及简单的背景颜色切换&#xff0c;来模拟主题的切换 想要实现过渡效果&#xff0c;需要先用到一个 JavaScript 的原生方…...

Golang 构建学习

Golang 构建学习 如何搭建Golang开发环境 1. 下载GOlang包 https://golang.google.cn/dl/ 在地址上下载Golang 2. 配置包环境 修改全局环境变量&#xff0c;GOPROXY&#xff0c;GOPATH&#xff0c;GOROOT GOPROXYhttps://goproxy.cn,direct GOROOT"" // go二进…...

VM Virutal Box的Ubuntu虚拟机与windows宿主机之间设置共享文件夹(自动挂载,永久有效)

本文参考如下链接 How to access a shared folder in VirtualBox? - Ask Ubuntu &#xff08;1&#xff09;安装增强功能&#xff08;Guest Additions&#xff09; 首先&#xff0c;在网上下载VBoxGuestAdditions光盘映像文件 下载地址&#xff1a;Index of http://…...

分析 系统滴答时钟(tickClock),设置72MHz系统周期,如何实现1毫秒的系统时间?

一、CubeMX相关配置 1.1 相关引脚配置 1.2 相关时钟数配置 1.3 打开程序源码 二、相关函数分析...

C++优选算法十七 多源BFS

1.单源最短路问题 一个起点一个终点。 定义&#xff1a;在给定加权图中&#xff0c;选择一个顶点作为源点&#xff0c;计算该源点到图中所有其他顶点的最短路径长度。 2.多源最短路问题 定义&#xff1a;多源最短路问题指的是在图中存在多个起点&#xff0c;需要求出从这些…...

Mongodb入门到放弃

Mongodb分片概括 分片在多台服务器上分布数据的方法&#xff0c; Mongodb使用分片来支持具有非常大的数据集和高吞吐量的操作的部署 具有大数据集和高吞吐量应用程序的数据库系统&#xff0c;可以挑战单台服务器的容量。 例如&#xff0c;高查询率可以耗尽服务器的cpu容量&…...

青藤云安全携手财信证券,入选金融科技创新应用优秀案例

11月29日&#xff0c;由中国信息通信研究院主办的第四届“金信通”金融科技创新应用案例评选结果正式发布。财信证券与青藤云安全联合提交的“基于RASP技术的API及数据链路安全治理项目”以其卓越的创新性和先进性&#xff0c;成功入选金融科技创新应用优秀案例。 据悉&#x…...

在CentOS系统中安装工具包的时候报错的解决方法

我刚装了一个新的虚拟机&#xff0c;打算安装一些工具出现了错误信息 执行的命令如下&#xff1a; yum install -y yum-utils device-mapper-persistent-data lvm2错误信息如下 Cannot find a valid baseurl for repo: base/7/x86_64搜索了一下原因有好几种。 一是网络不通…...

cad软件打不开报错cad acbrandres dll加载失败

一切本来很顺利哒 但是&#xff0c;当我用快捷方式打开时&#xff0c;就出现了这个错误。进入文件路径&#xff0c;是有这个的&#xff1b; 在文件路径直接打开&#xff0c;也会提示错误 原因竟然是我改了个名字&#xff1a; 随便选的文件路径&#xff0c;空的,文件名为Acr…...

14、保存与加载PyTorch训练的模型和超参数

文章目录 1. state_dict2. 模型保存3. check_point4. 详细保存5. Docker6. 机器学习常用库 1. state_dict nn.Module 类是所有神经网络构建的基类&#xff0c;即自己构建一个深度神经网络也是需要继承自nn.Module类才行&#xff0c;并且nn.Module中的state_dict包含神经网络中…...

【前端开发】JS+Vuew3请求列表数据并分页

应用技术&#xff1a;原生JavaScript Vue3 $(function () {ini(); });function ini() {const { createApp, ref, onMounted } Vue;createApp({setup() {const data ref({studentList: [],page: 1,pageSize: 10,});const getStudentList async (page, key) > {window.ons…...

Trimble X12助力电力管廊数据采集,为机器人巡视系统提供精准导航支持

地下电缆是一个城市重要的基础设施&#xff0c;它不仅具有规模大、范围广、空间分布复杂等特点&#xff0c;更重要的是它还承担着信息传输、能源输送等与人们生活息息相关的重要功能&#xff0c;也是一个城市赖以生存和发展的物质基础。 01、项目概述 本次项目是对某区域2公里左…...

Docker 清理镜像策略详解

文章目录 前言一、删除 Docker 镜像1. 查看当前镜像2. 删除单个镜像3. 删除多个镜像4. 删除所有未使用的镜像5. 删除悬空的 Docker 镜像6. 根据模式删除镜像7. 删除所有镜像 二、删除 Docker 容器1. 查找容器2. 删除一个或多个特定容器3. 退出时删除容器4. 删除所有已退出的容器…...

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具

文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...

均衡后的SNRSINR

本文主要摘自参考文献中的前两篇&#xff0c;相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程&#xff0c;其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt​ 根发送天线&#xff0c; n r n_r nr​ 根接收天线的 MIMO 系…...

Aspose.PDF 限制绕过方案:Java 字节码技术实战分享(仅供学习)

Aspose.PDF 限制绕过方案&#xff1a;Java 字节码技术实战分享&#xff08;仅供学习&#xff09; 一、Aspose.PDF 简介二、说明&#xff08;⚠️仅供学习与研究使用&#xff09;三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置 五、字节码修改实现代码&#…...

免费PDF转图片工具

免费PDF转图片工具 一款简单易用的PDF转图片工具&#xff0c;可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件&#xff0c;也不需要在线上传文件&#xff0c;保护您的隐私。 工具截图 主要特点 &#x1f680; 快速转换&#xff1a;本地转换&#xff0c;无需等待上…...

scikit-learn机器学习

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可: # Also add the following code, # so that every time the environment (kernel) starts, # just run the following code: import sys sys.path.append(/home/aistudio/external-libraries)机…...

关于uniapp展示PDF的解决方案

在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项&#xff1a; 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库&#xff1a; npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...

嵌入式常见 CPU 架构

架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集&#xff0c;单周期执行&#xff1b;低功耗、CIP 独立外设&#xff1b;用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel&#xff08;原始…...

数学建模-滑翔伞伞翼面积的设计,运动状态计算和优化 !

我们考虑滑翔伞的伞翼面积设计问题以及运动状态描述。滑翔伞的性能主要取决于伞翼面积、气动特性以及飞行员的重量。我们的目标是建立数学模型来描述滑翔伞的运动状态,并优化伞翼面积的设计。 一、问题分析 滑翔伞在飞行过程中受到重力、升力和阻力的作用。升力和阻力与伞翼面…...