当前位置: 首页 > news >正文

机器学习简介--NLP(二)

机器学习简介

  • 机器学习简介
    • 机器学习例子
    • 机器学习分类
      • 有监督学习
        • 有监督学习的应用
      • 无监督学习
    • 机器学习常见概念
      • 数据集
      • k折交叉验证
      • 过拟合
      • 欠拟合
      • 评价指标

机器学习简介

机器学习例子

问题: 2,4,6,8,?,?已知前面的数,求后面的数是什么?
机器学习解决方案 从前四个数,即前4个示例,找到一个函数(模型,公式)满足前四个数的规律;后面的数则使用这个函数去推理得到。

1.找到一个函数y=f(x)使得将其满足上面的已知数据
2.得到这个函数,去预测其他的未知的数
上面的函数为:y=2*x

引申:上面是简单的数字,这个数字可以变成复杂的向量、矩阵;这个函数也可以是多个公司拼接,从而就可以符合更加复杂任务的规律。其中2就是我们在数字中找到的规律,y=2x就是我们训练出来的模型。

机器学习概念: 通过观察有限数量的样本,去找到一个规律或者公式,满足已知样板的x、y的关系的过程。

数据的重要性: 上面的案例中,如果只给了2,4两个已知的数,那么规律就有可能是:y=2x;也可以是y=x^2 ;所以规律正确与数据有很大的关系。

困难点: 上面的规律是非常简单的,但是对于复杂的事情,我们人都很难去梳理出规律,所以我们希望把数据交给机器,让机器把规律找出来 。

机器学习分类

有监督学习

核心目标: 建立一个模型(函数),来描述输入(x)与输出(y)之间的关系;从而使新的输入来临时时,我们可以预测输出。
要求:需要一定输入与输出有关联关系并且能够数值化表示的训练样本。
在这里插入图片描述

有监督学习的应用

任务类型1:文本分类任务

输入:文本
输出:类别
关系:文本的内容决定着文本的类别

比如判断一句话是不是曹贼所说

任务类型2:机器翻译

输入:A语种文本
输出:B语种文本
关系:A语种表达的意思,在B语种中有对应得意思

比如太阳,英文就是son

无监督学习

**释义:**给与机器得数据是没有标注信息得,简单理解就是只有输入,这种情况也可以让机器进行一些分析
应用场景:聚类、降维、找特征值等等
聚类
**释义:**比如将一系列水果,按照大小、颜色、口味对应不同得数字,把水果转换为向量数子表示,这个时候通过空间向量得计算,可以判断那些向量比较接近,那么按照一定得算法就可以将它们分类,虽然我们不清楚分得是什么类
在这里插入图片描述
降维
释义: 我们在整理了1000个人的各项数据,包括用100个维度去表示他们各自的信息:身高、是否结婚、工作、胖瘦、年龄、手长、腰围等;但是对于我们某一个任务来说,某些维度的信息没有用,比如是否结婚不关注,那么我们通过一定的算法,将其中某些不用的维度去除掉,降低的数据的复杂性,这就是降维。
在这里插入图片描述

机器学习常见概念

数据集

1.训练集
释义:用于模型训练的数据集合
举例: 相当于一个孩子从白纸到成人需要的教训,只是这个教训在这里是提取准备好的

2. 验证集
释义:对于每一种任务一般都有多种算法可以选择,一般会使用验证集用于对比不同算法的效果差异
举例: 培养孩子时,我们需要进行中考、高考,测试这个孩子在某方面的天赋和培养效果,这里的验证集就是这个意思。

3.测试集
释义:最终用来评判算法模型效果的数据集合
举例: 相当于孩子成年了,放到社会上去经历毒打,如果表现得不错,就说明这个号成了,表现差,就重新练一个。

k折交叉验证

释义:初始采样分割成k个子样本,一个单独的子样本本保留作为验证模型的数据,其他的k-1个样本用来训练,交叉重复k次,每个子样本验证一次,平均k次的结果。就是需要训练K次。

过拟合

**释义:**模型失去泛化能力,如果模型在训练集和验证集上都有很好的表现,但是在测试集上表现很差,一般认为发生过拟合。
举例: 高考笔试成绩很好,读书的任务完成得很棒,但是出了社会实际做事不行,是书呆子,就是过拟合。

欠拟合

释义: 模型没能建立起合理的输入输出之间的映射,当输入训练集中的样本时,预测结果和标注结果依然相差很大。
举例 平时就学不进去,别说高考,从小学到初高中,成绩都很差,就是欠拟合,这个时候就看是不是没认真学习,学习方法不对;还是这个娃就是蠢,那么就重新生一个,看看有没有天赋。

评价指标

释义: 为了评价算法效果好坏,需要找到一种评价模型的计算指标例如:准确率、召回率、F1值、TopK、BLEU等
举例: 学生的评价,德智体美劳,高考成绩等

相关文章:

机器学习简介--NLP(二)

机器学习简介 机器学习简介机器学习例子机器学习分类有监督学习有监督学习的应用 无监督学习 机器学习常见概念数据集k折交叉验证过拟合欠拟合评价指标 机器学习简介 机器学习例子 问题: 2,4,6,8,?&#…...

Winform中使用HttpClient实现调用http的post接口并设置传参content-type为application/json示例

场景 Winform中怎样使用HttpClient调用http的get和post接口并将接口返回json数据解析为实体类: Winform中怎样使用HttpClient调用http的get和post接口并将接口返回json数据解析为实体类_winform解析json-CSDN博客 上面使用HttpClient调用post接口时使用的HttpCon…...

【RAG探索第3讲】LlamaIndex的API调用与本地部署实战

原文链接:【RAG探索第3讲】LlamaIndex的API调用与本地部署实战 今天是2024年7月5日,星期五,天气晴,北京。 RAG的文章也看不少了,今天给大家带来一个llamaindex的实战。分为两个部分,调用ChatGLM的API来用l…...

C# —— 日期对象

DateTime 时间类 存储时间对象 可以获取当前时间 DateTime now DateTime.Now;// 获取当前时间 Console.WriteLine("年:" now.Year);//2023 Console.WriteLine("月:" now.Month);//9 Console.WriteLine("日:" now.Day);//12 Console.WriteLi…...

【MySQL04】【 redo 日志】

文章目录 一、前言二、redo 日志1. redo 日志格式2. Mini-Transaction2.1 以组的形式写入 redo 日志2.2 Mini-Transaction (MTR)概念 3. redo 日志写入过程3.1 redo 日志缓冲区3.3 redo 日志写入 log buffer 4. redo 日志文件4.1 redo 日志刷盘机制4.2 r…...

Android线性布局的概念与属性

线性布局(LinearLayout)是Android中最简单的布局方式,线性布局方式会使得所有在其内部的控件或子布局按一条水平或垂直的线排列。如图所示,图a是纵向线性布局示意图,图b是横向线性布局示意图。 a)纵向线性布局示意图 …...

java反射介绍

Java反射API允许你在运行时检查和修改程序的行为。这意味着你可以动态地创建对象、查看类的字段、方法和构造函数,甚至调用它们。这是一个强大的特性,但也应该谨慎使用,因为它可以破坏封装性。 以下是使用Java反射的一些常见用途:…...

Spring中@Transactional的实现和原理

这篇文章写的很详细了,引自脚本之家 Java中SpringBoot的Transactional原理_java_脚本之家...

华为仓颉可以取代 Java 吗?

大家好,我是君哥。 在最近的华为开发者大会上,华为亮相了仓颉编程语言,这是华为历经 5 年,投入大量研发成本沉淀的一门编程语言。 1 仓颉简介 按照官方报告,仓颉编程语言是一款面向全场景智能的新一代编程语言&#…...

性能测试相关理解(一)

根据学习全栈测试博主的课程做的笔记 一、说明 若未特别说明,涉及术语都是jmeter来说,线程数,就是jmeter线程组中的线程数 二、软件性能是什么 1、用户关注:响应时间 2、业务/产品关注:响应时间、支持多少并发数、…...

缓存-分布式锁-原理和基本使用

分布式锁原理和使用 自旋 public Map<String, List<Catelog2Vo>> getCatalogJsonFromDBWithRedisLock() {Boolean b redisTemplate.opsForValue().setIfAbsent(Lock, Lock, Duration.ofMinutes(1));if (!b) {int i 10;while (i > 0) {Object result redisTe…...

判断国内ip

php代码 //是否国内ip function isChinaIP($ip) {saveLog("---isChinaIP----------");$url "https://searchplugin.csdn.net/api/v1/ip/get?ip".$ip;// 发送HTTP请求$response file_get_contents($url);$utf8String mb_convert_encoding($response, &…...

linux修改内核实现禁止被ping(随手记)

概述 Linux默认允许被ping。其主要决定因素为&#xff1a; 内核参数防火墙&#xff08;iptables/firewall&#xff09; 以上的决定因素是与的关系&#xff0c;即需要均满足。 因此&#xff0c;修改linux禁被ping有以上两种方法可以实现。 修改内核文件使禁ping 1. 临时生…...

mac M1安装 VSCode

最近在学黑马程序员Java最新AI若依框架项目开发&#xff0c;里面前端用的是Visual Studio Code 所以我也就下载安装了一下&#xff0c;系统是M1芯片的&#xff0c;安装过程还是有点坑的写下来大家注意一下 1.在appstore中下载 2.在系统终端中输入 clang 显示如下图 那么在终端输…...

代码随想录算法训练营第二十七天 |56. 合并区间 738.单调递增的数字 968.监控二叉树 (可跳过)

56. 合并区间 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 1&#xff1a; 输入&#xff1a;in…...

网络基础:IS-IS协议

IS-IS&#xff08;Intermediate System to Intermediate System&#xff09;是一种链路状态路由协议&#xff0c;最初由 ISO&#xff08;International Organization for Standardization&#xff09;为 CLNS&#xff08;Connectionless Network Service&#xff09;网络设计。…...

Java面试八股之如何提高MySQL的insert性能

如何提高MySQL的insert性能 提高MySQL的INSERT性能可以通过多种策略实现&#xff0c;以下是一些常见的优化技巧&#xff1a; 批量插入&#xff1a; 而不是逐条插入&#xff0c;可以使用单个INSERT语句插入多行数据。例如&#xff1a; INSERT INTO table_name (col1, col2) V…...

【密码学】什么是密码?什么是密码学?

一、密码的定义 根据《中华人民共和国密码法》对密码的定义如下&#xff1a; 密码是指采用特定变换的方法对信息等进行加密保护、安全认证的技术、产品和服务。 二、密码学的定义 密码学是研究编制密码和破译密码的技术科学。由定义可以知道密码学分为两个主要分支&#x…...

k8s record 20240703

1. containerd 它不用于直接和开发人员互动&#xff0c;在这方面不和docker竞争 containerd的用时最短&#xff0c;性能最好。 containerd 是容器的生命周期管理&#xff0c;容器的网络管理等等&#xff0c;真正让容器运行需要runC containerd 是一个独立的容器运行时&am…...

Ansible常用模块

华子目录 Ansible四个命令模块1.组成2.特点3.区别3.1command、shell模块3.2raw模块 4.command模块4.1参数表4.2free_form参数 5.shell模块5.1作用5.2例如 6.script模块6.1示例 7.raw模块7.1参数7.2示例 文件操作模块1.file模块1.1参数1.2示例 2.copy模块2.1参数 Ansible四个命令…...

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…...

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0&#xff1a;开发环境同步测试 cookie 至 localhost&#xff0c;便于本地请求服务携带 cookie 参考地址&#xff1a;https://juejin.cn/post/7139354571712757767 里面有源码下载下来&#xff0c;加在到扩展即可使用FeHelp…...

c++ 面试题(1)-----深度优先搜索(DFS)实现

操作系统&#xff1a;ubuntu22.04 IDE:Visual Studio Code 编程语言&#xff1a;C11 题目描述 地上有一个 m 行 n 列的方格&#xff0c;从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子&#xff0c;但不能进入行坐标和列坐标的数位之和大于 k 的格子。 例…...

MVC 数据库

MVC 数据库 引言 在软件开发领域,Model-View-Controller(MVC)是一种流行的软件架构模式,它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系,以…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上&#xff0c;看到基于小智 AI DIY 玩具的演示&#xff0c;感觉有点意思&#xff0c;想着自己也来试试。 如果只是想烧录现成的固件&#xff0c;乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外&#xff0c;还提供了基于网页版的 ESP LA…...

Spring Boot面试题精选汇总

&#x1f91f;致敬读者 &#x1f7e9;感谢阅读&#x1f7e6;笑口常开&#x1f7ea;生日快乐⬛早点睡觉 &#x1f4d8;博主相关 &#x1f7e7;博主信息&#x1f7e8;博客首页&#x1f7eb;专栏推荐&#x1f7e5;活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法&#xff0c;当前调用一个医疗行业的AI识别算法后返回…...

OPenCV CUDA模块图像处理-----对图像执行 均值漂移滤波(Mean Shift Filtering)函数meanShiftFiltering()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在 GPU 上对图像执行 均值漂移滤波&#xff08;Mean Shift Filtering&#xff09;&#xff0c;用于图像分割或平滑处理。 该函数将输入图像中的…...

腾讯云V3签名

想要接入腾讯云的Api&#xff0c;必然先按其文档计算出所要求的签名。 之前也调用过腾讯云的接口&#xff0c;但总是卡在签名这一步&#xff0c;最后放弃选择SDK&#xff0c;这次终于自己代码实现。 可能腾讯云翻新了接口文档&#xff0c;现在阅读起来&#xff0c;清晰了很多&…...