当前位置: 首页 > news >正文

机器学习简介--NLP(二)

机器学习简介

  • 机器学习简介
    • 机器学习例子
    • 机器学习分类
      • 有监督学习
        • 有监督学习的应用
      • 无监督学习
    • 机器学习常见概念
      • 数据集
      • k折交叉验证
      • 过拟合
      • 欠拟合
      • 评价指标

机器学习简介

机器学习例子

问题: 2,4,6,8,?,?已知前面的数,求后面的数是什么?
机器学习解决方案 从前四个数,即前4个示例,找到一个函数(模型,公式)满足前四个数的规律;后面的数则使用这个函数去推理得到。

1.找到一个函数y=f(x)使得将其满足上面的已知数据
2.得到这个函数,去预测其他的未知的数
上面的函数为:y=2*x

引申:上面是简单的数字,这个数字可以变成复杂的向量、矩阵;这个函数也可以是多个公司拼接,从而就可以符合更加复杂任务的规律。其中2就是我们在数字中找到的规律,y=2x就是我们训练出来的模型。

机器学习概念: 通过观察有限数量的样本,去找到一个规律或者公式,满足已知样板的x、y的关系的过程。

数据的重要性: 上面的案例中,如果只给了2,4两个已知的数,那么规律就有可能是:y=2x;也可以是y=x^2 ;所以规律正确与数据有很大的关系。

困难点: 上面的规律是非常简单的,但是对于复杂的事情,我们人都很难去梳理出规律,所以我们希望把数据交给机器,让机器把规律找出来 。

机器学习分类

有监督学习

核心目标: 建立一个模型(函数),来描述输入(x)与输出(y)之间的关系;从而使新的输入来临时时,我们可以预测输出。
要求:需要一定输入与输出有关联关系并且能够数值化表示的训练样本。
在这里插入图片描述

有监督学习的应用

任务类型1:文本分类任务

输入:文本
输出:类别
关系:文本的内容决定着文本的类别

比如判断一句话是不是曹贼所说

任务类型2:机器翻译

输入:A语种文本
输出:B语种文本
关系:A语种表达的意思,在B语种中有对应得意思

比如太阳,英文就是son

无监督学习

**释义:**给与机器得数据是没有标注信息得,简单理解就是只有输入,这种情况也可以让机器进行一些分析
应用场景:聚类、降维、找特征值等等
聚类
**释义:**比如将一系列水果,按照大小、颜色、口味对应不同得数字,把水果转换为向量数子表示,这个时候通过空间向量得计算,可以判断那些向量比较接近,那么按照一定得算法就可以将它们分类,虽然我们不清楚分得是什么类
在这里插入图片描述
降维
释义: 我们在整理了1000个人的各项数据,包括用100个维度去表示他们各自的信息:身高、是否结婚、工作、胖瘦、年龄、手长、腰围等;但是对于我们某一个任务来说,某些维度的信息没有用,比如是否结婚不关注,那么我们通过一定的算法,将其中某些不用的维度去除掉,降低的数据的复杂性,这就是降维。
在这里插入图片描述

机器学习常见概念

数据集

1.训练集
释义:用于模型训练的数据集合
举例: 相当于一个孩子从白纸到成人需要的教训,只是这个教训在这里是提取准备好的

2. 验证集
释义:对于每一种任务一般都有多种算法可以选择,一般会使用验证集用于对比不同算法的效果差异
举例: 培养孩子时,我们需要进行中考、高考,测试这个孩子在某方面的天赋和培养效果,这里的验证集就是这个意思。

3.测试集
释义:最终用来评判算法模型效果的数据集合
举例: 相当于孩子成年了,放到社会上去经历毒打,如果表现得不错,就说明这个号成了,表现差,就重新练一个。

k折交叉验证

释义:初始采样分割成k个子样本,一个单独的子样本本保留作为验证模型的数据,其他的k-1个样本用来训练,交叉重复k次,每个子样本验证一次,平均k次的结果。就是需要训练K次。

过拟合

**释义:**模型失去泛化能力,如果模型在训练集和验证集上都有很好的表现,但是在测试集上表现很差,一般认为发生过拟合。
举例: 高考笔试成绩很好,读书的任务完成得很棒,但是出了社会实际做事不行,是书呆子,就是过拟合。

欠拟合

释义: 模型没能建立起合理的输入输出之间的映射,当输入训练集中的样本时,预测结果和标注结果依然相差很大。
举例 平时就学不进去,别说高考,从小学到初高中,成绩都很差,就是欠拟合,这个时候就看是不是没认真学习,学习方法不对;还是这个娃就是蠢,那么就重新生一个,看看有没有天赋。

评价指标

释义: 为了评价算法效果好坏,需要找到一种评价模型的计算指标例如:准确率、召回率、F1值、TopK、BLEU等
举例: 学生的评价,德智体美劳,高考成绩等

相关文章:

机器学习简介--NLP(二)

机器学习简介 机器学习简介机器学习例子机器学习分类有监督学习有监督学习的应用 无监督学习 机器学习常见概念数据集k折交叉验证过拟合欠拟合评价指标 机器学习简介 机器学习例子 问题: 2,4,6,8,?&#…...

Winform中使用HttpClient实现调用http的post接口并设置传参content-type为application/json示例

场景 Winform中怎样使用HttpClient调用http的get和post接口并将接口返回json数据解析为实体类: Winform中怎样使用HttpClient调用http的get和post接口并将接口返回json数据解析为实体类_winform解析json-CSDN博客 上面使用HttpClient调用post接口时使用的HttpCon…...

【RAG探索第3讲】LlamaIndex的API调用与本地部署实战

原文链接:【RAG探索第3讲】LlamaIndex的API调用与本地部署实战 今天是2024年7月5日,星期五,天气晴,北京。 RAG的文章也看不少了,今天给大家带来一个llamaindex的实战。分为两个部分,调用ChatGLM的API来用l…...

C# —— 日期对象

DateTime 时间类 存储时间对象 可以获取当前时间 DateTime now DateTime.Now;// 获取当前时间 Console.WriteLine("年:" now.Year);//2023 Console.WriteLine("月:" now.Month);//9 Console.WriteLine("日:" now.Day);//12 Console.WriteLi…...

【MySQL04】【 redo 日志】

文章目录 一、前言二、redo 日志1. redo 日志格式2. Mini-Transaction2.1 以组的形式写入 redo 日志2.2 Mini-Transaction (MTR)概念 3. redo 日志写入过程3.1 redo 日志缓冲区3.3 redo 日志写入 log buffer 4. redo 日志文件4.1 redo 日志刷盘机制4.2 r…...

Android线性布局的概念与属性

线性布局(LinearLayout)是Android中最简单的布局方式,线性布局方式会使得所有在其内部的控件或子布局按一条水平或垂直的线排列。如图所示,图a是纵向线性布局示意图,图b是横向线性布局示意图。 a)纵向线性布局示意图 …...

java反射介绍

Java反射API允许你在运行时检查和修改程序的行为。这意味着你可以动态地创建对象、查看类的字段、方法和构造函数,甚至调用它们。这是一个强大的特性,但也应该谨慎使用,因为它可以破坏封装性。 以下是使用Java反射的一些常见用途:…...

Spring中@Transactional的实现和原理

这篇文章写的很详细了,引自脚本之家 Java中SpringBoot的Transactional原理_java_脚本之家...

华为仓颉可以取代 Java 吗?

大家好,我是君哥。 在最近的华为开发者大会上,华为亮相了仓颉编程语言,这是华为历经 5 年,投入大量研发成本沉淀的一门编程语言。 1 仓颉简介 按照官方报告,仓颉编程语言是一款面向全场景智能的新一代编程语言&#…...

性能测试相关理解(一)

根据学习全栈测试博主的课程做的笔记 一、说明 若未特别说明,涉及术语都是jmeter来说,线程数,就是jmeter线程组中的线程数 二、软件性能是什么 1、用户关注:响应时间 2、业务/产品关注:响应时间、支持多少并发数、…...

缓存-分布式锁-原理和基本使用

分布式锁原理和使用 自旋 public Map<String, List<Catelog2Vo>> getCatalogJsonFromDBWithRedisLock() {Boolean b redisTemplate.opsForValue().setIfAbsent(Lock, Lock, Duration.ofMinutes(1));if (!b) {int i 10;while (i > 0) {Object result redisTe…...

判断国内ip

php代码 //是否国内ip function isChinaIP($ip) {saveLog("---isChinaIP----------");$url "https://searchplugin.csdn.net/api/v1/ip/get?ip".$ip;// 发送HTTP请求$response file_get_contents($url);$utf8String mb_convert_encoding($response, &…...

linux修改内核实现禁止被ping(随手记)

概述 Linux默认允许被ping。其主要决定因素为&#xff1a; 内核参数防火墙&#xff08;iptables/firewall&#xff09; 以上的决定因素是与的关系&#xff0c;即需要均满足。 因此&#xff0c;修改linux禁被ping有以上两种方法可以实现。 修改内核文件使禁ping 1. 临时生…...

mac M1安装 VSCode

最近在学黑马程序员Java最新AI若依框架项目开发&#xff0c;里面前端用的是Visual Studio Code 所以我也就下载安装了一下&#xff0c;系统是M1芯片的&#xff0c;安装过程还是有点坑的写下来大家注意一下 1.在appstore中下载 2.在系统终端中输入 clang 显示如下图 那么在终端输…...

代码随想录算法训练营第二十七天 |56. 合并区间 738.单调递增的数字 968.监控二叉树 (可跳过)

56. 合并区间 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 1&#xff1a; 输入&#xff1a;in…...

网络基础:IS-IS协议

IS-IS&#xff08;Intermediate System to Intermediate System&#xff09;是一种链路状态路由协议&#xff0c;最初由 ISO&#xff08;International Organization for Standardization&#xff09;为 CLNS&#xff08;Connectionless Network Service&#xff09;网络设计。…...

Java面试八股之如何提高MySQL的insert性能

如何提高MySQL的insert性能 提高MySQL的INSERT性能可以通过多种策略实现&#xff0c;以下是一些常见的优化技巧&#xff1a; 批量插入&#xff1a; 而不是逐条插入&#xff0c;可以使用单个INSERT语句插入多行数据。例如&#xff1a; INSERT INTO table_name (col1, col2) V…...

【密码学】什么是密码?什么是密码学?

一、密码的定义 根据《中华人民共和国密码法》对密码的定义如下&#xff1a; 密码是指采用特定变换的方法对信息等进行加密保护、安全认证的技术、产品和服务。 二、密码学的定义 密码学是研究编制密码和破译密码的技术科学。由定义可以知道密码学分为两个主要分支&#x…...

k8s record 20240703

1. containerd 它不用于直接和开发人员互动&#xff0c;在这方面不和docker竞争 containerd的用时最短&#xff0c;性能最好。 containerd 是容器的生命周期管理&#xff0c;容器的网络管理等等&#xff0c;真正让容器运行需要runC containerd 是一个独立的容器运行时&am…...

Ansible常用模块

华子目录 Ansible四个命令模块1.组成2.特点3.区别3.1command、shell模块3.2raw模块 4.command模块4.1参数表4.2free_form参数 5.shell模块5.1作用5.2例如 6.script模块6.1示例 7.raw模块7.1参数7.2示例 文件操作模块1.file模块1.1参数1.2示例 2.copy模块2.1参数 Ansible四个命令…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架&#xff0c;用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录&#xff0c;以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...

多模态2025:技术路线“神仙打架”,视频生成冲上云霄

文&#xff5c;魏琳华 编&#xff5c;王一粟 一场大会&#xff0c;聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中&#xff0c;汇集了学界、创业公司和大厂等三方的热门选手&#xff0c;关于多模态的集中讨论达到了前所未有的热度。其中&#xff0c;…...

微信小程序之bind和catch

这两个呢&#xff0c;都是绑定事件用的&#xff0c;具体使用有些小区别。 官方文档&#xff1a; 事件冒泡处理不同 bind&#xff1a;绑定的事件会向上冒泡&#xff0c;即触发当前组件的事件后&#xff0c;还会继续触发父组件的相同事件。例如&#xff0c;有一个子视图绑定了b…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源&#xff1a; http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作&#xff0c;无需更改相机配置。但是&#xff0c;一…...

边缘计算医疗风险自查APP开发方案

核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

AI病理诊断七剑下天山,医疗未来触手可及

一、病理诊断困局&#xff1a;刀尖上的医学艺术 1.1 金标准背后的隐痛 病理诊断被誉为"诊断的诊断"&#xff0c;医生需通过显微镜观察组织切片&#xff0c;在细胞迷宫中捕捉癌变信号。某省病理质控报告显示&#xff0c;基层医院误诊率达12%-15%&#xff0c;专家会诊…...

GO协程(Goroutine)问题总结

在使用Go语言来编写代码时&#xff0c;遇到的一些问题总结一下 [参考文档]&#xff1a;https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函数默认的Goroutine 场景再现&#xff1a; 今天在看到这个教程的时候&#xff0c;在自己的电…...

Git常用命令完全指南:从入门到精通

Git常用命令完全指南&#xff1a;从入门到精通 一、基础配置命令 1. 用户信息配置 # 设置全局用户名 git config --global user.name "你的名字"# 设置全局邮箱 git config --global user.email "你的邮箱example.com"# 查看所有配置 git config --list…...

[ACTF2020 新生赛]Include 1(php://filter伪协议)

题目 做法 启动靶机&#xff0c;点进去 点进去 查看URL&#xff0c;有 ?fileflag.php说明存在文件包含&#xff0c;原理是php://filter 协议 当它与包含函数结合时&#xff0c;php://filter流会被当作php文件执行。 用php://filter加编码&#xff0c;能让PHP把文件内容…...

OD 算法题 B卷【正整数到Excel编号之间的转换】

文章目录 正整数到Excel编号之间的转换 正整数到Excel编号之间的转换 excel的列编号是这样的&#xff1a;a b c … z aa ab ac… az ba bb bc…yz za zb zc …zz aaa aab aac…; 分别代表以下的编号1 2 3 … 26 27 28 29… 52 53 54 55… 676 677 678 679 … 702 703 704 705;…...