机器学习简介--NLP(二)
机器学习简介
- 机器学习简介
- 机器学习例子
- 机器学习分类
- 有监督学习
- 有监督学习的应用
- 无监督学习
- 机器学习常见概念
- 数据集
- k折交叉验证
- 过拟合
- 欠拟合
- 评价指标
机器学习简介
机器学习例子
问题: 2,4,6,8,?,?已知前面的数,求后面的数是什么?
机器学习解决方案 从前四个数,即前4个示例,找到一个函数(模型,公式)满足前四个数的规律;后面的数则使用这个函数去推理得到。
1.找到一个函数y=f(x)使得将其满足上面的已知数据
2.得到这个函数,去预测其他的未知的数
上面的函数为:y=2*x
引申:上面是简单的数字,这个数字可以变成复杂的向量、矩阵;这个函数也可以是多个公司拼接,从而就可以符合更加复杂任务的规律。其中2就是我们在数字中找到的规律,y=2x就是我们训练出来的模型。
机器学习概念: 通过观察有限数量的样本,去找到一个规律或者公式,满足已知样板的x、y的关系的过程。
数据的重要性: 上面的案例中,如果只给了2,4两个已知的数,那么规律就有可能是:y=2x;也可以是y=x^2 ;所以规律正确与数据有很大的关系。
困难点: 上面的规律是非常简单的,但是对于复杂的事情,我们人都很难去梳理出规律,所以我们希望把数据交给机器,让机器把规律找出来 。
机器学习分类
有监督学习
核心目标: 建立一个模型(函数),来描述输入(x)与输出(y)之间的关系;从而使新的输入来临时时,我们可以预测输出。
要求:需要一定输入与输出有关联关系并且能够数值化表示的训练样本。

有监督学习的应用
任务类型1:文本分类任务
输入:文本
输出:类别
关系:文本的内容决定着文本的类别
比如判断一句话是不是曹贼所说
任务类型2:机器翻译
输入:A语种文本
输出:B语种文本
关系:A语种表达的意思,在B语种中有对应得意思
比如太阳,英文就是son
无监督学习
**释义:**给与机器得数据是没有标注信息得,简单理解就是只有输入,这种情况也可以让机器进行一些分析
应用场景:聚类、降维、找特征值等等
聚类
**释义:**比如将一系列水果,按照大小、颜色、口味对应不同得数字,把水果转换为向量数子表示,这个时候通过空间向量得计算,可以判断那些向量比较接近,那么按照一定得算法就可以将它们分类,虽然我们不清楚分得是什么类

降维
释义: 我们在整理了1000个人的各项数据,包括用100个维度去表示他们各自的信息:身高、是否结婚、工作、胖瘦、年龄、手长、腰围等;但是对于我们某一个任务来说,某些维度的信息没有用,比如是否结婚不关注,那么我们通过一定的算法,将其中某些不用的维度去除掉,降低的数据的复杂性,这就是降维。

机器学习常见概念
数据集
1.训练集
释义:用于模型训练的数据集合
举例: 相当于一个孩子从白纸到成人需要的教训,只是这个教训在这里是提取准备好的
2. 验证集
释义:对于每一种任务一般都有多种算法可以选择,一般会使用验证集用于对比不同算法的效果差异
举例: 培养孩子时,我们需要进行中考、高考,测试这个孩子在某方面的天赋和培养效果,这里的验证集就是这个意思。
3.测试集
释义:最终用来评判算法模型效果的数据集合
举例: 相当于孩子成年了,放到社会上去经历毒打,如果表现得不错,就说明这个号成了,表现差,就重新练一个。
k折交叉验证
释义:初始采样分割成k个子样本,一个单独的子样本本保留作为验证模型的数据,其他的k-1个样本用来训练,交叉重复k次,每个子样本验证一次,平均k次的结果。就是需要训练K次。
过拟合
**释义:**模型失去泛化能力,如果模型在训练集和验证集上都有很好的表现,但是在测试集上表现很差,一般认为发生过拟合。
举例: 高考笔试成绩很好,读书的任务完成得很棒,但是出了社会实际做事不行,是书呆子,就是过拟合。
欠拟合
释义: 模型没能建立起合理的输入输出之间的映射,当输入训练集中的样本时,预测结果和标注结果依然相差很大。
举例 平时就学不进去,别说高考,从小学到初高中,成绩都很差,就是欠拟合,这个时候就看是不是没认真学习,学习方法不对;还是这个娃就是蠢,那么就重新生一个,看看有没有天赋。
评价指标
释义: 为了评价算法效果好坏,需要找到一种评价模型的计算指标例如:准确率、召回率、F1值、TopK、BLEU等
举例: 学生的评价,德智体美劳,高考成绩等
相关文章:
机器学习简介--NLP(二)
机器学习简介 机器学习简介机器学习例子机器学习分类有监督学习有监督学习的应用 无监督学习 机器学习常见概念数据集k折交叉验证过拟合欠拟合评价指标 机器学习简介 机器学习例子 问题: 2,4,6,8,?&#…...
Winform中使用HttpClient实现调用http的post接口并设置传参content-type为application/json示例
场景 Winform中怎样使用HttpClient调用http的get和post接口并将接口返回json数据解析为实体类: Winform中怎样使用HttpClient调用http的get和post接口并将接口返回json数据解析为实体类_winform解析json-CSDN博客 上面使用HttpClient调用post接口时使用的HttpCon…...
【RAG探索第3讲】LlamaIndex的API调用与本地部署实战
原文链接:【RAG探索第3讲】LlamaIndex的API调用与本地部署实战 今天是2024年7月5日,星期五,天气晴,北京。 RAG的文章也看不少了,今天给大家带来一个llamaindex的实战。分为两个部分,调用ChatGLM的API来用l…...
C# —— 日期对象
DateTime 时间类 存储时间对象 可以获取当前时间 DateTime now DateTime.Now;// 获取当前时间 Console.WriteLine("年:" now.Year);//2023 Console.WriteLine("月:" now.Month);//9 Console.WriteLine("日:" now.Day);//12 Console.WriteLi…...
【MySQL04】【 redo 日志】
文章目录 一、前言二、redo 日志1. redo 日志格式2. Mini-Transaction2.1 以组的形式写入 redo 日志2.2 Mini-Transaction (MTR)概念 3. redo 日志写入过程3.1 redo 日志缓冲区3.3 redo 日志写入 log buffer 4. redo 日志文件4.1 redo 日志刷盘机制4.2 r…...
Android线性布局的概念与属性
线性布局(LinearLayout)是Android中最简单的布局方式,线性布局方式会使得所有在其内部的控件或子布局按一条水平或垂直的线排列。如图所示,图a是纵向线性布局示意图,图b是横向线性布局示意图。 a)纵向线性布局示意图 …...
java反射介绍
Java反射API允许你在运行时检查和修改程序的行为。这意味着你可以动态地创建对象、查看类的字段、方法和构造函数,甚至调用它们。这是一个强大的特性,但也应该谨慎使用,因为它可以破坏封装性。 以下是使用Java反射的一些常见用途:…...
Spring中@Transactional的实现和原理
这篇文章写的很详细了,引自脚本之家 Java中SpringBoot的Transactional原理_java_脚本之家...
华为仓颉可以取代 Java 吗?
大家好,我是君哥。 在最近的华为开发者大会上,华为亮相了仓颉编程语言,这是华为历经 5 年,投入大量研发成本沉淀的一门编程语言。 1 仓颉简介 按照官方报告,仓颉编程语言是一款面向全场景智能的新一代编程语言&#…...
性能测试相关理解(一)
根据学习全栈测试博主的课程做的笔记 一、说明 若未特别说明,涉及术语都是jmeter来说,线程数,就是jmeter线程组中的线程数 二、软件性能是什么 1、用户关注:响应时间 2、业务/产品关注:响应时间、支持多少并发数、…...
缓存-分布式锁-原理和基本使用
分布式锁原理和使用 自旋 public Map<String, List<Catelog2Vo>> getCatalogJsonFromDBWithRedisLock() {Boolean b redisTemplate.opsForValue().setIfAbsent(Lock, Lock, Duration.ofMinutes(1));if (!b) {int i 10;while (i > 0) {Object result redisTe…...
判断国内ip
php代码 //是否国内ip function isChinaIP($ip) {saveLog("---isChinaIP----------");$url "https://searchplugin.csdn.net/api/v1/ip/get?ip".$ip;// 发送HTTP请求$response file_get_contents($url);$utf8String mb_convert_encoding($response, &…...
linux修改内核实现禁止被ping(随手记)
概述 Linux默认允许被ping。其主要决定因素为: 内核参数防火墙(iptables/firewall) 以上的决定因素是与的关系,即需要均满足。 因此,修改linux禁被ping有以上两种方法可以实现。 修改内核文件使禁ping 1. 临时生…...
mac M1安装 VSCode
最近在学黑马程序员Java最新AI若依框架项目开发,里面前端用的是Visual Studio Code 所以我也就下载安装了一下,系统是M1芯片的,安装过程还是有点坑的写下来大家注意一下 1.在appstore中下载 2.在系统终端中输入 clang 显示如下图 那么在终端输…...
代码随想录算法训练营第二十七天 |56. 合并区间 738.单调递增的数字 968.监控二叉树 (可跳过)
56. 合并区间 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:in…...
网络基础:IS-IS协议
IS-IS(Intermediate System to Intermediate System)是一种链路状态路由协议,最初由 ISO(International Organization for Standardization)为 CLNS(Connectionless Network Service)网络设计。…...
Java面试八股之如何提高MySQL的insert性能
如何提高MySQL的insert性能 提高MySQL的INSERT性能可以通过多种策略实现,以下是一些常见的优化技巧: 批量插入: 而不是逐条插入,可以使用单个INSERT语句插入多行数据。例如: INSERT INTO table_name (col1, col2) V…...
【密码学】什么是密码?什么是密码学?
一、密码的定义 根据《中华人民共和国密码法》对密码的定义如下: 密码是指采用特定变换的方法对信息等进行加密保护、安全认证的技术、产品和服务。 二、密码学的定义 密码学是研究编制密码和破译密码的技术科学。由定义可以知道密码学分为两个主要分支&#x…...
k8s record 20240703
1. containerd 它不用于直接和开发人员互动,在这方面不和docker竞争 containerd的用时最短,性能最好。 containerd 是容器的生命周期管理,容器的网络管理等等,真正让容器运行需要runC containerd 是一个独立的容器运行时&am…...
Ansible常用模块
华子目录 Ansible四个命令模块1.组成2.特点3.区别3.1command、shell模块3.2raw模块 4.command模块4.1参数表4.2free_form参数 5.shell模块5.1作用5.2例如 6.script模块6.1示例 7.raw模块7.1参数7.2示例 文件操作模块1.file模块1.1参数1.2示例 2.copy模块2.1参数 Ansible四个命令…...
强化学习在并行机构人形机器人控制中的应用
1. 项目概述在机器人控制领域,强化学习(RL)正逐渐成为解决复杂动力学系统问题的有力工具。然而,当面对具有并行驱动机构的人形机器人时,传统RL训练方法往往面临一个关键挑战:大多数仿真环境无法准确模拟闭环运动链(Closed Kinemat…...
Blender渲染通道完全指南:如何像电影后期一样,分离出深度、阴影与反射图
Blender渲染通道完全指南:影视级后期制作的深度解析在数字内容创作领域,Blender已经从一个简单的3D建模工具成长为能够处理复杂视觉特效的全流程解决方案。对于追求影视级质量的中高级用户而言,掌握渲染通道技术是提升作品专业度的关键一步。…...
6款高效降AI率工具 改写实力出众
写论文时反复检测出的AI痕迹总让你提心吊胆?别担心,这里整理了6款真正好用的论文降AI率工具,堪称应对AI生成特征的“得力助手”。它们能有效识别并消除AI生成的痕迹,改写能力出众,帮你快速降低查重率,顺利通…...
[智能体-81]:工程化智能体 = 模型做脑力拆解 + 框架做流程落地。前者是决策者,后者是管理者,tools/function call是内部员工;mcp server是外部资源;
一、全角色人设 & 对应技术组件角色定位对应技术模块核心职责决策者(脑力大脑)大模型 LLM理解目标、任务拆解、逻辑判断、分支决策、内容生成,负责 “想方案、定步骤”管理者(流程总管)智能体编排框架(…...
光轮智能 谢晨 访谈总结机器人仿真数据产业
光轮智能 谢晨 访谈总结机器人仿真关于创始人关于数据数据金字塔数据痛点仿真数据的重要性仿真数据的质量b站链接地址公司官网关于创始人 清华物理;哥伦比亚金融;英伟达智驾仿真;小鹏智驾仿真;现为光轮智能CEO 关于数据 数据的…...
ssm207基于SSM的视频播放系统的设计与实现+vue(文档+源码)_kaic
第五章 系统的实现5.1 用户功能模块的实现5.1.1系统主界面用户进入本系统可查看系统信息,系统主界面展示如图5.1所示。图5.1网站主界面5.1.2视频详情界面用户可选择视频查看视频详情信息,并可进行视频播放操作,视频详情界面展示如图5.2所示。…...
PCL 法向量夹角剔除错误匹配点对【2026最新版】
目录 一、 算法简介 1、主要函数 2、参考文献 二、 代码实现 三、 结果展示 四、 参考链接 博客长期更新,本文最新更新时间为:2026年5月24日。代码在PCL1.15.1中测试通过 一、 算法简介 在三维点云配准中,对应点(correspondence)的准确性直接决定了配准算法的精度和鲁棒性…...
树莓派工业GPIO接口板:电气隔离与电平转换实战指南
1. 项目概述:为什么需要一块工业级GPIO接口板?如果你用树莓派做过一些硬件项目,尤其是涉及到控制继电器、电机或者连接工业设备(比如PLC、变频器)时,大概率踩过这样的坑:直接用树莓派的GPIO引脚…...
使用curl命令调试Taotoken API接口的常见问题排查
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用curl命令调试Taotoken API接口的常见问题排查 基础教程类,面向所有需要通过HTTP直接与API交互的开发者,…...
TII投稿避坑指南:LaTeX模板编译报错‘xxx-eps-converted-to.pdf not found’的终极解决方案
TII投稿LaTeX避坑实战:从编译报错到完美PDF生成的终极指南 凌晨三点的实验室,屏幕上闪烁的xxx-eps-converted-to.pdf not found错误提示仿佛在嘲笑你连续八小时的徒劳尝试。这不是科幻场景,而是每位用LaTeX撰写TII论文的研究者都可能遭遇的真…...
