机器学习基础-机器学习的常用学习方法
半监督学习的概念
少量有标签样本和大量有标签样本进行学习;这种方法旨在利用未标注数据中的结构信息来提高模型性能,尤其是在标注数据获取成本高昂或困难的情况下。
规则学习的概念
基本概念
机器学习里的规则
若......则......
- 解释:如果预测函数 h^(x) 的输出等于某个值 y^,则实际输出 y 也应为 y
- 解释:如果预测函数 h(x) 的输出大于0,则样本属于正类(class = 1);否则属于负类(class = -1)。
- 解释:如果样本 x 到中心点 ci 的距离小于到其他所有中心点的距离,则样本 x 被分配到簇 ci。
逻辑规则
规则集
- 如果西瓜的根蒂是缩缩的且肚脐是凹陷的,则该西瓜是好瓜。
- 如果西瓜的纹理是模糊的,则该西瓜不是好瓜。
充分性与必要性
- 充分性: 如果条件满足,则结论必然成立。
- 必要性: 如果结论成立,则条件必须满足。
冲突消解
- 顺序规则: 按照规则的顺序进行匹配和应用。
- 缺省规则: 在没有明确规则的情况下使用默认规则。
- 元规则: 用于处理规则之间的冲突或优先级问题。
命题逻辑 → 命题规则
-
原子命题:
用大写字母表示,如 A,B,C,… -
逻辑连词:
包括:←,→,↔,∧,∨,¬,…
eg:-
好瓜←(根蒂=蜷缩)∧(脐部=凹陷)
这个规则可以读作:“如果西瓜的根蒂是蜷缩的且脐部是凹陷的,则该西瓜是好瓜。”
-
序贯覆盖
- 主要一个生成规则集的机器学习算法,主要用于分类任务。
- 在训练集上每学到一条规则,就将该规则覆盖的样例去除,然后以剩下的样例组成训练集重复上述过程(分治策略)
单条规则学习
- 目标:寻找一组最优的逻辑文字来构成规则体
- 本质:搜索问题
- 方法:
- 自顶向下:一般到特殊(特化)
eg:初始时假设“所有西瓜都是好瓜”,然后逐步增加条件,如“根蒂蜷缩且脐部凹陷”,以更精确地定义哪些西瓜是好瓜。 - 自底向上:特殊到一般(泛化)
- 自顶向下:一般到特殊(特化)
剪枝优化
- 预剪枝
- 使用似然率统计量 (LRS) 来评估规则的有效性,并在规则生成过程中进行剪枝。
- 目的是减少过拟合,提高模型的泛化能力。
- 后剪枝
- 在规则生成完成后,通过穷举所有可能的剪枝操作来优化规则集。
- 减错剪枝(REP)
- 用验证集反复剪枝直到准确率无法提高
- 穷举所有可能的剪枝操作(删除文字,删除规则),复杂度非常高
- 两者结合
- IREP:每生成一条新规则即对其进行REP剪枝
- IREP*:对IREP的改进
- RIPPER:具体过程如下
① 用IREP*生成规则集,但发现规则覆盖了两个负样本
② 选取该规则,找到其覆盖的样例,之后重新生成规则
③ 特化原规则后再泛化
④ 把新规则和原规则分别置入规则集进行评价,留下最好的
④ 反复优化直到无法进步
强化学习的概念
1. 强化学习对应了四元组
E=<X,A,P,R>
- X: 状态空间,表示智能体感知到的环境状态。
- A: 动作空间,表示智能体可以采取的动作。
- P: 状态转移概率函数,表示在给定当前状态 xx 和动作 aa 下转移到下一个状态 x′x′ 的概率。
- R: 奖赏函数,表示在给定当前状态 xx 和动作 aa 下获得的即时奖赏。
2. 强化学习的目标
- 目标: 机器通过在环境中不断尝试从而学到一个策略 π,使得长期执行该策略后得到的累积奖赏最大。
强化学习常用马尔可夫决策过程 (MDP) 描述
1. 机器所处的环境 F
- 描述: 机器所处的环境。
- 示例: 在种西瓜任务中,环境是西瓜生长的自然世界。
2. 状态空间 X
- 定义: x∈X 是机器感知到的环境的描述。
- 示例: 瓜苗长势的描述。
3. 机器能采取的行为空间 A
- 定义: 机器能采取的行为集合。
- 示例: 浇水、施肥等。
4. 策略 (policy) π
- 定义: π:X→A (或 π:X×A→R)
- 策略 π 是一个从状态空间 X 到行为空间 A 的映射,表示在给定状态下智能体应采取的动作。
- 示例: 根据瓜苗状态是缺水时,返回动作浇水。
5. 潜在的状态转移 (概率) 函数 P
- 定义: P:X×A×X→R
- P 描述了在给定当前状态 x 和采取动作 a 后,转移到下一个状态 x′ 的概率。
- 示例: 瓜苗当前状态缺水,选择动作浇水,有一定概率恢复健康,也有一定概率无法恢复。
6. 潜在的奖赏 (reward) 函数 R
- 定义: R:X×A×X→R 或 R:X×X→R
- 表示在状态 x 下采取动作 a 并转移到状态 x′ 时获得的奖赏。
- 示例: 瓜苗健康对应奖赏 +1,瓜苗凋零对应奖赏 -10。
强化学习vs监督学习
相关文章:

机器学习基础-机器学习的常用学习方法
半监督学习的概念 少量有标签样本和大量有标签样本进行学习;这种方法旨在利用未标注数据中的结构信息来提高模型性能,尤其是在标注数据获取成本高昂或困难的情况下。 规则学习的概念 基本概念 机器学习里的规则 若......则...... 解释:如果…...
在控制领域中如何区分有效性、优越性、稳定性和鲁棒性?
在控制领域中,区分有效性、优越性、稳定性和鲁棒性可以通过具体的控制器设计实例来更好地理解。以下以经典的质量-弹簧-阻尼系统的PID控制器设计为例,展示如何区分这四个性能指标。 经典质量-弹簧-阻尼系统的PID控制器设计 质量-弹簧-阻尼系统模型 考…...

美国宏观经济基础框架梳理
玩转币圈和美股,最关键的是理解美国宏观经济。以下是核心逻辑:美国经济数据→政策调整→资金流动→资产价格变化。掌握这些因素的关系,才能在市场中立于不败之地。 一、核心变量及其意义 1. GDP(国内生产总值) • …...
装饰器模式详解
装饰器模式(Decorator Pattern)是一种设计模式,属于结构型模式之一。它允许向一个现有的对象添加新的功能,同时又不改变其结构。这种模式创建了一个装饰类,用来包装原有类的一个实例,从而扩展该实例的功能。…...

[最新] SIM卡取出后还能找到我的iPhone吗?
您是否曾在任何地方丢失过 SIM 卡?或者您是否已移除 SIM 卡,现在无法在任何地方找到您的 iPhone?在这篇博客中,您将了解即使 SIM 卡被移除,“查找我的 iPhone”也能正常工作。 在某些情况下,您必须取出 SIM…...

数据分析思维(六):分析方法——相关分析方法
数据分析并非只是简单的数据分析工具三板斧——Excel、SQL、Python,更重要的是数据分析思维。没有数据分析思维和业务知识,就算拿到一堆数据,也不知道如何下手。 推荐书本《数据分析思维——分析方法和业务知识》,本文内容就是提取…...
谷歌2025年AI战略与产品线布局
在2024年12月的战略会议上,谷歌高层向员工描绘了2025年的宏伟蓝图,特别是在人工智能(AI)领域。这一年被定位为AI发展的关键转折点,谷歌计划通过一系列新产品和创新来巩固其在全球科技领域的领导地位。本文将深入探讨谷歌的2025年AI战略、重点产品以及竞争策略。 一、整体…...

登录的几种方式
使用Session完成登录 1. 手机号发送验证码 逻辑步骤: 校验手机号格式是否正确。生成验证码(例如使用Hutool工具类)。将手机号和验证码存入Session。返回验证码发送成功的响应。 2. 用户登录逻辑 逻辑步骤: 从Session中获取存…...

Scala_【5】函数式编程
第五章 函数式编程函数和方法的区别函数声明函数参数可变参数参数默认值 函数至简原则匿名函数高阶函数函数作为值传递函数作为参数传递函数作为返回值 函数闭包&柯里化函数递归控制抽象惰性函数友情链接 函数式编程 面向对象编程 解决问题时,分解对象ÿ…...
解析 World Football Cup 问题及其 Python 实现
问题描述 本文讨论一道关于足球锦标赛排名规则的问题,来自 Berland 足球协会对世界足球规则的调整。题目要求对给定的比赛数据进行计算,并输出能进入淘汰赛阶段的球队列表。以下是规则详细描述。 题目规则 输入格式: 第一行包含一个整数 …...

9.系统学习-卷积神经网络
9.系统学习-卷积神经网络 简介输入层卷积层感受野池化层全连接层代码实现 简介 卷积神经网络是一种用来处理局部和整体相关性的计算网络结构,被应用在图像识别、自然语言处理甚至是语音识别领域,因为图像数据具有显著的局部与整体关系,其在图…...

基于FPGA的出租车里程时间计费器
基于FPGA的出租车里程时间计费器 功能描述一、系统框图二、verilog代码里程增加模块时间增加模块计算价格模块上板视频演示 总结 功能描述 (1);里程计费功能:3公里以内起步价8元,超过3公里后每公里2元,其中…...

三甲医院等级评审八维数据分析应用(五)--数据集成与共享篇
一、引言 1.1 研究背景与意义 随着医疗卫生体制改革的不断深化以及信息技术的飞速发展,三甲医院评审作为衡量医院综合实力与服务水平的重要标准,对数据集成与共享提出了更为严苛的要求。在传统医疗模式下,医院内部各业务系统往往各自为政,形成诸多“信息孤岛”,使得数据…...

VUE条件树查询 自定义条件节点
之前实现过的简单的条件树功能如下图: 经过最新客户需求确认,上述条件树还需要再次改造,以满足正常需要! 最新暴改后的功能如下红框所示: 页面功能 主页面逻辑代码: <template><div class"…...
什么是打流,怎么用iperf3打流
什么是打流 在网络安全和黑灰产领域,“打流”具有不同的含义,常用于形容通过技术手段制造流量假象或发起流量攻击。 流量攻击(DDoS)中的“打流”: “打流”指向目标服务器或网络发起 大规模的数据请求,造…...
使用MySQL APT源在Linux上安装MySQL
全新安装MySQL的步骤 以下说明假定您的系统上尚未安装任何版本的MySQL(无论是由Oracle还是其他方分发) 添加MySQL的Apt源。 将MySQL的APT存储库添加到系统的软件存储库列表中。 1、转到MySQL APT存储库的下载页面MySQL :: Download MySQL APT Reposi…...

redux react-redux @reduxjs/toolkit
redux团队先后推出了redux、react-redux、reduxjs/toolkit,这三个库的api各有不同。本篇文章就来梳理一下当我们需要在项目中集成redux,从直接使用redux,到使用react-redux,再到react-redux和reduxjs/toolkit配合使用,…...

【偏好对齐】通过ORM直接推导出PRM
论文地址:https://arxiv.org/pdf/2412.01981 相关博客 【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架 【强化学习】PPO:近端策略优化算法 【偏好对齐】PRM应该奖励单个步骤的正确性吗? 【偏好对齐】通过OR…...
Python与其他编程语言的区别是什么?
Python是一种广泛使用的高级编程语言,以其简洁的语法、强大的库支持和广泛的应用领域而著称。与其他编程语言相比,Python具有许多独特的特点和优势。以下将从多个方面详细探讨Python与其他编程语言的区别,并通过示例进行说明。 一、语法简洁…...

cuda11.6和对应的cudnn(windows)
因为每次不同的torch版本要下对应的cuda,这次刚好在Windows上下好了一个cuda11.6和对应的cudnn,直接放到网盘中,大家有需要对应版本的可以直接下载: 链接:https://pan.quark.cn/s/f153a53830d4 大家自取,c…...
Linux简单的操作
ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名 转换路径 …...
ffmpeg(四):滤镜命令
FFmpeg 的滤镜命令是用于音视频处理中的强大工具,可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下: ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜: ffmpeg…...

html-<abbr> 缩写或首字母缩略词
定义与作用 <abbr> 标签用于表示缩写或首字母缩略词,它可以帮助用户更好地理解缩写的含义,尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时,会显示一个提示框。 示例&#x…...
小木的算法日记-多叉树的递归/层序遍历
🌲 从二叉树到森林:一文彻底搞懂多叉树遍历的艺术 🚀 引言 你好,未来的算法大神! 在数据结构的世界里,“树”无疑是最核心、最迷人的概念之一。我们中的大多数人都是从 二叉树 开始入门的,它…...

【Linux】Linux安装并配置RabbitMQ
目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的,需要先安…...
Pydantic + Function Calling的结合
1、Pydantic Pydantic 是一个 Python 库,用于数据验证和设置管理,通过 Python 类型注解强制执行数据类型。它广泛用于 API 开发(如 FastAPI)、配置管理和数据解析,核心功能包括: 数据验证:通过…...
Java详解LeetCode 热题 100(26):LeetCode 142. 环形链表 II(Linked List Cycle II)详解
文章目录 1. 题目描述1.1 链表节点定义 2. 理解题目2.1 问题可视化2.2 核心挑战 3. 解法一:HashSet 标记访问法3.1 算法思路3.2 Java代码实现3.3 详细执行过程演示3.4 执行结果示例3.5 复杂度分析3.6 优缺点分析 4. 解法二:Floyd 快慢指针法(…...
机器学习的数学基础:线性模型
线性模型 线性模型的基本形式为: f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题 利用最小二乘法,得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…...

归并排序:分治思想的高效排序
目录 基本原理 流程图解 实现方法 递归实现 非递归实现 演示过程 时间复杂度 基本原理 归并排序(Merge Sort)是一种基于分治思想的排序算法,由约翰冯诺伊曼在1945年提出。其核心思想包括: 分割(Divide):将待排序数组递归地分成两个子…...

C++11 constexpr和字面类型:从入门到精通
文章目录 引言一、constexpr的基本概念与使用1.1 constexpr的定义与作用1.2 constexpr变量1.3 constexpr函数1.4 constexpr在类构造函数中的应用1.5 constexpr的优势 二、字面类型的基本概念与使用2.1 字面类型的定义与作用2.2 字面类型的应用场景2.2.1 常量定义2.2.2 模板参数…...