当前位置: 首页 > article >正文

人工智能 - 1

深度强化学习(Deep Reinforcement Learning)
图神经网络(Graph Neural Networks, GNNs)
Transformer    一种深度学习模型
大语言模型(Large Language Models, LLMs)


人工智能


    •    Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习(Machine Learning, ML)


    •    AI 的一个子集,利用数据训练模型,使系统无需显式编程即可完成任务。

 常见方法:
    •    监督学习:数据有明确的输入和输出。
    •    无监督学习:数据没有明确标签,模型寻找数据的隐藏模式。
    •    强化学习:通过奖励和惩罚学习动作。

深度学习(Deep Learning, DL)


    •    机器学习的一个子集,利用多层神经网络处理复杂任务。
    •    特点:需要大量数据和算力,能够自动提取特征。


机器学习的分类


    1.    监督学习(Supervised Learning):
    •    输入和输出数据均已知,模型根据输入数据预测输出标签。
    •    例子:图像分类、回归分析。

    2.    无监督学习(Unsupervised Learning):
    •    输入数据已知,但没有明确的输出标签,模型需要从数据中发现模式。
    •    例子:聚类、降维。

    3.    强化学习(Reinforcement Learning):
    •    系统与环境交互,通过获得奖励最大化长期收益。
    •    例子:游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)


    •    数据集中包含标注数据和未标注数据的混合。
    •    标注数据用于指导学习,未标注数据提供额外信息(如数据分布)。
    •    特点:
    •    减少标注需求,结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning)

  自监督是一种无监督学习的形式,数据为自身提供监督信号。
    •    从数据本身生成伪标签进行学习,无需人工标注。
    •    示例:让模型预测图片的旋转角度。

特点:
    •    用数据内在的关系生成学习目标。
    •    用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述:
    •    输入:一组随机旋转的图片(如 0°、90°、180°、270°)。
    •    模型任务:预测图片的旋转角度。


强化学习

定义:
    •    强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
    •    学习目标:选择能最大化长期奖励的动作。

关键点:
    1.    学习方式:基于试错法的交互学习。
    2.    目标导向:所有学习围绕奖励信号进行。
    3.    映射问题:学会将环境状态映射到合适的动作。


监督学习的流程

定义:
    •    监督学习通过已标注数据训练模型,将输入映射到输出。

流程:
    1.    输入:特征数据(如图片)。
    2.    输出:目标值(如“猫”或“狗”)。
    3.    误差:模型预测与目标值的差异。
    4.    优化:通过迭代训练最小化误差。

示例任务:
    •    图像分类(猫/狗)。
    •    房价预测。


强化学习的流程

流程:
    1.    输入:环境状态。
    2.    输出:动作(由智能体选择)。
    3.    奖励信号:根据动作结果提供反馈(奖励/惩罚)。
    4.    目标:通过试错最大化累积奖励。

特点:
    •    训练信息不直接是目标值,而是奖励。
    •    适用于动态、交互式任务。

目标:
    •    最大化奖励,学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性:
    1.    未明确告知动作:
    •    强化学习中的智能体(agent)需要自己探索,并未直接告知正确的行动。
    •    通过环境反馈学习如何选择合适的动作。


    2.    试错搜索 (Trial-and-Error Search):
    •    智能体尝试不同的动作并观察结果,通过试错法改进策略。


    3.    延迟奖励 (Delayed Reward):
    •    智能体可能需要牺牲短期利益以获得更大的长期收益。
    •    例如,棋局中的一步可能暂时失利,但对最终获胜至关重要。


    4.    探索与利用的平衡 (Explore and Exploit):
    •    探索:尝试新策略以发现潜在更优的解决方案。
    •    利用:利用现有知识采取已知最佳动作。


    5.    目标导向与不确定环境:
    •    强化学习处理智能体与动态、不确定环境的交互,设计目标明确。

监督学习:
    •    目标:学习条件概率  p_{\theta}(y|x) ,预测  y  给定输入  x 。
    •    应用:分类(如识别图像是否包含猫)、回归(如预测房价)。

无监督学习:
    •    目标:学习数据分布  p_{\theta}(x) 。
    •    应用:聚类、生成模型(如生成新图像)。

强化学习:
    •    目标:学习策略  \pi_{\theta}(a|s) ,即给定状态  s  时选择的动作  a 。
    •    应用:控制系统(如机器人运动控制)。


智能体 (Agent)


    •    在强化学习中,智能体是执行动作并从环境中学习的主体。
    •    智能体通过感知环境状态、采取动作来影响环境。

特性:
    1.    时间相关性:决策依赖于时间序列中的状态。
    2.    持续学习与规划:智能体根据经验调整策略。
    3.    目标:通过行动影响环境,达到预定目标。
    4.    环境不确定性:环境可能具有随机性,智能体需要应对。

循环过程:
    1.    智能体感知环境状态。
    2.    根据策略选择动作。
    3.    环境反馈新状态和奖励。


强化学习概述

 任务(Task):强化学习的目标是通过与环境交互,学习如何成功地达到某个目标

 特点

• 通过经验学习(Learn via experiences)。

• 不像监督学习那样有明确的标签,而是通过试错探索策略。

示例

游戏:玩家知道自己赢了还是输了,但不知道下一步该怎么走。

控制:例如交通系统能测量车流延迟,但不知道如何减少拥堵。

强化学习的应用案例

1. 空间探索(Optimal Control):控制卫星运行轨迹。

2. 机器人(Robotics):机器人学习翻转煎饼等操作。

3. 迷宫与路径规划(Maze & Sokoban Puzzle)

 通过强化学习训练智能体在复杂环境中找到最优路径。

4. Sokoban(仓库推箱子):经典的强化学习任务,智能体需要规划动作把箱子推到正确位置。

5. 群体智能(Multi-Agent Systems)

躲猫猫(Hide and Seek):智能体学习不同的策略,如追逐、筑墙、利用坡道等,模拟多智能体博弈。

以下是对您上传的三张图片中涉及知识点的总结和解释:

RL Problems Are Strategic

1. 内容概述:

强化学习(Reinforcement Learning, RL)能够实现战略层面的自动化。

 图片展示了现代商业的三个核心功能(业务函数):

策略(Strategy)

决策(Decision)

流程(Process)

• 不同功能的重要性(价值)和技术对应:

 流程自动化可以通过软件工程完成。

 决策自动化可以通过机器学习完成。

战略自动化可以通过强化学习完成。

• 价值金字塔表明:策略比决策和流程更高层次,同时对业务价值贡献更大。

2. 关键点:

业务功能的分层:策略 > 决策 > 流程。

自动化技术的应用:流程用软件工程,决策用机器学习,策略用强化学习。

 商业意义:频繁但耗时的操作适合软件化,而高价值的策略需要强化学习的介入。

Markov Decision Processes (MDPs)

1. 内容概述:

强化学习问题通常可以表示为马尔科夫决策过程(Markov Decision Process, MDP)。

MDP 的核心特性是“马尔科夫性”:

• 当前状态St 的未来状态St+1 仅取决于当前状态,不依赖于历史状态。

智能体基于当前状态采取行动,从环境中获得奖励并更新状态。

马尔科夫性:未来状态与过去状态条件独立,仅依赖当前状态。

交互循环:状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。

Defining MDPs

1. 内容概述:

 MDP 的正式定义包括以下组件:

 状态集(States, S):环境可能的状态集合。

 初始状态(Start state, 

 动作集(Actions, A):智能体可采取的动作集合。

 状态转移函数(Transitions, 或 :描述从一个状态到另一个状态的概率。

 奖励函数(Rewards, :每个状态转移的奖励值。

 折扣因子(Discount factor, :用于计算未来奖励的现值。

2. 关键概念:

 策略(Policy):在每个状态下的动作选择规则。

 回报(Utility/Return):累计的折扣奖励值。

 

相关文章:

人工智能 - 1

深度强化学习(Deep Reinforcement Learning) 图神经网络(Graph Neural Networks, GNNs) Transformer 一种深度学习模型 大语言模型(Large Language Models, LLMs) 人工智能 • Marvin Minsky 将其定义…...

留学生scratch计算机haskell函数ocaml编程ruby语言prolog作业VB

您列出了一系列编程语言和技术,这些可能是您在留学期间需要学习或完成作业的内容。以下是对每个项目的简要说明和它们可能涉及的领域或用途: Scratch: Scratch是一种图形化编程语言,专为儿童和初学者设计,用于教授编程…...

LeetCode题练习与总结:最长和谐子序列--594

一、题目描述 和谐数组是指一个数组里元素的最大值和最小值之间的差别 正好是 1 。 给你一个整数数组 nums ,请你在所有可能的 子序列 中找到最长的和谐子序列的长度。 数组的 子序列 是一个由数组派生出来的序列,它可以通过删除一些元素或不删除元素…...

Linux_线程同步生产者消费者模型

同步的相关概念 同步:在保证数据安全的前提下,让线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,叫做同步竞态条件:因为时序问题,而导致程序异常,我们称之为竞态条件。 同步的…...

Github 2025-01-30 Go开源项目日报 Top10

根据Github Trendings的统计,今日(2025-01-30统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Ollama: 本地大型语言模型设置与运行 创建周期:248 天开发语言:Go协议类型:MIT LicenseStar数量:42421 个Fork数量:2724 次关注人…...

FortiOS 存在身份验证绕过导致命令执行漏洞(CVE-2024-55591)

免责声明: 本文旨在提供有关特定漏洞的深入信息,帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步,未经授权访问系统、网络或应用程序,可能会导致法律责任或严重后果。因此,作者不对读者基于本文内容所采取的任何行为承担责任。读者在…...

【Rust自学】17.2. 使用trait对象来存储不同值的类型

喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 17.2.1. 需求 这篇文章以一个例子来介绍如何在Rust中使用trait对象来存储不同值的类型。 …...

毛选原文-实践论

实践论 论认识和实践的关系——知和行的关系 (一九三七年七月) 马克思以前的唯物论,离开人的社会性,离开人的历史发展,去观察认识问题,因此不能了解认识对社会实践的依赖关系,即认识对生产…...

PPT自动化 python-pptx -7: 占位符(placeholder)

占位符(placeholder)是演示文稿中用于容纳内容的预格式化容器。它们通过让模板设计者定义格式选项,简化了创建视觉一致幻灯片的过程,同时让最终用户专注于添加内容。这加快了演示文稿的开发速度,并确保幻灯片之间的外观…...

VLLM性能调优

1. 抢占 显存不够的时候,某些request会被抢占。其KV cache被清除,腾退给其他request,下次调度到它,重新计算KV cache。 报这条消息,说明已被抢占: WARNING 05-09 00:49:33 scheduler.py:1057 Sequence gr…...

Java线程认识和Object的一些方法

本文目标: 要对Java线程有整体了解,深入认识到里面的一些方法和Object对象方法的区别。认识到Java对象的ObjectMonitor,这有助于后面的Synchronized和锁的认识。利用Synchronized wait/notify 完成一道经典的多线程题目:实现ABC…...

数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)

数据库管理287期 2025-01-24 数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)1 AI向量搜索:算术和聚合运算2 更改Compatible至23.6.0,以使用23.6或更高版本中的新AI向量搜索功能3 Cloud Developer包4 DBMS_DEVELOPER.GET_…...

LruCache实现

LRU最近最少使用算法 一、LRU算法 1.简介 LRU(Least Recently Used,最近最少使用)算法是一种常用的缓存淘汰策略,当缓存达到其容量上限时,它会移除那些最久没有被访问的数据项。这种策略基于这样一个假设&#xff1…...

DDD架构实战第五讲总结:将领域模型转化为代码

云架构师系列课程之DDD架构实战第五讲总结:将领域模型转化为代码 一、引言 在前几讲中,我们讨论了领域模型的重要性及其在业务分析中的渐进获得方法。本讲将聚焦于如何将领域模型转化为代码,使得开发人员能够更轻松地实现用户的领域模型。 二、从模型到代码:领域驱动设计…...

【MySQL】MySQL客户端连接用 localhost和127.0.0.1的区别

# systemctl status mysqld # ss -tan | grep 3306 # mysql -V localhost与127.0.0.1的区别是什么? 相信有人会说是本地IP,曾有人说,用127.0.0.1比localhost好,可以减少一次解析。 看来这个入门问题还有人不清楚,其实…...

蓝桥杯例题五

无论你面对多大的困难和挑战,都要保持坚定的信念和积极的态度。相信自己的能力和潜力,努力不懈地追求自己的目标和梦想。不要害怕失败,因为失败是成功的垫脚石。相信自己的选择和决策,不要被他人的意见和批评左右。坚持不懈地努力…...

DeepSeek R1本地部署详细指南

DeepSeek R1 是由中国 AI 初创公司深度求索开发的先进推理模型,其性能在数学、编码和逻辑推理等任务上表现出色。在本地部署该模型可以带来更低的延迟、更高的隐私性以及对 AI 应用的更大控制权。本文将详细介绍如何在本地环境中部署 DeepSeek R1 模型。 前提条件 …...

MySQL(高级特性篇) 14 章——MySQL事务日志

事务有4种特性:原子性、一致性、隔离性和持久性 事务的隔离性由锁机制实现事务的原子性、一致性和持久性由事务的redo日志和undo日志来保证(1)REDO LOG称为重做日志,用来保证事务的持久性(2)UNDO LOG称为回…...

爬虫基础(五)爬虫基本原理

目录 一、爬虫是什么 二、爬虫过程 (1)获取网页 (2)提取信息 (3)保存数据 三、爬虫可爬的数据 四、爬虫问题 一、爬虫是什么 互联网,后面有个网字,我们可以把它看成一张蜘蛛网…...

【Block总结】HWD,小波下采样,适用分类、分割、目标检测等任务|即插即用

论文信息 Haar wavelet downsampling (HWD) 是一项针对语义分割的创新模块,旨在通过减少特征图的空间分辨率来提高深度卷积神经网络(DCNNs)的性能。该论文的主要贡献在于提出了一种新的下采样方法,能够在下采样阶段有效地减少信息…...

【解决方案】MuMu模拟器移植系统进度条卡住98%无法打开

之前在Vmware虚拟机里配置了mumu模拟器,现在想要移植到宿主机中 1、虚拟机中的MuMu模拟器12-1是目标系统,对应的目录如下 C:\Program Files\Netease\MuMu Player 12\vms\MuMuPlayer-12.0-1 2、Vmware-虚拟机-设置-选项,启用共享文件夹 3、复…...

力扣面试150 快乐数 循环链表找环 链表抽象 哈希

Problem: 202. 快乐数 👩‍🏫 参考题解 Code public class Solution {public int squareSum(int n) {int sum 0;while(n > 0){int digit n % 10;sum digit * digit;n / 10;}return sum;}public boolean isHappy(int n) {int slow n, fast squa…...

安卓(android)实现注册界面【Android移动开发基础案例教程(第2版)黑马程序员】

一、实验目的(如果代码有错漏,可查看源码) 1.掌握LinearLayout、RelativeLayout、FrameLayout等布局的综合使用。 2.掌握ImageView、TextView、EditText、CheckBox、Button、RadioGroup、RadioButton、ListView、RecyclerView等控件在项目中的…...

SpringSecurity:There is no PasswordEncoder mapped for the id “null“

文章目录 一、情景说明二、分析三、解决 一、情景说明 在整合SpringSecurity功能的时候 我先是去实现认证功能 也就是,去数据库比对用户名和密码 相关的类: UserDetailsServiceImpl implements UserDetailsService 用于SpringSecurity查询数据库 Logi…...

微服务入门(go)

微服务入门(go) 和单体服务对比:里面的服务仅仅用于某个特定的业务 一、领域驱动设计(DDD) 基本概念 领域和子域 领域:有范围的界限(边界) 子域:划分的小范围 核心域…...

996引擎 - NPC-动态创建NPC

996引擎 - NPC-动态创建NPC 创建脚本服务端脚本客户端脚本添加自定义音效添加音效文件修改配置参考资料有个小问题,创建NPC时没有控制朝向的参数。所以。。。自己考虑怎么找补吧。 多重影分身 创建脚本 服务端脚本 Mir200\Envir\Market_Def\test\test001-3.lua -- NPC八门名…...

使用 MySQL JSON 查询筛选嵌套字段的值

在日常开发中,随着项目需求的不断复杂化,许多表字段可能会存储 JSON 格式的数据。例如,我们有一张 site_device 表,其中有一个名为 detail 的字段,保存了设备的详细信息。这些信息存储为 JSON 数据,如下所示…...

go-zero学习笔记(一)

基础环境搭建 安装go环境 网上文章比较多,不在赘述,我当时参考的文章是:https://blog.csdn.net/weixin_41287260/article/details/143661816 记得修改go env 中的环境变量, 主要是goproxy 改成七牛云的,这样下载代码库…...

maven、npm、pip、yum官方镜像修改文档

文章目录 Maven阿里云网易华为腾讯云 Npm淘宝腾讯云 pip清华源阿里中科大华科 Yum 由于各博客繁杂&#xff0c;本文旨在记录各常见镜像官网&#xff0c;及其配置文档。常用镜像及配置可评论后加入 Maven 阿里云 官方文档 setting.xml <mirror><id>aliyunmaven&l…...

【Docker】私有Docker仓库的搭建

一、准备工作 确保您的系统已安装Docker。如果没有安装&#xff0c;请参考Docker官方文档进行安装。 准备一个用于存储仓库数据的目录&#xff0c;例如/registry_data/。 二、拉取官方registry镜像 首先&#xff0c;我们需要从Docker Hub拉取官方的registry镜像。执行以下命…...