当前位置：首页 > article >正文

人工智能 - 1

article 2026/5/10 18:47:16

深度强化学习（Deep Reinforcement Learning）
图神经网络（Graph Neural Networks, GNNs）
Transformer 一种深度学习模型
大语言模型（Large Language Models, LLMs）

人工智能

• Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习（Machine Learning, ML）

• AI 的一个子集，利用数据训练模型，使系统无需显式编程即可完成任务。

常见方法：
   •   监督学习：数据有明确的输入和输出。
   •   无监督学习：数据没有明确标签，模型寻找数据的隐藏模式。
   •   强化学习：通过奖励和惩罚学习动作。

深度学习（Deep Learning, DL）

• 机器学习的一个子集，利用多层神经网络处理复杂任务。
• 特点：需要大量数据和算力，能够自动提取特征。

机器学习的分类

   1.   监督学习（Supervised Learning）：
   •   输入和输出数据均已知，模型根据输入数据预测输出标签。
   •   例子：图像分类、回归分析。

   2.   无监督学习（Unsupervised Learning）：
   •   输入数据已知，但没有明确的输出标签，模型需要从数据中发现模式。
   •   例子：聚类、降维。

   3.   强化学习（Reinforcement Learning）：
   •   系统与环境交互，通过获得奖励最大化长期收益。
   •   例子：游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)

   •   数据集中包含标注数据和未标注数据的混合。
   •   标注数据用于指导学习，未标注数据提供额外信息（如数据分布）。
   •   特点：
   •   减少标注需求，结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning）

自监督是一种无监督学习的形式，数据为自身提供监督信号。
• 从数据本身生成伪标签进行学习，无需人工标注。
• 示例：让模型预测图片的旋转角度。

特点：
• 用数据内在的关系生成学习目标。
• 用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述：
• 输入：一组随机旋转的图片（如 0°、90°、180°、270°）。
• 模型任务：预测图片的旋转角度。

强化学习

定义：
• 强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
• 学习目标：选择能最大化长期奖励的动作。

关键点：
   1.   学习方式：基于试错法的交互学习。
   2.   目标导向：所有学习围绕奖励信号进行。
   3.   映射问题：学会将环境状态映射到合适的动作。

监督学习的流程

定义：
• 监督学习通过已标注数据训练模型，将输入映射到输出。

流程：
   1.   输入：特征数据（如图片）。
   2.   输出：目标值（如“猫”或“狗”）。
   3.   误差：模型预测与目标值的差异。
   4.   优化：通过迭代训练最小化误差。

示例任务：
• 图像分类（猫/狗）。
• 房价预测。

强化学习的流程

流程：
   1.   输入：环境状态。
   2.   输出：动作（由智能体选择）。
   3.   奖励信号：根据动作结果提供反馈（奖励/惩罚）。
   4.   目标：通过试错最大化累积奖励。

特点：
• 训练信息不直接是目标值，而是奖励。
• 适用于动态、交互式任务。

目标：
• 最大化奖励，学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性：
   1.   未明确告知动作：
   •   强化学习中的智能体（agent）需要自己探索，并未直接告知正确的行动。
   •   通过环境反馈学习如何选择合适的动作。

2. 试错搜索 (Trial-and-Error Search)：
• 智能体尝试不同的动作并观察结果，通过试错法改进策略。

   3.   延迟奖励 (Delayed Reward)：
   •   智能体可能需要牺牲短期利益以获得更大的长期收益。
   •   例如，棋局中的一步可能暂时失利，但对最终获胜至关重要。

   4.   探索与利用的平衡 (Explore and Exploit)：
   •   探索：尝试新策略以发现潜在更优的解决方案。
   •   利用：利用现有知识采取已知最佳动作。

5. 目标导向与不确定环境：
• 强化学习处理智能体与动态、不确定环境的交互，设计目标明确。

监督学习：
   •   目标：学习条件概率 p_{\theta}(y|x) ，预测 y 给定输入 x 。
   •   应用：分类（如识别图像是否包含猫）、回归（如预测房价）。

无监督学习：
   •   目标：学习数据分布 p_{\theta}(x) 。
   •   应用：聚类、生成模型（如生成新图像）。

强化学习：
   •   目标：学习策略 \pi_{\theta}(a|s) ，即给定状态 s 时选择的动作 a 。
   •   应用：控制系统（如机器人运动控制）。

智能体 (Agent)

• 在强化学习中，智能体是执行动作并从环境中学习的主体。
• 智能体通过感知环境状态、采取动作来影响环境。

特性：
   1.   时间相关性：决策依赖于时间序列中的状态。
   2.   持续学习与规划：智能体根据经验调整策略。
   3.   目标：通过行动影响环境，达到预定目标。
   4.   环境不确定性：环境可能具有随机性，智能体需要应对。

循环过程：
   1.   智能体感知环境状态。
   2.   根据策略选择动作。
   3.   环境反馈新状态和奖励。

强化学习概述

任务（Task）：强化学习的目标是通过与环境交互，学习如何成功地达到某个目标。

特点：

• 通过经验学习（Learn via experiences）。

• 不像监督学习那样有明确的标签，而是通过试错探索策略。

示例：

• 游戏：玩家知道自己赢了还是输了，但不知道下一步该怎么走。

• 控制：例如交通系统能测量车流延迟，但不知道如何减少拥堵。

强化学习的应用案例

1. 空间探索（Optimal Control）：控制卫星运行轨迹。

2. 机器人（Robotics）：机器人学习翻转煎饼等操作。

3. 迷宫与路径规划（Maze & Sokoban Puzzle）：

通过强化学习训练智能体在复杂环境中找到最优路径。

4. Sokoban（仓库推箱子）：经典的强化学习任务，智能体需要规划动作把箱子推到正确位置。

5. 群体智能（Multi-Agent Systems）：

躲猫猫（Hide and Seek）：智能体学习不同的策略，如追逐、筑墙、利用坡道等，模拟多智能体博弈。

以下是对您上传的三张图片中涉及知识点的总结和解释：

RL Problems Are Strategic

1. 内容概述：

强化学习（Reinforcement Learning, RL）能够实现战略层面的自动化。

图片展示了现代商业的三个核心功能（业务函数）：

策略（Strategy）

决策（Decision）

流程（Process）

• 不同功能的重要性（价值）和技术对应：

流程自动化可以通过软件工程完成。

决策自动化可以通过机器学习完成。

战略自动化可以通过强化学习完成。

• 价值金字塔表明：策略比决策和流程更高层次，同时对业务价值贡献更大。

2. 关键点：

业务功能的分层：策略 > 决策 > 流程。

自动化技术的应用：流程用软件工程，决策用机器学习，策略用强化学习。

商业意义：频繁但耗时的操作适合软件化，而高价值的策略需要强化学习的介入。

Markov Decision Processes (MDPs)

1. 内容概述：

强化学习问题通常可以表示为马尔科夫决策过程（Markov Decision Process, MDP）。

MDP 的核心特性是“马尔科夫性”：

• 当前状态St 的未来状态St+1 仅取决于当前状态，不依赖于历史状态。

智能体基于当前状态采取行动，从环境中获得奖励并更新状态。

马尔科夫性：未来状态与过去状态条件独立，仅依赖当前状态。

交互循环：状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。

Defining MDPs

1. 内容概述：

MDP 的正式定义包括以下组件：

状态集（States, S）：环境可能的状态集合。

初始状态（Start state, ）

动作集（Actions, A）：智能体可采取的动作集合。

状态转移函数（Transitions, 或）：描述从一个状态到另一个状态的概率。

奖励函数（Rewards, ）：每个状态转移的奖励值。

折扣因子（Discount factor, ）：用于计算未来奖励的现值。

2. 关键概念：

策略（Policy）：在每个状态下的动作选择规则。

回报（Utility/Return）：累计的折扣奖励值。

人工智能

机器学习（Machine Learning, ML）

深度学习（Deep Learning, DL）

机器学习的分类

半监督学习 (Semi-Supervised Learning)

自监督学习 (Self-Supervised Learning）

自监督学习案例 - 图像旋转

强化学习

监督学习的流程

强化学习的流程

强化学习 (Reinforcement Learning, RL) 的关键特性

智能体 (Agent)

强化学习概述

强化学习的应用案例

RL Problems Are Strategic

Markov Decision Processes (MDPs)

Defining MDPs

相关文章：