当前位置: 首页 > news >正文

人工智能 - 1

深度强化学习(Deep Reinforcement Learning)
图神经网络(Graph Neural Networks, GNNs)
Transformer    一种深度学习模型
大语言模型(Large Language Models, LLMs)


人工智能


    •    Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习(Machine Learning, ML)


    •    AI 的一个子集,利用数据训练模型,使系统无需显式编程即可完成任务。

 常见方法:
    •    监督学习:数据有明确的输入和输出。
    •    无监督学习:数据没有明确标签,模型寻找数据的隐藏模式。
    •    强化学习:通过奖励和惩罚学习动作。

深度学习(Deep Learning, DL)


    •    机器学习的一个子集,利用多层神经网络处理复杂任务。
    •    特点:需要大量数据和算力,能够自动提取特征。


机器学习的分类


    1.    监督学习(Supervised Learning):
    •    输入和输出数据均已知,模型根据输入数据预测输出标签。
    •    例子:图像分类、回归分析。

    2.    无监督学习(Unsupervised Learning):
    •    输入数据已知,但没有明确的输出标签,模型需要从数据中发现模式。
    •    例子:聚类、降维。

    3.    强化学习(Reinforcement Learning):
    •    系统与环境交互,通过获得奖励最大化长期收益。
    •    例子:游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)


    •    数据集中包含标注数据和未标注数据的混合。
    •    标注数据用于指导学习,未标注数据提供额外信息(如数据分布)。
    •    特点:
    •    减少标注需求,结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning)

  自监督是一种无监督学习的形式,数据为自身提供监督信号。
    •    从数据本身生成伪标签进行学习,无需人工标注。
    •    示例:让模型预测图片的旋转角度。

特点:
    •    用数据内在的关系生成学习目标。
    •    用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述:
    •    输入:一组随机旋转的图片(如 0°、90°、180°、270°)。
    •    模型任务:预测图片的旋转角度。


强化学习

定义:
    •    强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
    •    学习目标:选择能最大化长期奖励的动作。

关键点:
    1.    学习方式:基于试错法的交互学习。
    2.    目标导向:所有学习围绕奖励信号进行。
    3.    映射问题:学会将环境状态映射到合适的动作。


监督学习的流程

定义:
    •    监督学习通过已标注数据训练模型,将输入映射到输出。

流程:
    1.    输入:特征数据(如图片)。
    2.    输出:目标值(如“猫”或“狗”)。
    3.    误差:模型预测与目标值的差异。
    4.    优化:通过迭代训练最小化误差。

示例任务:
    •    图像分类(猫/狗)。
    •    房价预测。


强化学习的流程

流程:
    1.    输入:环境状态。
    2.    输出:动作(由智能体选择)。
    3.    奖励信号:根据动作结果提供反馈(奖励/惩罚)。
    4.    目标:通过试错最大化累积奖励。

特点:
    •    训练信息不直接是目标值,而是奖励。
    •    适用于动态、交互式任务。

目标:
    •    最大化奖励,学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性:
    1.    未明确告知动作:
    •    强化学习中的智能体(agent)需要自己探索,并未直接告知正确的行动。
    •    通过环境反馈学习如何选择合适的动作。


    2.    试错搜索 (Trial-and-Error Search):
    •    智能体尝试不同的动作并观察结果,通过试错法改进策略。


    3.    延迟奖励 (Delayed Reward):
    •    智能体可能需要牺牲短期利益以获得更大的长期收益。
    •    例如,棋局中的一步可能暂时失利,但对最终获胜至关重要。


    4.    探索与利用的平衡 (Explore and Exploit):
    •    探索:尝试新策略以发现潜在更优的解决方案。
    •    利用:利用现有知识采取已知最佳动作。


    5.    目标导向与不确定环境:
    •    强化学习处理智能体与动态、不确定环境的交互,设计目标明确。

监督学习:
    •    目标:学习条件概率  p_{\theta}(y|x) ,预测  y  给定输入  x 。
    •    应用:分类(如识别图像是否包含猫)、回归(如预测房价)。

无监督学习:
    •    目标:学习数据分布  p_{\theta}(x) 。
    •    应用:聚类、生成模型(如生成新图像)。

强化学习:
    •    目标:学习策略  \pi_{\theta}(a|s) ,即给定状态  s  时选择的动作  a 。
    •    应用:控制系统(如机器人运动控制)。


智能体 (Agent)


    •    在强化学习中,智能体是执行动作并从环境中学习的主体。
    •    智能体通过感知环境状态、采取动作来影响环境。

特性:
    1.    时间相关性:决策依赖于时间序列中的状态。
    2.    持续学习与规划:智能体根据经验调整策略。
    3.    目标:通过行动影响环境,达到预定目标。
    4.    环境不确定性:环境可能具有随机性,智能体需要应对。

循环过程:
    1.    智能体感知环境状态。
    2.    根据策略选择动作。
    3.    环境反馈新状态和奖励。


强化学习概述

 任务(Task):强化学习的目标是通过与环境交互,学习如何成功地达到某个目标

 特点

• 通过经验学习(Learn via experiences)。

• 不像监督学习那样有明确的标签,而是通过试错探索策略。

示例

游戏:玩家知道自己赢了还是输了,但不知道下一步该怎么走。

控制:例如交通系统能测量车流延迟,但不知道如何减少拥堵。

强化学习的应用案例

1. 空间探索(Optimal Control):控制卫星运行轨迹。

2. 机器人(Robotics):机器人学习翻转煎饼等操作。

3. 迷宫与路径规划(Maze & Sokoban Puzzle)

 通过强化学习训练智能体在复杂环境中找到最优路径。

4. Sokoban(仓库推箱子):经典的强化学习任务,智能体需要规划动作把箱子推到正确位置。

5. 群体智能(Multi-Agent Systems)

躲猫猫(Hide and Seek):智能体学习不同的策略,如追逐、筑墙、利用坡道等,模拟多智能体博弈。

以下是对您上传的三张图片中涉及知识点的总结和解释:

RL Problems Are Strategic

1. 内容概述:

强化学习(Reinforcement Learning, RL)能够实现战略层面的自动化。

 图片展示了现代商业的三个核心功能(业务函数):

策略(Strategy)

决策(Decision)

流程(Process)

• 不同功能的重要性(价值)和技术对应:

 流程自动化可以通过软件工程完成。

 决策自动化可以通过机器学习完成。

战略自动化可以通过强化学习完成。

• 价值金字塔表明:策略比决策和流程更高层次,同时对业务价值贡献更大。

2. 关键点:

业务功能的分层:策略 > 决策 > 流程。

自动化技术的应用:流程用软件工程,决策用机器学习,策略用强化学习。

 商业意义:频繁但耗时的操作适合软件化,而高价值的策略需要强化学习的介入。

Markov Decision Processes (MDPs)

1. 内容概述:

强化学习问题通常可以表示为马尔科夫决策过程(Markov Decision Process, MDP)。

MDP 的核心特性是“马尔科夫性”:

• 当前状态St 的未来状态St+1 仅取决于当前状态,不依赖于历史状态。

智能体基于当前状态采取行动,从环境中获得奖励并更新状态。

马尔科夫性:未来状态与过去状态条件独立,仅依赖当前状态。

交互循环:状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。

Defining MDPs

1. 内容概述:

 MDP 的正式定义包括以下组件:

 状态集(States, S):环境可能的状态集合。

 初始状态(Start state, 

 动作集(Actions, A):智能体可采取的动作集合。

 状态转移函数(Transitions, 或 :描述从一个状态到另一个状态的概率。

 奖励函数(Rewards, :每个状态转移的奖励值。

 折扣因子(Discount factor, :用于计算未来奖励的现值。

2. 关键概念:

 策略(Policy):在每个状态下的动作选择规则。

 回报(Utility/Return):累计的折扣奖励值。

 

相关文章:

人工智能 - 1

深度强化学习(Deep Reinforcement Learning) 图神经网络(Graph Neural Networks, GNNs) Transformer 一种深度学习模型 大语言模型(Large Language Models, LLMs) 人工智能 • Marvin Minsky 将其定义…...

小程序-基础加强-自定义组件

前言 这次讲自定义组件 1. 准备今天要用到的项目 2. 初步创建并使用自定义组件 这样就成功在home中引入了test组件 在json中引用了这个组件才能用这个组件 现在我们来实现全局引用组件 在app.json这样使用就可以了 3. 自定义组件的样式 发现页面里面的文本和组件里面的文…...

Kafka 压缩算法详细介绍

文章目录 一 、Kafka 压缩算法概述二、Kafka 压缩的作用2.1 降低网络带宽消耗2.2 提高 Kafka 生产者和消费者吞吐量2.3 减少 Kafka 磁盘存储占用2.4 减少 Kafka Broker 负载2.5 降低跨数据中心同步成本 三、Kafka 压缩的原理3.1 Kafka 压缩的基本原理3.2. Kafka 压缩的工作流程…...

单词翻转(信息学奥赛一本通1144)

题目来源 信息学奥赛一本通(C版)在线评测系统 题目描述 1144:单词翻转 时间限制: 1000 ms 内存限制: 65536 KB 提交数:60098 通过数: 26099 【题目描述】 输入一个句子(一行),将句子中的每一个单词翻转后输出。 【输入…...

DeepSeek 模型全览:探索不同类别的模型

DeepSeek 是近年来备受关注的 AI 研究团队,推出了一系列先进的深度学习模型,涵盖了大语言模型(LLM)、代码生成模型、多模态模型等多个领域。本文将大概介绍 DeepSeek 旗下的不同类别的模型,帮助你更好地理解它们的特点…...

我的2024年年度总结

序言 在前不久(应该是上周)的博客之星入围赛中铩羽而归了。虽然心中颇为不甘,觉得这一年兢兢业业,每天都在发文章,不应该是这样的结果(连前300名都进不了)。但人不能总抱怨,总要向前…...

DeepSeek回答人不会干出超出视角之外的事

我本身是有着深度思考习惯的重度患者,当我遇到一个AI会深度思考的时候,我觉得找到了一个同类,是不是可以学习周伯通的左右手互博大法?下面我们拿着我的一点思考,让DeepSeek来再深度思考挖掘。 人不会干出超出视角之外的…...

前端知识速记—JS篇:null 与 undefined

前端知识速记—JS篇:null 与 undefined 什么是 null 和 undefined? 1. undefined 的含义 undefined 是 JavaScript 中默认的值,表示某个变量已被声明但尚未被赋值。当尝试访问一个未初始化的变量、函数没有返回值时,都会得到 u…...

Hive:静态分区(分区语法,多级分区,分区的查看修改增加删除)

hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询率。 oracle和Hive分区的区别 orcale在…...

升级到Mac15.1后pod install报错

升级Mac后,Flutter项目里的ios项目运行 pod install报错, 遇到这种问题,不要着急去百度,大概看一下报错信息,每个人遇到的问题都不一样。 别人的解决方法并不一定适合你; 下面是报错信息: #…...

智慧园区管理系统为企业提供高效运作与风险控制的智能化解决方案

内容概要 快鲸智慧园区管理系统,作为一款备受欢迎的智能化管理解决方案,致力于为企业提供高效的运作效率与风险控制优化。具体来说,这套系统非常适用于工业园、产业园、物流园、写字楼及公寓等多种园区和商办场所。它通过数字化与智能化的手…...

JxBrowser 8.2.2 版本发布啦!

JxBrowser 8.2.2 版本发布啦! • 已更新 #Chromium 至更新版本 • 实施了多项质量改进 🔗 点击此处了解更多详情。 🆓 获取 30 天免费试用。...

LangChain的开发流程

文章目录 LangChain的开发流程开发密钥指南3种使用密钥的方法编写一个取名程序 LangChain表达式 LangChain的开发流程 为了更深人地理解LangChain的开发流程,本文将以构建聊天机器人为实际案例进行详细演示。下图展示了一个设计聊天机器人的LLM应用程序。 除了Wb服务…...

AI在自动化测试中的伦理挑战

在软件测试领域,人工智能(AI)已经不再是遥不可及的未来技术,而是正在深刻影响着测试过程的现实力量。尤其是在自动化测试领域,AI通过加速测试脚本生成、自动化缺陷检测、测试数据生成等功能,极大提升了测试…...

《Origin画百图》之同心环图

《Origin画百图》第四集——同心环图 入门操作可查看合集中的《30秒,带你入门Origin》 具体操作: 1.数据准备:需要X和Y两列数据 2. 选择菜单 绘图 > 条形图,饼图,面积图: 同心圆弧图 3. 这是绘制的基础图形&…...

TPA注意力机制详解及代码复现

基本原理 在深入探讨TPA注意力机制的数学表达之前,我们需要先理解其基本原理。TPA注意力机制是一种创新的注意力机制,旨在解决传统注意力机制在处理大规模数据时面临的内存和计算效率问题。 TPA注意力机制的核心思想是利用 张量分解 来压缩注意力机制中的Q、K、V表示,同时…...

深入理解Java并发编程中的原子操作、volatile关键字与读写锁

1. 原子操作与AtomicInteger等原子类 1.1 原子操作的原理 在多线程环境中,多个线程可能会同时访问和修改共享资源。如果这些操作不是原子性的(即可以被中断),那么可能会导致数据不一致或竞态条件(race condition)。原子操作是指不可分割的操作,即在多线程环境下,这些…...

HTML(快速入门)

欢迎大家来到我的博客~欢迎大家对我的博客提出指导,有错误的地方会改进的哦~点击这里了解更多内容 目录 一、前言二、HTML基础2.1 什么是HTML?2.2 认识HTML标签2.2.1 HTML标签当中的基本结构2.2.2 标签层次结构 2.3 HTML常见标签2.3.1 标题标签2.3.2 段落标签2.3.3…...

SpringBoot Web开发(SpringMVC)

SpringBoot Web开发(SpringMVC) MVC 核心组件和调用流程 Spring MVC与许多其他Web框架一样,是围绕前端控制器模式设计的,其中中央 Servlet DispatcherServlet 做整体请求处理调度! . 除了DispatcherServletSpringMVC还会提供其他…...

汽车蓝牙钥匙定位仿真小程序

此需求来自于粉丝的真实需求,假期没事,牛刀小试。 一、项目背景 如今,智能车钥匙和移动端定位技术已经相当普及。为了探索蓝牙 Beacon 在短距离定位场景下的可行性,我们搭建了一个简易原型:利用 UniApp 在移动端采集蓝牙信标的 RSSI(信号强度),通过三边定位算法估算钥…...

React Native 导航系统实战(React Navigation)

导航系统实战(React Navigation) React Navigation 是 React Native 应用中最常用的导航库之一,它提供了多种导航模式,如堆栈导航(Stack Navigator)、标签导航(Tab Navigator)和抽屉…...

VB.net复制Ntag213卡写入UID

本示例使用的发卡器:https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)

文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

测试markdown--肇兴

day1: 1、去程:7:04 --11:32高铁 高铁右转上售票大厅2楼,穿过候车厅下一楼,上大巴车 ¥10/人 **2、到达:**12点多到达寨子,买门票,美团/抖音:¥78人 3、中饭&a…...

[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)

Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...

Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)

引言 工欲善其事,必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后,我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集,就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...

c# 局部函数 定义、功能与示例

C# 局部函数:定义、功能与示例 1. 定义与功能 局部函数(Local Function)是嵌套在另一个方法内部的私有方法,仅在包含它的方法内可见。 • 作用:封装仅用于当前方法的逻辑,避免污染类作用域,提升…...

面试高频问题

文章目录 🚀 消息队列核心技术揭秘:从入门到秒杀面试官1️⃣ Kafka为何能"吞云吐雾"?性能背后的秘密1.1 顺序写入与零拷贝:性能的双引擎1.2 分区并行:数据的"八车道高速公路"1.3 页缓存与批量处理…...

el-amap-bezier-curve运用及线弧度设置

文章目录 简介示例线弧度属性主要弧度相关属性其他相关样式属性完整示例链接简介 ‌el-amap-bezier-curve 是 Vue-Amap 组件库中的一个组件,用于在 高德地图 上绘制贝塞尔曲线。‌ 基本用法属性path定义曲线的路径,可以是多个弧线段的组合。stroke-weight线条的宽度。stroke…...