当前位置: 首页 > news >正文

人工智能 - 1

深度强化学习(Deep Reinforcement Learning)
图神经网络(Graph Neural Networks, GNNs)
Transformer    一种深度学习模型
大语言模型(Large Language Models, LLMs)


人工智能


    •    Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习(Machine Learning, ML)


    •    AI 的一个子集,利用数据训练模型,使系统无需显式编程即可完成任务。

 常见方法:
    •    监督学习:数据有明确的输入和输出。
    •    无监督学习:数据没有明确标签,模型寻找数据的隐藏模式。
    •    强化学习:通过奖励和惩罚学习动作。

深度学习(Deep Learning, DL)


    •    机器学习的一个子集,利用多层神经网络处理复杂任务。
    •    特点:需要大量数据和算力,能够自动提取特征。


机器学习的分类


    1.    监督学习(Supervised Learning):
    •    输入和输出数据均已知,模型根据输入数据预测输出标签。
    •    例子:图像分类、回归分析。

    2.    无监督学习(Unsupervised Learning):
    •    输入数据已知,但没有明确的输出标签,模型需要从数据中发现模式。
    •    例子:聚类、降维。

    3.    强化学习(Reinforcement Learning):
    •    系统与环境交互,通过获得奖励最大化长期收益。
    •    例子:游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)


    •    数据集中包含标注数据和未标注数据的混合。
    •    标注数据用于指导学习,未标注数据提供额外信息(如数据分布)。
    •    特点:
    •    减少标注需求,结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning)

  自监督是一种无监督学习的形式,数据为自身提供监督信号。
    •    从数据本身生成伪标签进行学习,无需人工标注。
    •    示例:让模型预测图片的旋转角度。

特点:
    •    用数据内在的关系生成学习目标。
    •    用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述:
    •    输入:一组随机旋转的图片(如 0°、90°、180°、270°)。
    •    模型任务:预测图片的旋转角度。


强化学习

定义:
    •    强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
    •    学习目标:选择能最大化长期奖励的动作。

关键点:
    1.    学习方式:基于试错法的交互学习。
    2.    目标导向:所有学习围绕奖励信号进行。
    3.    映射问题:学会将环境状态映射到合适的动作。


监督学习的流程

定义:
    •    监督学习通过已标注数据训练模型,将输入映射到输出。

流程:
    1.    输入:特征数据(如图片)。
    2.    输出:目标值(如“猫”或“狗”)。
    3.    误差:模型预测与目标值的差异。
    4.    优化:通过迭代训练最小化误差。

示例任务:
    •    图像分类(猫/狗)。
    •    房价预测。


强化学习的流程

流程:
    1.    输入:环境状态。
    2.    输出:动作(由智能体选择)。
    3.    奖励信号:根据动作结果提供反馈(奖励/惩罚)。
    4.    目标:通过试错最大化累积奖励。

特点:
    •    训练信息不直接是目标值,而是奖励。
    •    适用于动态、交互式任务。

目标:
    •    最大化奖励,学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性:
    1.    未明确告知动作:
    •    强化学习中的智能体(agent)需要自己探索,并未直接告知正确的行动。
    •    通过环境反馈学习如何选择合适的动作。


    2.    试错搜索 (Trial-and-Error Search):
    •    智能体尝试不同的动作并观察结果,通过试错法改进策略。


    3.    延迟奖励 (Delayed Reward):
    •    智能体可能需要牺牲短期利益以获得更大的长期收益。
    •    例如,棋局中的一步可能暂时失利,但对最终获胜至关重要。


    4.    探索与利用的平衡 (Explore and Exploit):
    •    探索:尝试新策略以发现潜在更优的解决方案。
    •    利用:利用现有知识采取已知最佳动作。


    5.    目标导向与不确定环境:
    •    强化学习处理智能体与动态、不确定环境的交互,设计目标明确。

监督学习:
    •    目标:学习条件概率  p_{\theta}(y|x) ,预测  y  给定输入  x 。
    •    应用:分类(如识别图像是否包含猫)、回归(如预测房价)。

无监督学习:
    •    目标:学习数据分布  p_{\theta}(x) 。
    •    应用:聚类、生成模型(如生成新图像)。

强化学习:
    •    目标:学习策略  \pi_{\theta}(a|s) ,即给定状态  s  时选择的动作  a 。
    •    应用:控制系统(如机器人运动控制)。


智能体 (Agent)


    •    在强化学习中,智能体是执行动作并从环境中学习的主体。
    •    智能体通过感知环境状态、采取动作来影响环境。

特性:
    1.    时间相关性:决策依赖于时间序列中的状态。
    2.    持续学习与规划:智能体根据经验调整策略。
    3.    目标:通过行动影响环境,达到预定目标。
    4.    环境不确定性:环境可能具有随机性,智能体需要应对。

循环过程:
    1.    智能体感知环境状态。
    2.    根据策略选择动作。
    3.    环境反馈新状态和奖励。


强化学习概述

 任务(Task):强化学习的目标是通过与环境交互,学习如何成功地达到某个目标

 特点

• 通过经验学习(Learn via experiences)。

• 不像监督学习那样有明确的标签,而是通过试错探索策略。

示例

游戏:玩家知道自己赢了还是输了,但不知道下一步该怎么走。

控制:例如交通系统能测量车流延迟,但不知道如何减少拥堵。

强化学习的应用案例

1. 空间探索(Optimal Control):控制卫星运行轨迹。

2. 机器人(Robotics):机器人学习翻转煎饼等操作。

3. 迷宫与路径规划(Maze & Sokoban Puzzle)

 通过强化学习训练智能体在复杂环境中找到最优路径。

4. Sokoban(仓库推箱子):经典的强化学习任务,智能体需要规划动作把箱子推到正确位置。

5. 群体智能(Multi-Agent Systems)

躲猫猫(Hide and Seek):智能体学习不同的策略,如追逐、筑墙、利用坡道等,模拟多智能体博弈。

以下是对您上传的三张图片中涉及知识点的总结和解释:

RL Problems Are Strategic

1. 内容概述:

强化学习(Reinforcement Learning, RL)能够实现战略层面的自动化。

 图片展示了现代商业的三个核心功能(业务函数):

策略(Strategy)

决策(Decision)

流程(Process)

• 不同功能的重要性(价值)和技术对应:

 流程自动化可以通过软件工程完成。

 决策自动化可以通过机器学习完成。

战略自动化可以通过强化学习完成。

• 价值金字塔表明:策略比决策和流程更高层次,同时对业务价值贡献更大。

2. 关键点:

业务功能的分层:策略 > 决策 > 流程。

自动化技术的应用:流程用软件工程,决策用机器学习,策略用强化学习。

 商业意义:频繁但耗时的操作适合软件化,而高价值的策略需要强化学习的介入。

Markov Decision Processes (MDPs)

1. 内容概述:

强化学习问题通常可以表示为马尔科夫决策过程(Markov Decision Process, MDP)。

MDP 的核心特性是“马尔科夫性”:

• 当前状态St 的未来状态St+1 仅取决于当前状态,不依赖于历史状态。

智能体基于当前状态采取行动,从环境中获得奖励并更新状态。

马尔科夫性:未来状态与过去状态条件独立,仅依赖当前状态。

交互循环:状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。

Defining MDPs

1. 内容概述:

 MDP 的正式定义包括以下组件:

 状态集(States, S):环境可能的状态集合。

 初始状态(Start state, 

 动作集(Actions, A):智能体可采取的动作集合。

 状态转移函数(Transitions, 或 :描述从一个状态到另一个状态的概率。

 奖励函数(Rewards, :每个状态转移的奖励值。

 折扣因子(Discount factor, :用于计算未来奖励的现值。

2. 关键概念:

 策略(Policy):在每个状态下的动作选择规则。

 回报(Utility/Return):累计的折扣奖励值。

 

相关文章:

人工智能 - 1

深度强化学习(Deep Reinforcement Learning) 图神经网络(Graph Neural Networks, GNNs) Transformer 一种深度学习模型 大语言模型(Large Language Models, LLMs) 人工智能 • Marvin Minsky 将其定义…...

小程序-基础加强-自定义组件

前言 这次讲自定义组件 1. 准备今天要用到的项目 2. 初步创建并使用自定义组件 这样就成功在home中引入了test组件 在json中引用了这个组件才能用这个组件 现在我们来实现全局引用组件 在app.json这样使用就可以了 3. 自定义组件的样式 发现页面里面的文本和组件里面的文…...

Kafka 压缩算法详细介绍

文章目录 一 、Kafka 压缩算法概述二、Kafka 压缩的作用2.1 降低网络带宽消耗2.2 提高 Kafka 生产者和消费者吞吐量2.3 减少 Kafka 磁盘存储占用2.4 减少 Kafka Broker 负载2.5 降低跨数据中心同步成本 三、Kafka 压缩的原理3.1 Kafka 压缩的基本原理3.2. Kafka 压缩的工作流程…...

单词翻转(信息学奥赛一本通1144)

题目来源 信息学奥赛一本通(C版)在线评测系统 题目描述 1144:单词翻转 时间限制: 1000 ms 内存限制: 65536 KB 提交数:60098 通过数: 26099 【题目描述】 输入一个句子(一行),将句子中的每一个单词翻转后输出。 【输入…...

DeepSeek 模型全览:探索不同类别的模型

DeepSeek 是近年来备受关注的 AI 研究团队,推出了一系列先进的深度学习模型,涵盖了大语言模型(LLM)、代码生成模型、多模态模型等多个领域。本文将大概介绍 DeepSeek 旗下的不同类别的模型,帮助你更好地理解它们的特点…...

我的2024年年度总结

序言 在前不久(应该是上周)的博客之星入围赛中铩羽而归了。虽然心中颇为不甘,觉得这一年兢兢业业,每天都在发文章,不应该是这样的结果(连前300名都进不了)。但人不能总抱怨,总要向前…...

DeepSeek回答人不会干出超出视角之外的事

我本身是有着深度思考习惯的重度患者,当我遇到一个AI会深度思考的时候,我觉得找到了一个同类,是不是可以学习周伯通的左右手互博大法?下面我们拿着我的一点思考,让DeepSeek来再深度思考挖掘。 人不会干出超出视角之外的…...

前端知识速记—JS篇:null 与 undefined

前端知识速记—JS篇:null 与 undefined 什么是 null 和 undefined? 1. undefined 的含义 undefined 是 JavaScript 中默认的值,表示某个变量已被声明但尚未被赋值。当尝试访问一个未初始化的变量、函数没有返回值时,都会得到 u…...

Hive:静态分区(分区语法,多级分区,分区的查看修改增加删除)

hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询率。 oracle和Hive分区的区别 orcale在…...

升级到Mac15.1后pod install报错

升级Mac后,Flutter项目里的ios项目运行 pod install报错, 遇到这种问题,不要着急去百度,大概看一下报错信息,每个人遇到的问题都不一样。 别人的解决方法并不一定适合你; 下面是报错信息: #…...

智慧园区管理系统为企业提供高效运作与风险控制的智能化解决方案

内容概要 快鲸智慧园区管理系统,作为一款备受欢迎的智能化管理解决方案,致力于为企业提供高效的运作效率与风险控制优化。具体来说,这套系统非常适用于工业园、产业园、物流园、写字楼及公寓等多种园区和商办场所。它通过数字化与智能化的手…...

JxBrowser 8.2.2 版本发布啦!

JxBrowser 8.2.2 版本发布啦! • 已更新 #Chromium 至更新版本 • 实施了多项质量改进 🔗 点击此处了解更多详情。 🆓 获取 30 天免费试用。...

LangChain的开发流程

文章目录 LangChain的开发流程开发密钥指南3种使用密钥的方法编写一个取名程序 LangChain表达式 LangChain的开发流程 为了更深人地理解LangChain的开发流程,本文将以构建聊天机器人为实际案例进行详细演示。下图展示了一个设计聊天机器人的LLM应用程序。 除了Wb服务…...

AI在自动化测试中的伦理挑战

在软件测试领域,人工智能(AI)已经不再是遥不可及的未来技术,而是正在深刻影响着测试过程的现实力量。尤其是在自动化测试领域,AI通过加速测试脚本生成、自动化缺陷检测、测试数据生成等功能,极大提升了测试…...

《Origin画百图》之同心环图

《Origin画百图》第四集——同心环图 入门操作可查看合集中的《30秒,带你入门Origin》 具体操作: 1.数据准备:需要X和Y两列数据 2. 选择菜单 绘图 > 条形图,饼图,面积图: 同心圆弧图 3. 这是绘制的基础图形&…...

TPA注意力机制详解及代码复现

基本原理 在深入探讨TPA注意力机制的数学表达之前,我们需要先理解其基本原理。TPA注意力机制是一种创新的注意力机制,旨在解决传统注意力机制在处理大规模数据时面临的内存和计算效率问题。 TPA注意力机制的核心思想是利用 张量分解 来压缩注意力机制中的Q、K、V表示,同时…...

深入理解Java并发编程中的原子操作、volatile关键字与读写锁

1. 原子操作与AtomicInteger等原子类 1.1 原子操作的原理 在多线程环境中,多个线程可能会同时访问和修改共享资源。如果这些操作不是原子性的(即可以被中断),那么可能会导致数据不一致或竞态条件(race condition)。原子操作是指不可分割的操作,即在多线程环境下,这些…...

HTML(快速入门)

欢迎大家来到我的博客~欢迎大家对我的博客提出指导,有错误的地方会改进的哦~点击这里了解更多内容 目录 一、前言二、HTML基础2.1 什么是HTML?2.2 认识HTML标签2.2.1 HTML标签当中的基本结构2.2.2 标签层次结构 2.3 HTML常见标签2.3.1 标题标签2.3.2 段落标签2.3.3…...

SpringBoot Web开发(SpringMVC)

SpringBoot Web开发(SpringMVC) MVC 核心组件和调用流程 Spring MVC与许多其他Web框架一样,是围绕前端控制器模式设计的,其中中央 Servlet DispatcherServlet 做整体请求处理调度! . 除了DispatcherServletSpringMVC还会提供其他…...

汽车蓝牙钥匙定位仿真小程序

此需求来自于粉丝的真实需求,假期没事,牛刀小试。 一、项目背景 如今,智能车钥匙和移动端定位技术已经相当普及。为了探索蓝牙 Beacon 在短距离定位场景下的可行性,我们搭建了一个简易原型:利用 UniApp 在移动端采集蓝牙信标的 RSSI(信号强度),通过三边定位算法估算钥…...

接口测试中缓存处理策略

在接口测试中,缓存处理策略是一个关键环节,直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性,避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明: 一、缓存处理的核…...

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括:采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中,设置任务排序规则尤其重要,因为它让看板视觉上直观地体…...

转转集团旗下首家二手多品类循环仓店“超级转转”开业

6月9日,国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解,“超级…...

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...

sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...

基于Java Swing的电子通讯录设计与实现:附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘 一、系统概述 本电子通讯录系统采用Java Swing开发桌面应用,结合SQLite数据库实现联系人管理功能,并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能,同时可以最小化到系统…...

LangChain知识库管理后端接口:数据库操作详解—— 构建本地知识库系统的基础《二》

这段 Python 代码是一个完整的 知识库数据库操作模块,用于对本地知识库系统中的知识库进行增删改查(CRUD)操作。它基于 SQLAlchemy ORM 框架 和一个自定义的装饰器 with_session 实现数据库会话管理。 📘 一、整体功能概述 该模块…...

解析奥地利 XARION激光超声检测系统:无膜光学麦克风 + 无耦合剂的技术协同优势及多元应用

在工业制造领域,无损检测(NDT)的精度与效率直接影响产品质量与生产安全。奥地利 XARION开发的激光超声精密检测系统,以非接触式光学麦克风技术为核心,打破传统检测瓶颈,为半导体、航空航天、汽车制造等行业提供了高灵敏…...

HTML前端开发:JavaScript 获取元素方法详解

作为前端开发者,高效获取 DOM 元素是必备技能。以下是 JS 中核心的获取元素方法,分为两大系列: 一、getElementBy... 系列 传统方法,直接通过 DOM 接口访问,返回动态集合(元素变化会实时更新)。…...

redis和redission的区别

Redis 和 Redisson 是两个密切相关但又本质不同的技术,它们扮演着完全不同的角色: Redis: 内存数据库/数据结构存储 本质: 它是一个开源的、高性能的、基于内存的 键值存储数据库。它也可以将数据持久化到磁盘。 核心功能: 提供丰…...