当前位置: 首页 > news >正文

弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)

在这里插入图片描述

文章目录

  • 一、摘要
  • 二、简介
  • 三、相关工作
    • 3.1 基于概念的解释
    • 3.2 强化学习中生成解释
    • 3.3 国际象棋与人工智能
  • 四、什么是概念?
  • 五、发掘概念
    • 5.1 挖掘概念向量
      • 5.1.1 静态概念的概念约束
      • 5.1.2 动态概念的概念约束
    • 5.2 过滤概念

一、摘要

   人工智能(AI)系统取得了显着进步,达到了超人类的水平跨不同领域的表现。这为我们提供了一个机会,通过利用这些高性能人工智能系统中编码的隐藏知识来进一步加深人类知识并提高人类专家的表现。然而,这些知识通常很难提取,也可能很难理解或学习。在这里,我们通过提出一种新方法来证明这是可能的,该方法允许我们在 AlphaZero 中提取新的国际象棋概念,AlphaZero 是一个人工智能系统,可以在没有人类监督的情况下通过自我对弈掌握国际象棋游戏。我们的分析表明,AlphaZero 可能编码超出人类现有知识的知识,但最终不会超出人类掌握的范围,并且可以成功地从中学习。在一项人类研究中,我们表明顶级人类专家可以学习这些概念,因为四位顶级国际象棋大师在解决所提出的概念原型位置方面表现出了改进。这标志着通过利用技术推进人类知识前沿的重要的第一个里程碑人工智能;这一发展可能会产生深远的影响,并帮助我们塑造在许多人工智能应用程序中与人工智能系统交互的方式。

二、简介

   人工智能 (AI) 系统通常被视为解决问题的机器;它们可以完成人类已经能够完成的工作,但效率更高、工作量更少,这在多个领域带来了明显的好处。在本文中,我们追求一个不同的目标:将人工智能系统视为学习机器,并要求它们教会我们其决策背后的基本原则,以扩展和补充我们的知识。我们可以想象向机器学习的许多好处。例如,虽然能够比人类专家提供更准确的癌症诊断或有效的个性化治疗的系统很有用,但将其决策背后的基本原理转移给人类医生不仅可以带来医学进步,还可以利用人类医生的实力和泛化能力以实现新的突破。在人工智能系统的能力达到或超过人类专家(超人类人工智能系统)的各个领域,存在着巨大的未开发机会。这项工作是开发工具和方法的第一步,这些工具和方法使我们能够发现高性能人工智能系统中隐藏的知识,并通过帮助人类专家进一步提高技能和理解来增强他们的能力。
   人工智能系统的超人类能力可能以几种不同的方式出现:机器的纯粹计算能力、对现有知识的新推理方式或我们尚不具备的超人类知识。这项工作主要针对最后两种情况。为了简单起见,我们从现在开始将两者都称为超人类知识。从研究的角度来看,这意味着什么?人类表征空间 (H)与机器表征空间 (M) 有一些重叠(见图 1 (Kim, 2022))。表征空间构成了知识和能力的基础,并产生了我们最终感兴趣的知识和能力。因此,我们可以互换地使用表征空间和知识——粗略地说,H代表人类知道的东西,M代表机器知道的东西。
   有些事情是人工智能和人类都知道的 (M ∩ H),有些事情只有人类知道 (H −M),有些事情只有机器知道 (M −H)。大多数现有的研究工作只关注(M∩H),例如,可解释性试图将M硬塞进(M∩H),但取得的成功有限(Adebayo等人,2018;聂等人,2018; Bilodeau 等人,2022)。我们相信,(M − H) 所代表的知识差距是通过识别高性能人工智能系统中的新概念和现有概念之间的新联系来赋予人类权力的关键。我们已经有证据表明,某些人工智能世代用最初难以理解的想法吸引了人类的想象力。人工智能历史上的一个突出例子是 AlphaGo 在与李世石的比赛中下的第 37 步棋。这一举动让评论员和玩家感到完全惊讶,并且至今仍被作为机器独特知识的一个例子进行讨论。追求超人类知识的愿景最终是为了实现以人为中心的人工智能,以及一个人类主体和能力不屈居第二的世界。然而,问题是——这可能吗?

在这里插入图片描述
   这项工作是发现超人类知识和 (M −H) 中现有知识的新联系的第一步。我们专注于一个几十年来一直激励着人工智能从业者、几个世纪以来一直吸引着人类想象力的领域:国际象棋游戏。国际象棋是验证集合 (M − H) 的存在性和有用性的绝佳场所,原因有很多:国际象棋知识已经发展了很长一段时间,并且与其他领域的前沿相比,基本事实更容易验证,例如科学或医学。我们还对人类专家和机器的游戏质量进行定量衡量,称为 Elo 评级(维基百科贡献者,2023a)。

   自从深蓝与加里·卡斯帕罗夫的比赛以来,国际象棋引擎长期以来一直保持着超人水平。虽然早期的引擎是基于人类知识的,但 AlphaZero(Silver 等人,2017)(AZ)的出现表明,自学的深度学习模型可以在没有任何人类知识的情况下实现超人的国际象棋能力。然而,作为人类,我们还无法充分利用他们的知识。通过对 AZ 比赛的分析,人类手动提取了模式,例如其在侧翼使用 a4 或 h4 等动作的倾向(Sadler 和 Regan,2019)。然而,这仍然通过 H 的视角来分析 M,这种偏差限制了我们从 M ∩ H 中可以找到的东西。在这项工作中,我们的目标是通过促进向他人学习来迈出改变这一现状的第一步。AZ (M − H) 集合中的超人类知识。我们假设 (M − H) 存在,并且可以教给人类。

   我们通过证明我们可以向四位人类顶级大师、世界上最好的国际象棋棋手教授新的国际象棋概念来验证我们的假设。此外,由于他们不可否认的实力和天赋,(M-H)可能落入维果茨基教育理论中的“最近发展区”:
“学习者在没有帮助的情况下可以做的事情与学习者在成人指导下或与更有能力的同伴合作可以做的事情之间的差距”。虽然沟通(M – H)可能需要新的语言(Kim,2022),但我们在这项工作中通过利用国际象棋冠军连接点并从国际象棋位置中出现的模式进行概括的能力来绕过这一需求。
通过分析 AZ 和人类游戏的潜在表示的跨度维度,我们找到了表明 (M − H) 存在的证据 (§4.2.2)。接下来,我们开发一个新的框架来搜索(M − H)中的概念,即挖掘 AZ 的超人类知识。在我们的框架中,我们:

•    开发一种在潜在空间中寻找无监督概念的新方法。通过使用
我们的方法发现完整的 AZ 机制,包括策略价值网络和 MCTS 树
激发国际象棋中一系列行动的动态概念。我们证明我们的方法可以以数据有效的方式找到概念的向量表示(第 4.1 节)。
•    确保概念新颖。通过谱分析,我们的框架仅选择包含 AZ 游戏与人类游戏相比向量空间特有信息的概念。1
•    确保概念是可教授的。我们开发了一种新的指标,用于评估概念是否可以教给另一个事先不了解该概念的 AI 代理(第 4.2.1 节)。通过这个指标,我们根据概念的信息量来选择概念(即对下游任务中的人工智能代理有用)。
•    通过图形分析深入了解新概念的含义,以揭示新概念与人类标记概念的关系。
在 (M − H) 中找到这些概念后,我们分析是否可以扩展人类表征空间 (H) 以包含这些新概念 (§6)。我们与四位世界顶级国际象棋特级大师和前世界冠军合作,通过学习典型例子来测试他们是否能够学习和应用这些概念。图 2 显示了概念原型的示例。在这里,大多数棋手会继续使用Rxh5在王边下棋。然而,AZ 找到了保持优势的唯一计划:Qc1,其想法是将棋子重新移动到后侧。图 2:概念原型示例。大多数棋手会选择 Rxh5,然而,AZ 下的是 Qc1,其想法是将棋子重新组合到后侧。更多详细信息请参见第 8.1 节。
在这里插入图片描述
Part of AZ’s MCTS calculations: 37.Qc1 Kg7 (37…Rb5 38.a4 Rb4 39.Ka2; 37…Qe5
38.Qc4 Be6 39.Nxe6+ fxe6 40.Qxc6) 38.Re1 Qe5 39.Rc2 Rb4 40.Ba4 Qd6 41.a3 Rd4 42.e5 Qd5 43.Bxc6 Qxc6 44.Nb3 White is better

   我们的研究结果表明,与观察 AZ 的动作之前的表现相比,特级大师找到与 AZ 的选择一致的基于概念的动作的能力有所提高。此外,他们的定性反馈表明了对 AZ 计划的理解和赞赏。发现的概念通常以偏离人类传统国际象棋原理的方式结合和应用国际象棋概念。我们推测,人类和 AZ 玩法的差异可能源于他们在位置概念关系建立方式上的差异。虽然人类对哪些概念可能与特定的国际象棋位置相关存在先验偏见,但 AZ 已经形成了自己对概念和国际象棋位置的不受限制的理解,从而使其策略具有灵活性和创造力。
   我们的论文结构如下。首先,我们在§2中总结了相关工作。接下来,我们在第 3 节中讨论概念的定义以及如何实施它。我们在第 4.1 节中介绍了查找概念并在第 4.2 节中过滤概念的方法,以确保概念信息丰富、可传授且新颖。
   我们在第 5 节中展示了我们的方法在监督概念上的有效性和性能。最后,在第 6 节中,我们列出了人体实验方案和结果,并展示了我们的框架如何能够弥合 (M – H) 差距。我们在第 7 节中总结了我们的主要发现,并讨论了局限性和未来的工作。

三、相关工作

   在这里,我们回顾了概念发现、强化学习系统的可解释性以及人工智能与国际象棋的交叉方面的相关先前工作。

3.1 基于概念的解释

   与传统的特征或以数据为中心的可解释性方法相比(Ribeiro et al., 2016;伦德伯格和李,2017; Sundararajan 等人,2017; Koh 和Liang,2017),基于概念的方法使用高级抽象、概念,目的是提供模型解释来为人类从业者提供信息(Bau 等人,2017 年;Kim 等人,2018 年;Alvarez-Melis 和 Jaakkola) ,2018;Koh 等人,2020;白等人,2022;阿奇蒂巴特等人,2022; Crabb´e 和 van der Schaar,2022)。这些类型的解释被证明在科学和生物医学领域很有用(Graziani et al., 2018; Sprague et al., 2019; Clough et al., 2019; Bouchacourt and Denoyer, 2019; Yeche et al., 2019; Sreedharan等人,2020a;Schwalbe 和 Schels,2020;Mincu 等人,2021;Jia 等人,2022),其中专家的概念与个人的低级特征高度相关。
   与本文提出的工作更一致的是,基于概念的解释方法已经在棋盘游戏代理中进行了研究,包括 Hex(Forde 等人,2022)和 Go(Tomlin 等人,2022)。建立概念和预测之间的因果关系并非易事,也是一个正在进行的研究主题(Goyal 等人,2019;Bahadori 和 Heckerman,2020;Wu 等人,2023)。

   研究了基于概念的监督方法的缺点。当利用一组概念范例(探测数据集)时,Ramaswamy 等人。 (2023)表明不同的探测数据集可能会导致不一致的结论。此外,他们还表明,探测数据集中的概念数量超过了人类使用的概念数量。线性假设有其局限性(Chen 等人,2020;Soni 等人,2020),并且该概念的矢量与人类心智模型之间的忠实一致性在 Mahinpei 等人中受到了挑战。 (2021)。
   还研究了超越监督概念和探测数据集的方法(Yeh 等人,2020 年;Ghorbani 等人,2019 年;Ghandeharioun 等人,2021 年),以发现模型所代表的概念,而不仅限于人类标记的概念。该概念是使用训练数据示例(Yeh 等人,2020;Ghorbani 等人,2019)或通过生成新数据(Ghandeharioun 等人,2021)来表达的。这项工作属于发现概念的方法,但其不同的目标是发现和教导人类新概念,而不是寻找现有的人类概念。

3.2 强化学习中生成解释

   在强化学习 (RL) 方法中生成解释(Alharin 等人,2020;Heuillet 等人,2020;Glanois 等人,2021;Krajna 等人,2022;Vouros,2022;Milani 等人,2022;Dazeley等人,2023;Omidshafiei 等人,2022;Das 等人,2023)特别令人感兴趣,因为这些方法越来越多地部署在现实世界的应用中,并且与更传统的监督学习环境相比,解释要求有所不同。这是由于状态、动作和后续状态之间的时间依赖性,其中代理的历史、当前和未来状态动作序列可能与某些长期目标相关(Dazeley et al., 2023)。强化学习中的可解释性方法可以帮助识别与训练数据过度拟合、分布不均相关的代理问题
性能(Annasamy 和 Sycara,2019)和智能体间动态(Omidshafiei 等,2022)。

   一些工作的重点是在表示学习中设计更具可解释性的模型架构和训练过程(Raffin et al., 2019, 2018; Lesort et al., 2019; Traor´e et al., 2019; Doncieux et al., 2020, 2018 )以及符号和关系方法(Sreedharan 等人,2020b;Garnelo 等人,2016;d’Avila Garcez 等人,2018;Zambaldi 等人,2018;Hazra 和 De Raedt,2023),其中可能涉及中间过程感知处理步骤,例如物体识别(Goel et al., 2018;Li et al., 2018)。不同的强化学习方法(基于价值、基于策略、基于模型、完全或部分可观察状态)(Alharin 等人,2020)可能适用于不同的可解释性方法或
其变体。同样,解释本身的范围也可能有所不同,例如,对个体代理行为或价值评估的局部解释,或对代理策略的总体高层解释(Zrihem 等人,2016 年;Sreedharan 等人,2020b;Topin 等人)等,2021)。 Yang 等人探讨了将解释视为确保一致性的奖励的重要性。 (2023)。
   对于训练有素的 RL 系统,迫切需要事后 RL 可解释性方法。输入显着性图(Wang et al., 2016;Selvaraju et al., 2019;Greydanus et al., 2018;Mundhenk et al., 2020)和基于树的模型(Bastani et al., 2018;Roth et al., 2019;科彭斯等人,2019;刘等人,2019;瓦西克等人,2019; Madumal 等人,2020)是一种常见的方法。基于显着性的强化学习可解释性方法并非没有问题,因为它们可能会受到不可证伪性和认知偏差的影响(Atrey 等人,2019)以及可证明的错误结果(Bilodeau 等人,2022)。探索了通过轨迹可视化智能体记忆(Jaunet et al., 2020)或提取有限状态模型(Koul et al., 2018)来提高对智能体行为的理解,以及利用马尔可夫决策过程(Finkelstein et al., 2018)。 ,2022;Zahavy 等人,2016)生成解释或检测子目标或新兴结构(Rupprecht 等人,2019)。由于强化学习方法有时可能会学习虚假相关性,因此可解释性方法被用来帮助识别和解决因果混乱(Gajcin 和 Dusparic,2022),并使用反事实进一步加深我们的理解(Deshmukh 等人,2023 年;Olson 等人,2019 年)。

3.3 国际象棋与人工智能

   几十年来,国际象棋一直是人工智能思想的试验台。早期的引擎是基于人类知识的,它们超人类的力量来自于它们的计算能力,这使得它们能够考虑比人类国际象棋棋手的能力高出几个数量级的变化。神经网络和基于强化学习的方法的引入旨在振兴该领域,从而导致计算机国际象棋引擎的大幅改进。这些进步在一定程度上受到了 AZ 在国际象棋及其变体中的突出成果的启发(Silver et al., 2018; Tomaˇsev et al., 2020; Tomaˇsevet al., 2022; Zahavy et al., 2023)和 Lc0 (LCZero)开发社区,2018),一个开源
   重新实现原来的模型,仍然是计算机国际象棋最高水平的竞争。
   由于与国际象棋引擎的交互在国际象棋棋手的准备和训练中发挥着关键作用,
可解释性有助于国际象棋棋手理解潜在的位置和战术主题。为此,之前的工作着眼于片段显着性(Gupta et al., 2020)、基于树的解释(Kerner, 1995)和自然语言(Jhamtani et al., 2018)。在国际象棋和语言的交叉点,最近提出了 ChessGPT(Feng et al., 2023)来弥合政策和语言的形态。 DecodeChess 是一个旨在从引擎搜索树中得出解释的软件项目(DecodeChess,2017)。
   最近,AZ 已被证明可以在其网络中编码类似人类的概念(McGrath 等人,2022),并且还使用基于网络的 Stockfish 国际象棋引擎探索了概念探测技术(P´alsson 和 Bjöornsson,2023) )。先前对 AZ 中概念的研究没有考虑搜索和移动序列,并且很大程度上仅限于识别预先存在的人类概念。人们对人类玩家是否采用了 AZ 的想法提出了初步问题(Gonz´alez-D´ıaz 和 Palacios-Huerta,2022),因为一些突出的主题已在 Game Changer 中进行了详细分析(Sadler 和 Regan,2019)。最近,还表明 AZ 可能容易受到对抗性扰动的影响(Lan 等人,2022),这强调了更好地理解学习表征的必要性。

四、什么是概念?

   概念有多种可能的定义——从人类可理解的高级特征到抽象概念。在这项工作中,我们将概念定义为知识单元。我们关注两个关键属性。首先,概念包含知识:有用的信息;在机器学习的背景下,我们认为这意味着它可以用来解决任务。
例如,考虑喙的概念。我们可以教算法或人(知识转移)什么是喙。如果人们掌握了喙的概念,他们就可以用它来识别鸟类。
   其次,单位意味着最小化;它很简洁,不相关的信息已被删除。
有很多方法可以实现这个定义和属性,我们选择其中一种:展示一个概念可以转移给另一个代理来帮助他们解决任务(例如,遵循概念中表示的策略)。能够这样做意味着该概念是独立的并且对于任务有用。
我们如何表示概念?我们利用丰富的文献,假设概念在神经网络的潜在空间中线性编码(McGrath 等人,2022;Kim 等人,2018;Gurnee 等人,2023;Conneau 等人,2018;Tenney 等人) .,2019;南达,2023)。潜在空间是指神经网络激活后特征所跨越的空间。尽管我们的线性假设是一个强有力的假设,但它具有数量惊人的经验支持:线性探测和相关技术已经成功地从跨多个领域的神经网络中提取了广泛的复杂概念(McGrath 等人,2022;Kim 等人) .,2018;Gurnee 等人,2023;坦尼等人,2019;南达,2023)。尽管我们可能会错过非线性表示的概念,但我们仍然表明我们可以使用纯线性表示找到对我们的目标有用的概念。

   我们的目标是在强化学习环境中发现哪些类型的概念?我们的目标是发现产生计划的概念,其中计划是针对一个或多个相关概念进行优化的一系列经过深思熟虑的行动。我们认为故意意味着存在根本原因。更具体地说,我们假设一项计划是由一个或多个概念驱动的。尽管各州计划的最终目标相同——最大化结果(获胜或平局)——但特定州的计划在此过程中将有更多针对具体情况的工具性目标,例如,在一场比赛中捕捉特定的部分。
有利地位,或最大化董事会控制权。我们假设相似背景下的计划将具有相似的工具性目标,从而产生相似的概念。

五、发掘概念

   我们的方法可以概括为(1)使用凸优化挖掘代表 AZ 中概念的向量,(2)根据可教性(是否可转移到另一个 AI 代理)和新颖性(是否包含一些不存在的信息)来过滤概念。存在于人类游戏中)。然后,所得的概念向量集用于生成国际象棋谜题(国际象棋位置和解决方案),并将其呈现给人类专家(顶级国际象棋特级大师)进行最终验证。

5.1 挖掘概念向量

   为了找到概念,我们开发了一种新方法,因为(1)模型输入是二进制和实值输入的混合(例如,显着图通常采用连续值作为输入,通常不适合二进制值)和(2)我们想要开发一个可解释性工具来分析 AZ 机制的两个部分——政策价值网络和 MCTS。利用网络和 MCTS 至关重要,因为每个组件在决定移动时发挥着不同但重要的作用(参见第 8.3 节)了解更多详情)。我们将概念发现表述为凸优化问题。使用凸优化框架并不新鲜。许多现有的寻找概念向量的方法,例如非负矩阵公式,通常可以近似为凸优化问题(Ding et al., 2008)。
   对于我们想要找到的每个概念向量,我们制定一个单独的凸优化问题。正如第 3 节中提到的,我们将概念定义为知识单元。极简性是通过 L1 范数鼓励稀疏性来实现的(Tibshirani,1996)

m i n ∥ v c , l ∥ 1 min∥v_{c,l}∥_1 minvc,l1 使得概念约束成立, (1)
   其中 v c , l ∈ R d l v_{c,l} ∈ R^{d_l} vc,lRdl 是存在于 l 层潜在空间中的向量,用于表示概念 c, d l d_l dl 是 l 层的维度。
   我们概述了用于两种不同类型概念的概念约束:静态概念和动态概念。静态概念被定义为在单个状态中找到,而动态概念则在一系列状态中找到。自动驾驶中静态概念的一个例子是汽车位于高速公路上。动态概念是汽车正在加速。虽然我们的框架仅旨在发现动态概念,但我们使用静态概念来验证我们的方法。

5.1.1 静态概念的概念约束

   静态概念被定义为仅涉及单个状态的概念。我们使用监督数据(标签指示状态是否包含概念 c)来学习静态概念向量。这些概念编码了人类知识,因此,我们可以使用它们来验证我们的方法。静态概念的一个例子是“空间”的概念,我们可以从单一状态推断出它。现在,假设我们有二元概念 2 并用 c(x) = 1 表示国际象棋位置 x 中概念 c(概念分数)的存在,否则 c(x) = 0。对于每个概念 c,我们可以将一组通用的国际象棋位置 X 分成正例 X +(存在该概念)和 X−(不存在该概念)

X + = { x ∈ X : c ( x ) = 1 } X − = { x ∈ X : c ( x ) = 0 } X^+ = \{x ∈ \mathbb X : c(x) = 1\} \\ X^- = \{x ∈ \mathbb X : c(x) = 0\} X+={xX:c(x)=1}X={xX:c(x)=0}
   这些正例和负例使我们能够生成潜在表示的相应正例和负例(网络中的中间激活后表示)。函数 f l ( x ) f_l(x) fl(x) 在给定输入 x 的情况下生成第 l 层的激活:
Z l + = { f l ( x ) : x ∈ X + } Z l − = { f l ( x ) : x ∈ X − } Z^+_l = \{f_l(x) :x ∈ \mathbb X^+ \} \\ Z^-_l = \{f_l(x) :x ∈ \mathbb X^- \} Zl+={fl(x):xX+}Zl={fl(x):xX}
   其中 z l = f l ( x ) z_l = f_l(x) zl=fl(x)表示通过将输入 x 通过网络在第 l 层获得的潜在表示。有关如何提取 zl 的更多详细信息,请参阅第 8.2 节。

   凸优化目标是学习表示概念 c 的稀疏向量 vc,l 。我们假设来自 Z l + Z^+_l Zl+(存在概念的集合)的激活的内积 v c , l ⋅ z l v_{c,l} · z_l vc,lzl 高于来自 Z l − Z^−_l Zl(其中存在概念的集合)的激活这个概念不存在)。因此,公式变为

m i n ∣ ∣ v c , l ∣ ∣ 1 s u c h t h a t v c , l ⋅ z l + ≥ v c , l ⋅ z l − ∀ z l + ∈ Z l + , z l − ∈ Z l − min||v_{c,l}||_1 such that v_{c,l} · z^+_l ≥ v_{c,l} · z^{−}_{l} ∀ z^+_l ∈ Z^+_l, z^−_l ∈ Z^−_l min∣∣vc,l1suchthatvc,lzl+vc,lzlzl+Zl+,zlZl (2)

   我们可以通过分割 X 来评估在监督设置中 vc,l 表示概念的效果如何分为两组: X t r a i n Xtrain Xtrain X t e s t Xtest Xtest,然后 vc,l 仅使用 X t r a i n Xtrain Xtrain。然后我们测量的分数 X t e s t Xtest Xtest 中概念约束成立的元素。如果 vc,l 很好地代表了概念 c,我们期望概念约束保留从 Xtest 派生的先前未见过的激活。

5.1.2 动态概念的概念约束

   动态概念被定义为在一系列状态中找到的概念。虽然 vc,l 是在策略值网络的激活空间中找到的,但我们使用蒙特卡罗树搜索 (MCTS) 统计来查找有意义的状态序列的候选者。 MCTS 从当前国际象棋位置 x0 生成可能的走法和后续响应的树(有关 MCTS 实现的详细信息参见 Schrittwieser 等人。 (2019))。对于我们的过程来说,确切的细节并不重要;重要的是 AZ 选择推出 X ≤ T + = ( x 1 + , x 2 + , x 3 + , . . , x T + ) X^+_{≤T} = (x^+_1, x^+_2, x^+_3, . . , x^+_T) XT+=(x1+,x2+,x3+,..,xT+),其中 T 是 rollout 的最大深度,根据 AZ 以最有利的状态终止。我们将此最佳推出 X ≤ T + X^+_{≤T} XT+ 与低于标准的推出 X^−_{≤T} 进行对比,根据值估计,后者被定义为 MCTS 搜索树中的次优路径或 MCTS 中的访问计数。

   我们的过程背后的直觉是,由于概念 c, X ≤ T + X^+_{≤T} XT+ 被选择而不是 X ≤ T − X^−_{≤T} XT,并且我们假设概念 c 可以通过某个层 l 的线性探针检测到。 。概念的存在可能会以不同的方式影响规划。考虑 MCTS 中的两种推出,一种由 A Z ( X ≤ T + ) AZ (X^+_{≤T}) AZ(XT+) 选择,另一种不由 A Z ( X ≤ T − ) AZ (X^−_{≤T}) AZ(XT) 选择。对于 AZ 选择 X ≤ T + X^+_{≤T} XT+ 而不是 X ≤ T − X^−_{≤T} XT 的原因,存在三种不同的可能解释:

  1.    主动规划 X ≤ T + X^+_{≤T} XT+增加了概念c的存在。例如,推出 X ≤ T + X^+_{≤T} XT+可能会增加片段活动的概念。

  2.    预防性计划 X ≤ T + X^+_{≤T} XT+ 避免增加概念 c 的存在。一个例子可以 X ≤ T + X^+_{≤T} XT+ 中的计划避免丢失一块。

  3.    随机 X ≤ T + X^+_{≤T} XT+ 是在 X ≤ T − X^-_{≤T} XT 之上任意选择的,因为所有概念在两次推出中都同样存在,并且最终状态的值估计大致相等。
    我们对场景 1 和 2 感兴趣,但对场景 3 不感兴趣。场景 3 可以通过以下方式过滤掉利用以下事实:两次推出将具有相似的价值估计和访问次数MCTS 统计。

   使用与静态概念类似的方法,我们得出向量 vc,l 上的概念约束通过对比正例和负例,除了这次我们的对比示例是来自所选卷展 X ≤ T + X^+_{≤T} XT+ 和低于标准卷展 X ≤ T − X^−_{≤T} XT 的对。对于正例和负例,我们分别用 z t , l + z^+_{t,l } zt,l+ z t , l − z^−_{t,l} zt,l 表示深度 t 处 l 层的激活。一对正负推出会产生以下凸优化问题
在这里插入图片描述
对于场景 1,不等式在场景 2 中相反。
图 3:将不同时间步长的最佳部署与低于标准的 MCTS 部署进行对比。这绿色卷展显示最佳卷展,红色卷展描绘低于标准的轨迹。每一次步骤,MCTS 发现低于标准的轨迹。我们将每一对都包含在概念约束中。
在这里插入图片描述
   我们通过将最佳轨迹与多个低于标准的轨迹进行对比来扩展这个想法跨越不同的 MCTS 深度。图 3 显示了这个想法。在图3的左侧,我们发现初始国际象棋位置 t = 1 处的最优且低于标准的轨迹。但是,我们也可以使用MCTS 统计数据(价值估计和访问计数)以查找 t = 2 时的低于标准的轨迹(如图所示)中)且 t = 3(如右图所示)。使用多个低于标准的轨迹背后的想法是进一步缩小解空间,以减少噪声(从而增加可能性概念向量是有意义的)并降低学习多语义的可能性向量.

   Z ≤ T + Z^+_{≤T} ZT+ ,l 表示第 l 层中对应于最优推出 X ≤ T + X^+_{≤T} XT+ 的潜在表示,并且 Z ≤ T − Z^−_{≤T} ZT ,l, j 表示对应于在时间步 j 选择的次标准推出 X ≤ T − X^−_{≤T} XT 的 l 层中的潜在表示。我们发现动态概念如下:在这里插入图片描述
其中 T T^~ T  表示我们发现次优推出的最大深度。图 3 中的 T = 3 T^~ = 3 T =3。一般来说,我们设置 T = T − 5 T^~ = T − 5 T =T5 以确保推出足够深。有关如何设置 T 的详细信息,请参阅第 8.4.1 节。

5.2 过滤概念

   我们的方法(第 4.1 节中描述)提供了许多概念向量,其中一些或许多代表已知概念或不可概括的概念(即仅适用于单个国际象棋位置)。在本节,我们描述如何进一步过滤概念以确保它们有用(可转移)和小说。我们对有用性的第一个过滤是看看我们是否可以向学生网络教授一个概念这样可以提高概念测试位置的性能。我们描述这个过程仅选择第 4.2.1 节中的可教授概念。我们根据新颖性(§4.2.2)进一步过滤概念:寻找 AZ 的自玩游戏中未出现在顶级人类游戏数据集中的表示。
(未完待续…)

相关文章:

弥合人类与人工智能的知识差距:AlphaZero 中的概念发现和迁移(1)

文章目录 一、摘要二、简介三、相关工作3.1 基于概念的解释3.2 强化学习中生成解释3.3 国际象棋与人工智能 四、什么是概念?五、发掘概念5.1 挖掘概念向量5.1.1 静态概念的概念约束5.1.2 动态概念的概念约束 5.2 过滤概念 一、摘要 人工智能(AI&#xff…...

cpp的cbp

.cbp 文件是 Code::Blocks 的项目文件。Code::Blocks 是一个开源的跨平台集成开发环境(IDE),主要用于 C、C 以及 Fortran 编程。.cbp 文件包含有关项目的所有配置信息,包括文件路径、编译选项、链接器设置等。 以下是 .cbp 文件的…...

jQuery 选择器

jQuery 选择器 jQuery 是一个快速、小巧且功能丰富的 JavaScript 库。它使得 HTML 文档遍历和操作、事件处理、动画和 AJAX 等操作更加简单,适用于各种浏览器。jQuery 的核心特性之一是其强大的选择器引擎,它允许开发者通过 CSS 选择器语法轻松地选取和操作 DOM 元素。本文将…...

Linux系统编程-进程控制相关操作详解

进程(Process)是计算机科学中一个基本的概念,特别是在操作系统领域中非常重要。它指的是在系统中正在运行的一个程序的实例。每个进程都是系统资源分配的基本单位,是程序执行时的一个实例。以下是关于进程的详细解释: …...

分布式I/O从站的认知

为什么需要分布式I/O从站? 当PLC与控制机构距离过远时,远距离会带来信号干扰,分布式I/O从站只需要一个网络线缆连接。 ET200分布式I/O从站家族 体积紧凑、功能强大。 ET200SP ET200M ET200S ET200iSP ET200 AL ET200pro ET200 eco PN 通讯协议…...

【python】PyQt5顶层窗口相关操作API原理剖析,企业级应用实战分享

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…...

流程图编辑框架LogicFlow-vue-ts和js

LogicFlow官网https://site.logic-flow.cn/LogicFlow 是一款流程图编辑框架,提供了一系列流程图交互、编辑所必需的功能和灵活的节点自定义、插件等拓展机制。LogicFlow支持前端研发自定义开发各种逻辑编排场景,如流程图、ER图、BPMN流程等。在工作审批配…...

goaccess分析json格式日志

一.安装使用yum安装,yum install goaccess 二.主要介绍格式问题 1.nginx日志格式如下: log_format main escapejson {"time_local":"$time_local", "remote_addr":"$remote_addr", "r…...

游戏AI的创造思路-技术基础-决策树(1)

决策树,是每个游戏人必须要掌握的游戏AI构建技术,难度小,速度快,结果直观,本篇将对决策树进行小小解读~~~~ 目录 1. 定义 2. 发展历史 3. 决策树的算法公式和函数 3.1. 信息增益(Information Gain&…...

OPenCV实现直方图均衡化----20240711

# 直方图均衡化import cv2 import numpy as np import matplotlib.pyplot as plt# 读取彩色图像 img = cv2.imread("./pictures/Lena.jpg")# 检查图像是否加载成功 if img is None:print("Could not open or find the i...

2023年全国大学生电子信息竞赛E题——自动追踪系统(stm32和openmv+普通舵机)完美解决第四问

当时做的时候,当时看别人开源的23年的题,感觉一头雾水。两个字没思路。确实只有做了才会有思路。我这里清晰的整理出来思路。 1.第一问的复位问题就是写一个函数,如果按键按下,就进入,再按下就退出 当然这个复位是写死…...

【UNI-APP】阿里NLS一句话听写typescript模块

阿里提供的demo代码都是javascript,自己捏个轮子。参考着自己写了一个阿里巴巴一句话听写Nls的typescript模块。VUE3的组合式API形式 startClient:开始听写,注意下一步要尽快开启识别和传数据,否则6秒后会关闭 startRecognition…...

Apache Spark分布式计算框架架构介绍

目录 一、概述 二、Apache Spark架构组件栈 2.1 概述 2.2 架构图 2.3 架构分层组件说明 2.3.1 支持数据源 2.3.2 调度运行模式 2.3.3 Spark Core核心 2.3.3.1 基础设施 2.3.3.2 存储系统 2.3.3.3 调度系统 2.3.3.4 计算引擎 2.3.4 生态组件 2.3.4.1 Spark SQL 2.…...

Visual Studio 2019 (VS2019) 中使用 CMake 配置 OpenCV 库(快捷版)

2024.07.11 测试有效 最近需要用一下 opencv 处理图像,简单配置了一下Cmake下的 opencv 库。 没有编译 opencv ,也不知道他们为什么要自己编译 opencv 。 一、下载并安装 OpenCV 1.前往 OpenCV 官方网站 下载适用于您的系统的 OpenCV 安装包。 2.点击直接…...

BUG解决:postman可以请求成功,但Python requests请求报403

目录 问题背景 问题定位 问题解决 问题背景 使用Python的requests库对接物联数据的接口之前一直正常运行,昨天突然请求不通了,通过进一步验证发现凡是使用代码调用接口就不通,而使用postman就能调通,请求参数啥的都没变。 接口…...

VScode常用快捷键

VScode介绍 VSCode(全称:Visual Studio Code)是一款由微软开发且跨平台的免费源代码编辑器。能够在windows、Linux、IOS等平台上运行,通过安装一些插件可以让这个编辑器变成一个编译器。与Visual Studio相比,它是免费…...

Day1每日编程题日记:数字统计、两个数组的交集、点击消除

前言:该篇用于记录自看。曾回看昨天的做题代码,竟然会觉得陌生,这竟然是我写的,细细读了一下,原来我当时是这么想的。因此我觉得记代码没有实际用处,重点是领悟了思想,这样子代码就在心中&#…...

ENSP实现防火墙区域策略与用户管理

目录 实验拓扑与要求​编辑 交换机与防火墙接口的配置 交换机: 创建vlan 接口配置 防火墙配置及接口配置 防火墙IP地址配置 云配置​编辑​编辑​编辑 在浏览器上使用https协议登陆防火墙,并操作 访问网址:https://192.168.100.1:844…...

c#实现23种常见的设计模式--动态更新

c#实现23种常见的设计模式 设计模式通常分为三个主要类别: 创建型模式 结构型模式 行为型模式。 这些模式是用于解决常见的对象导向设计问题的最佳实践。 以下是23种常见的设计模式并且提供c#代码案例: 创建型模式: 1. 单例模式&#…...

昇思25天训练营Day11 - 基于 MindSpore 实现 BERT 对话情绪识别

模型简介 BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、…...

本地开发微信小程序,使用巴比达内网穿透

在微信小程序开发的热潮中,开发者常面临的一个挑战是如何在复杂的网络环境下测试和调试内网环境中的服务。巴比达正为这一难题提供了一条解决方案,极大简化了微信小程序与内网服务器之间通信的流程,加速了开发迭代周期。 以往,开…...

【LeetCode】快乐数

目录 一、题目二、解法完整代码 一、题目 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。 然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变…...

大模型未来发展深度分析

大模型未来发展方向的深度探讨 近年来,人工智能技术的飞速发展,特别是大模型技术的崛起,为全球科技产业带来了前所未有的变革。大模型,以其强大的推理能力、创意生成能力和情绪智能,正在逐步成为推动社会经济发展的核…...

[线性RNN系列] Mamba: S4史诗级升级

前言 iclr24终于可以在openreview上看预印本了 这篇(可能是颠覆之作)文风一眼c re组出品;效果实在太惊艳了,实验相当完善,忍不住写一篇解读分享分享。 TL;DR (overview) Structured State-Sp…...

【鸿蒙学习笔记】元服务

官方文档:元服务规格 目录标题 什么是元服务特征第一个元服务-案例介绍创建项目源码启动模拟器启动entry创建卡片出发元服务 什么是元服务 特征 免安装分包预加载老化和更新机制 第一个元服务-案例介绍 创建项目 源码 Entry Component struct WidgetCard {buil…...

LIS+找规律,CF 582B - Once Again...

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 582B - Once Again... 二、解题报告 1、思路分析 考虑朴素做法对T *n的数组求LIS 但是T * n可达1e9 思考一下,最优解无非就是几个循环节拼接,我们最差情况下对sqrt(T)个a[]求LIS即…...

数据赋能(145)——开发:数据拆分——实施过程、应用特点

实施过程 数据拆分的实施过程通常涉及以下几个关键步骤: 确定拆分目标和需求: 明确数据拆分的目的和需求,例如是为了减少数据处理的复杂性、提高查询效率还是为了满足特定的业务需求。根据需求确定拆分后的数据结构和拆分规则。选择拆分方法…...

【漏洞复现】Splunk Enterprise for Windows 任意文件读取漏洞 CVE-2024-36991

声明:本文档或演示材料仅用于教育和教学目的。如果任何个人或组织利用本文档中的信息进行非法活动,将与本文档的作者或发布者无关。 一、漏洞描述 Splunk Enterprise 是一款强大的机器数据管理和分析平台,广泛应用于企业中,用于实…...

FastAPI -- 第一弹

Hello World 经典的 Hello World 安装 pip install fastapi pip install "uvicorn[standard]"main.py from typing import Unionfrom fastapi import FastAPIapp FastAPI()app.get("/") def read_root():return {"Hello": "World"}…...

C++入门基础篇(1)

欢迎大家来到海盗猫鸥的博客—— 断更许久,让我们继续好好学习吧! 目录 1.namespace命名空间 命名空间的存在价值: 命名空间的定义: 命名空间的使用: 2.C输入输出函数 使用: 3.缺省参数 4.函数重载…...