当前位置：首页 > news >正文

论文阅读：基于生物神经元的模拟游戏世界感知与学习

news 2026/2/11 3:54:29

论文内容概述

AI要90分钟学会的游戏，人脑细胞竟在5分钟搞定了。Cell在2022年的研究中，使用80万体外神经元细胞(DishBrain)竟然学会玩70年代经典街机游戏Pong！
神经元乒乓球实验

论文链接：In vitro neurons learn and exhibit sentience when embodied in a simulated game-world (基于生物神经元的模拟游戏世界感知学习)

虽然现在人工智能发展迅速，但是人工神经网络依然难以高效地完成许多复杂任务，而这些复杂任务往往在生物神经网络上表现优异。如果我们将生物神经网络整合到数字计算机系统中，或许可以解决当前人工神经网络面临的一些困境。

在这篇文章中，作者开发了DishBrain（盘中大脑），这是一种在结构化环境中利用神经元固有的自适应计算能力的系统。该系统使用生物神经网络（神经元为人类神经元或老鼠神经元）以高密度多电极阵列为信息交流媒介与计算机系统相结合，然后计算机系统输出模拟游戏世界的相关信号，通过电生理刺激和记录给DishBrain进行信号交互以模仿街机游戏“Pong”。

应用自由能原理的主动推理理论，作者发现，在实时游戏五分钟内出现了明显的学习现象，这是在对照条件下未观察到的。进一步的实验表明，闭环结构化反馈在引发长期学习中起着重要作用。DishBrain显示出在稀疏的感官信息反馈下，出现了以目标导向方式自组织活动的能力（称之为人工生物智能），未来的应用可能进一步揭示与智能密切的细胞关联。

准确来说，DishBrain(盘中大脑)是一个实时合成生物智能平台，演示了生物神经元通过调整放电活动来进行学习。在提供的模拟游戏世界中，当提供简单的电信号输入和电信号反馈时，它有能力学习执行特定目标任务。

随着实验的进行，如果没有提供电信号反馈，将观察不到明显的表现改善；如果完整提供电信号反馈，将看到因为学习而得到的表现改善。
观察到的人类神经元和老鼠神经元均有学习能力，并且人类神经元的学习能力高于老鼠神经元。
实验过程中观察到神经元放电活动一直在变化，一开始的游戏表现可能不太好，但随着实验的进行会越来越好。

基本原理介绍

合成生物智能SBI(Synthetic Biological Intelligence)：合成生物学与人工智能交叉领域，是未来脑科学发展一个可能大热的风口，这篇论文属于SBI领域。

生物神经网络BNN(Biological Neuronal Network)：生物神经网络基于动物神经元发展，人工神经网络基于神经元数学模型发展，两者原理上存在较大差异。

生物智能主要分两方面：体内生物智能和体外生物智能。像脑机接口等等更多像体内生物智能，生物神经网络主要存活在生物体内；而合成生物智能更多探索体外生物智能，比如这篇文章就是体外培养生物神经网络来与计算机系统结合。

自由能原理（Free Energy Principle, FEP）是由卡尔·弗里斯顿（Karl Friston）提出的理论框架，它试图解释生物系统是如何维持其内部稳态并预测外部环境的。该理论的核心思想是，生物系统通过最小化其预测误差（即观察到的与预期的状态之间的差异）来降低自由能，从而保持生存和繁衍。

自由能的概述

自由能原理认为，所有生命系统都在不断地试图降低它们的自由能，以保持一种低熵状态，即维持内部稳态。自由能可以被视为一个代理，用来衡量一个系统与它期望状态之间的不匹配程度。当系统能够准确预测其环境时，自由能就会降低。如果系统不能准确预测，则需要通过学习或改变行为来减小预测误差，从而降低自由能。

主动推理理论

主动推理（Active Inference）是自由能原理的一个重要组成部分，它关注的是生物系统如何通过行为来影响其周围环境，以最小化预测误差。主动推理理论认为，生物系统不仅被动地适应环境，而且还通过积极的行为来塑造环境，以使自身预测更加准确。

主动推理观点

预测编码：生物系统通过构建关于世界的内部模型来进行预测，并根据这些预测采取行动。
最小化预测误差：生物系统通过感知输入和主动行为来最小化预测误差，即观察到的状态与预测状态之间的差异。
感知行为的一致性：感知和行为被视为同一过程的不同方面，都是为了最小化自由能。
行为选择：行为的选择是基于对未来状态的预测来最小化未来自由能的期望值。

主动推理应用

主动推理理论已被应用于多个领域，包括认知科学、心理学、神经科学以及人工智能。它为理解生物系统如何进行决策、规划行为以及如何与环境互动提供了理论基础。

感知行为一致性：当你伸手去拿一个杯子时，你的大脑会根据过去的经历预测杯子的位置和重量。如果预测与实际感受不符（比如杯子比预期轻），你会调整握力以减少预测误差。
决策制定：在面对不确定情境时，生物体会基于其内部模型对未来状态进行预测，并选择能够最大化降低未来自由能的行为路径。

实验整体设计

神经细胞获取

要想有一个生物神经网络（BNN）芯片，第一步就是获取很多的神经细胞，论文里主要使用两类神经细胞，即人类神经细胞和老鼠神经细胞，那么要怎么获得呢？

如果想要获取的是人类的神经元细胞，那么需要从干细胞开始培养，然后刺激干细胞分化成神经细胞，干细胞分化成神经细胞之后数量就会稳定了，后续实验过程只需要给人类神经细胞提供营养即可，整个神经细胞的制备周期是30天。

如果使用老鼠的神经细胞，那就比较简单了，没有道德问题，可以直接培养老鼠胚胎，然后把脑子摘出来，然后直接用就完事了，基本不需要培养，制备周期也短了很多。

左图为人类神经细胞HCC，右图为老鼠神经细胞MCC。

智能芯片生态

有了神经细胞之后，下一步就是把神经细胞放到芯片上培养，继续给神经细胞提供养分。

可以看到，该智能系统有两个子系统：细胞芯片系统HD-MEA Chip和计算机系统Pong，两者通过物理线路进行信息传输。

信息交互过程

先给出细胞芯片子系统的平面图：

在图片中，神经细胞是均匀分布在芯片上面的，蓝点代表电极，用于神经细胞与计算机之间交换信息。明显图中存在上半，左下，右下三块电极区域，上半电极区域是感知区，用于接收屏幕信息输出（由此得到小球和平板的位置状态）；左下和右下电极区域是运动区，用于输出平板移动信息，具体设置如下：

action1为向上运动，action为向下运动，左下电极区域得到一组向上运动和向下运动的信号，右下电极区域得到另一组向上运动和向下运动的信号，两组数据求平均得到最终的运动控制信号。

实验过程分析

学习方法的原理特别简单，就是不停的让这个生物芯片玩Pong这个游戏，并且在玩的好的时候奖励它，玩的不好（没接住球）的时候惩罚他。

当BNN犯了一个错误的时候，比如没有接到球的时候，就给他一些无法预测的电信号惩罚他（可能是随机生成）；而当BNN接住了球的时候，那应该奖励他，就给他一些可以预测的电信号（可能是固定模式）。