杨立昆重磅论文：通往自主机器智能之路（九）

科技 08-05 来源：自然语言初学者

五、设计和训练行为模块

行为模块的作用有以下三个：

在给定的世界模型上预测模式二需要的动作，推断出使成本最小化的最优动作序列。
产生代理未知部分的世界状态的隐变量及多种配置。
产生训练模式一的策略网络所需的动作。

动作和隐变量之间没有概念上的区别。行为模块必须探索两组变量的配置。对于隐变量，必须探索配置以在不确定性下进行规划。对于动作变量配置，必须探索以产生最小化成本的最优配置。在对抗性场景（例如游戏）中，必须探索潜在配置以最大化成本。实际上，行为模块扮演了优化者和探索者的角色。

当世界模型和成本表现良好时，行为模块可以使用基于梯度的优化过程来推断最佳动作序列。为此，它接收通过成本和展开的世界模型反向传播梯度计算的成本梯度的估计。它使用这些估计来更新动作序列。

当世界模型或成本表现不佳时，基于梯度的最佳动作序列搜索可能会失败。在这种情况下，可以应用另一种搜索/规划方法。如果动作空间是离散的或可以离散的，可以使用动态规划方法或近似动态规划方法，例如束搜索或蒙特卡洛树搜索。实际上，在最优控制、机器人等“经典”人工智能的背景下开发的任何规划方法都可以在这种情况下使用。

一旦通过规划/推理/优化过程获得最佳动作序列，就可以将动作作为目标来训练策略网络。策略网络随后可用于快速动作，或仅用于在优化阶段之前将提议的动作序列初始化为良好的起点。可以针对多个任务训练多个策略网络。

行为模块还产生隐变量的配置。这些隐变量代表了代理不知道的世界状态部分。理想情况下，行为模块将系统地探索潜在的可能配置。理想情况下，隐变量的正则化器，图 17 中的 R1 和 R2，将代表可以从中采样隐变量的对数先验。但是以与策略网络类似的方式，人们可以设计一个潜在的摊销推理模块来学习隐变量的分布。良好的分布会产生合理的预测。灵长类动物的分布可能取决于当时所有可用的变量。

六、设计配置器

配置器是代理的主要控制器。它从所有其他模块获取输入并调整它们的参数和连接图。调制过程包括路由信号、激活子网络、集中注意力等。在预测器和感知编码器的上层是变换器块的场景下，配置器输出可能构成这些变换器块的额外输入令牌，从而调制它们的连接图和函数。

配置器模块之所以必要，有两个原因：信息重用（类似于cache）和知识共享（类似于迁移学习）。能够为多个任务重用相同的信息是一个明显的优势，可以减少重复计算，特别是如果任务可以按顺序完成，并且如果资源有限时（例如参数存储器）。知识重用是另一个优势。一个合理的假设是，针对给定环境训练的世界模型可以用于一系列不同的任务，只需进行微小的更改。可以想象一个环境的“通用”世界模型，其中一小部分参数由配置器为当前的任务进行调制。这将比为每个技能使用单独的世界模型更有效地提高数据效率和计算效率。缺点是利用配置器后代理一次只能完成一项任务，其实人脑也是同时只能进行一件工作。

配置器可以通过在各个级别调制参数来为特定任务准备感知模块。人类感知系统可以为特定任务做好准备，例如检测杂乱抽屉中的物品、检测森林中的水果或猎物、阅读、计算某些事件、组装两个部分等。检测简单图案时，配置器可以调节卷积架构中低层的权重。对于涉及满足对象之间关系的任务（例如用螺钉组装两个零件），可以通过调制高级转换器模块中的令牌来执行配置。

世界模型的预测器部分必须能够根据当前的任务执行各种各样的功能。对于在低抽象级别执行短期预测的预测器，配置可能意味着动态信号路由。在低级视网膜主题特征阵列表示中，预测可以简化为单个特征向量的局部位移，伴随着这些向量的小变换。这可以有利地用本地选通/路由电路来实现。对于更高抽象级别的长期预测，最好使用转换器架构。转换器模块特别适用于对象交互的基于对象的推理。原因是转换器块的功能与置换等价。由于该属性，无需担心将哪个对象分配给哪个输入标记：结果将与输入分配相同且一致。基于模型的机器人技术最近的工作提出使用在整个轨迹级别运行的转换器，对注意力电路施加约束，以配置预测器以进行因果预测或其他任务（Janner 等人，2021 年）。

通过添加额外的输入令牌可以轻松配置转换器块的功能。这些额外的输入具有调制网络其余部分使用的连接图的效果，从而允许规范各种输入-输出函数。

也许配置器最重要的功能是为机器人设置子目标并为该子目标配置成本模块。如第 3.2 节所述，使成本可配置的一种简单方法是调制基本成本子模块的线性组合的权重。这可能适用于不可变的内在成本子模块：允许对内在成本进行复杂的调制可能会使智能体的基本驱动难以控制，包括实施安全护栏的成本条款。相比之下，可以想象更复杂的架构允许灵活调整成本中的可训练评估模块部分。与预测器一样，如果将高级成本表示为对象之间的一组所需关系（ “螺母是否设置在螺钉上？ ” ），则可以使用经过训练的转换器架构来测量世界状态的程度偏离要满足的条件。与预测器一样，额外的令牌输入可用于调制函数。

一个尚未解决的问题是配置器如何学习将复杂的任务分解为一系列子目标，这些子目标可以由代理单独完成。我将把这个问题留待将来研究分析。

七、相关工作

论文中提出的大多数想法并不新鲜，并且已经在认知科学、神经科学、最优控制、机器人技术、人工智能和机器学习，特别是在强化学习中以各种形式进行了详细讨论。

也许这篇论文的主要原创贡献在于

一个整体认知架构，其中所有模块都是可区分的，其中许多模块是可训练的。
H-JEPA：一种用于预测世界模型的非生成分层架构，可在多个抽象级别和多个时间尺度上学习表示。
一系列非对比的自我监督学习范式，可产生同时提供信息和可预测的表示。
一种使用 H-JEPA 作为预测世界模型基础的方法，用于在不确定性下进行分层规划。
以下是尝试将本提案与相关的先前工作联系起来。鉴于本提案的范围广泛，参考文献可能有遗漏。

7.1 训练世界模型、模型预测控制、分层规划

在最优控制中使用模型可以追溯到早期的 Kelley-Bryson 方法（参见（Bryson 和 Ho，1969）和其中的参考资料，或评论（Morari 和 Lee，1997））。一些方法允许在线系统识别（Richalet 等，1978）。

使用神经网络学习控制模型是一个古老的想法，可以追溯到 1990 年代初期（Jordan 和 Rumelhart，1992；Narendra 和 Parthasarathy，1990；Miller 等，1995）。

在最优控制的背景下，学习类似于 模式一 的策略网络被称为直接逆控制。

在强化学习的背景下，使用预测模型对动作进行模式二风格推理的想法也是一个古老的想法，例如 Sutton的Dyna 架构（Sutton，1991）。请参阅 (Bertsekas, 2019) 进行广泛审查。

可学习模型的想法最近在各种情况下重新引起人们的兴趣（Ha 和 Schmidhuber，2018b；Ha 和 Schmidhuber，2018a；Hafner 等人，2018；Hafner 等人，2020）（参见（Moerland 等人） ., 2020) 最近对基于模型的强化学习的调查）。

学习世界模型在机器人领域尤为重要，尤其是对于采样效率至关重要且模拟器通常不准确的情况下。事实上，由于经典的强化学习方法需要对实际应用进行太多试验，基于机器学习的机器人研究已经出现了控制学习模型的有趣进展（Agrawal 等人，2016；Finn 和 Levine，2017；Chua 等人） .，2018 年；Srinivas 等人，2018 年；Yu 等人，2020 年；Yarats 等人，2021 年）。有关最近的评论，请参阅 (Levine, 2021) 和其中的参考资料。

一个困难的问题是主要的输入是来自视觉的（人脑视觉部分占大脑皮层的20%），而且视觉部分须要从视频中学习世界模型。早期尝试从简单的视频中训练没有隐变量的世界模型会产生不确定的结果（Lerer 等人，2016）。为了处理预测中的不确定性，可以使用各种形式的隐变量模型，例如生成对抗网络 (GAN) (Goodfellow et al., 2014)、变分自动编码器 (VAE) (Kingma and Welling, 2013) 向量-量化 VAE (VQ-VAE) (van den Oord et al., 2017)。

这些方法的变体已应用于视频预测，并帮助表示多模态输出并使用 GAN（Mathieu 等人，2015；Luc 等人，2020）、VAE（Babaeizadeh 等人，2017；Denton）减少模糊和 Fergus，2018 年；Henaff 等人，2019 年）或 VQ-VAE（Walker 等人，2021 年）。尽管其中许多方法尚未应用于控制问题，但有些已应用于自动驾驶的车辆轨迹预测（Henaff et al., 2019; Mercat et al., 2020）或各种机器人控制任务（Oh et al., 2020）。 , 2015; Fragkiadaki 等人, 2015; Agrawal 等人, 2016; Finn 等人, 2016; Nagabandi 等人, 2017; Babaeizadeh 等人, 2017; Srinivas 等人, 2018)。与提议的 JEPA 不同，这些模型是生成的。如何在预测中表示不确定性的关键问题仍然存在。

正则化隐变量模型的替代方法是对比方法，例如对比预测编码 (CPC) (H́ enaff et al., 2019)，该方法已应用于通过视频预测学习视觉表示 (van den Oord et al., 2018）。

为了解决多模态问题，其他工作已经提出在表示空间中执行视频预测。在一些工作中，表示空间是从已经在监督模式下训练的视觉管道获得的，例如执行语义分割（Luc et al., 2017; Luc et al., 2018）。不幸的是，对预训练视觉管道的要求降低了这些通过观察学习世界模型的方法的一般可用性。

本着与 JEPA 相同的精神，有人提出了自动学习视频帧表示的建议，以便可以轻松预测它们。这些提议通常仅限于学习低级特征，并且经常使用通过解码器进行重建来防止崩溃（Goroshin 等人，2015a；Srivastava 等人，2015）。一些作者有

建议使用时间不变性（或一致性）将图像区域的内容与其实例化参数分开（Wiskott 和 Sejnowski，2002；Gregor 和 LeCun，2010a；Goroshin 等人，2015b）。

至少最近的一项工作已将非对比 SSL 方法应用于机器人控制的联合嵌入架构并取得了一些成功（Pari 等人，2021；？）。

应用于联合嵌入和预测的对比方法已成功应用于语音识别（Baevski 等人，2020 年）（参见（Mohamed 等人，2022 年）最近对 SSL 到语音的评论）。

为了进行状态轨迹预测，最近的工作提倡使用Transformer，正如本文中提出的那样。 Transformer 是表示交互中离散对象动力学的理想选择，并已成功应用于汽车轨迹的预测（Mercat 等人，2020 年）。

一个有趣的提议是轨迹Transformer架构，在该架构中，Transformer在整个情节中被输入预测状态的序列（Janner 等人，2021 年）。注意力模式可以被限制，以迫使系统只关注过去，因此它可以以因果方式运行（不考虑未来），并训练以预测下一个状态、动作和成本观察或预测的状态、动作和成本。

分层规划是一个很大程度上未解决的问题。 Wayne 和 Abbott 提出了一种架构，该架构使用一堆训练有素的前向模型，为较低层指定中间目标（Wayne 和 Abbott，2014 年）。最近的一些工作根据姿势参数指定了机器人的中间目标（Gehring 等人，2021 年）。最近的一项提议是 Director 系统 (Hafner et al., 2022)，它包含一个分层世界模型和规划架构，通过强化学习进行端到端训练。

已经在机器人技术的背景下研究了训练智能体的内在动机的想法（Gottlieb et al., 2013）。内在成本的存在提供了一种可区分且有效的方式来指导智能体遵循某些行为并学习某些技能。

7.2 基于能量的模型和联合嵌入架构

对于许多作者来说，基于能量的模型 (EBM) 指定了一种概率模型，其分布是能量函数的归一化负指数。

在本文中，EBM 指定了更广泛的模型类别，将能量函数视为基础，并通过学习直接操纵其视图。过去已经提出了许多直接操纵能量的方法。事实上，所有传统的基于优化的学习方法都可以解释为基于能量的方法（LeCun 等，2006）。特别是，结构预测问题的判别训练方法可以表述为 EBM (LeCun et al., 1998; LeCun et al., 2006)。

大多数用于无监督或自我监督学习的 EBM 方法都具有对比性。最早的例子是玻尔兹曼机（Hinton 和 Sejnowski，1983 年），它是一种基于概率生成能量的模型，经过对比训练。

使用对比方法和互信息最大化方法训练的联合嵌入架构 (JEA) 具有悠久的历史。第一个非对比 JEA 是（Becker 和 Hinton，1992 年），它基于最大化两个分支的表示之间的相互信息的度量，看到不同的观点

同样的场景。也许 JEA 的第一个对比方法是所谓的“连体网络” （Bromley 等，1994）。这是为了验证手写在数位板上的签名而进行了对比训练。

十多年来，JEA 的想法基本上没有受到影响，直到我的小组 (Chopra et al., 2005; Hadsell et al., 2006) 和 Geoffrey Hinton的小组 (Goldberger et al. ., 2005)。随着深度学习的重生，一些论文使用 JEA 进行细粒度识别，包括人脸识别（Taigman et al., 2014）。

随着自监督学习方法的出现，通过对比训练的 JEA 的使用在过去几年中爆炸式增长，其中包括 PIRL (Misra and Maaten, 2020)、MoCo 和 MoCo-v2 (He et al., 2020; Chen et al., 2020)等人，2020b）和 SimCLR（Chen 等人，2020a）。

有些方法可以看作是“蒸馏”方法，其中“连体网络”的一个分支是教师/学生网络，其输出被用作另一个分支的目标。这包括将输出向量量化为离散集群原型的方法（参见 (Caron et al., 2020) 和前辈）。

近年来，出现了许多新的非对比方法，例如 BYOL (Grill et al., 2020)。但是本提案中提倡的非对比方法类通过最大化嵌入的信息内容来防止崩溃。这包括 Barlow Twins (Zbontar et al., 2021)、VICReg (Bardes et al., 2021)、基于白化的方法 (Ermolov et al., 2021) 和最大编码率降低方法（参见 (Dai et al., 2022）和其中的参考文献）。

7.3 人和动物的认知

与人类学习相比，当前机器学习方法的局限性是显而易见的（Lake 等人，2017a；Zaadnoordijk 等人，2022）。

幼儿可以快速学习抽象概念 (Murphy, 2002) 和模型，使他们能够导航、形成目标并计划复杂的动作序列以实现目标 (Gopnik 和 Meltzoff, 1997; Spelke 和 Kinzler, 2007; Carey, 2009; Gopnik 等人，2001 年）。

在认知科学中，依据大脑模型来构建世界模型的想法很常见，并激发了在机器中重现这一过程的尝试（Lake 等人，2017b；Orhan 等人，2020）。一些努力致力于构建视频数据集，以测试机器和婴儿的直觉物理常识（Riochet 等人，2019 年）。

计划能力是人类智能的一个经过充分研究的特征（Mattar 和 Lengyel，2022 年）。有证据表明，人们为规划构建简化的世界表示，其中不相关的细节被抽象掉（Ho et al., 2022）

意识是一个相当投机的话题，因为很难定义什么是意识。我不会推测所提议的架构的某些版本是否具有可与意识同化的属性，而只会提及 Dehaene 及其合作者的工作，他们提出了两种类型的意识，他们称之为 C1 和 C2。 C1 主要与注意力的调节有关，而 C2 需要自我监控能力，这可能与当前提案中配置器模块需要做的事情类似（Dehaene 等人，2021 年）。

八、讨论、局限性、更广泛的相关性

构建本提案的认知架构、实例化所有细节并让系统为常用任务工作并不是一件容易的事。通往成功的道路可能充满了无法预料的障碍。可能需要很多年才能将它们全部解决。

8.1 本提议的模型缺少什么？

需要做很多艰苦的工作来实例化提出的架构并将其转变为功能系统。在提议的架构的规范中，可能存在似乎无法解决的缺陷和陷阱。

第一个问题是是否可以从视频中构建和训练分层 JEPA。它可以学习 4.1 节中提到的抽象概念层次的类型吗？

与 JEPA 相关的一个有点悬而未决的问题是如何精确地对隐变量进行正则化以最小化其信息内容。提出了许多可能的机制：使隐变量离散、低维、稀疏或随机。但目前尚不清楚哪种方法最终会是最好的。

当前的提议没有为行为模块规定一种特定的方式来推断隐变量实例和最佳动作序列。虽然所有模块的可微性原则上可以使用基于梯度的优化来推断最佳动作序列，但优化问题在实践中可能非常困难。特别是当动作空间是离散的，或者从动作到代价的函数非常不平滑时，基于梯度的方法可能无效，需要使用其他（无梯度）搜索方法（动态规划、信念传播、MCTS 、SAT 等）。

在模式二规划/推理中实例化隐变量的多个配置可能需要本提案中未描述的附加机制。人类似乎被赋予了通过对感知的替代解释自发循环的能力，正如内克尔立方体和其他具有几种同样合理解释的视觉错觉所证明的那样。在本模型的上下文中，模糊感知的不同解释可以由隐变量的不同值来表示。虽然人们可以想象一些探索性机制来系统地探索可能的隐变量值的空间，但这里没有描述这种机制。

本提案没有具体说明各个模块的架构细节。例如，预测器很可能在其微架构中需要某种动态路由和门控电路。低级表示的预测器可能必须专门用于表示可能在短期内发生的那种小的表示转换。处理更高级别表示的预测器模块可能需要更通用的架构来操作对象及其关系。但本提案中没有具体说明这些。

短期记忆的精确结构和功能以及它如何用于表示对世界状态的信念也有些模糊。最初的记忆网络系统及其继任者包含这样的想法，即神经网络可以使用联想记忆作为工作记忆来存储和检索关于计算周期之间世界状态的信念（Bordes 等人，2015；Sukhbaatar 等人；2015）。但是让这样的架构适用于复杂的规划和控制可能会很困难。

在当前提案的所有最不为人知的方面中，配置器模块是最神秘的。特别是，在规划一项复杂的任务时，配置器应该识别子目标的序列并配置代理以连续完成这些子目标。没有具体说明如何做到这一点。

这只是一个可预见问题的列表，但是随着所提议系统的实例被放在一起，许多问题和问题将不可避免地浮出水面。

8.2 提议方法的更广泛相关性

尽管所提出的架构并不是专门为模拟人类和其他动物的自主智能、推理和学习而设计的，但我们可以得出一些相似之处。以下内容虽然有些推测性，但是可以作为连接某些概念的一种方式，提供和启发那些正在做相关工作的认知科学方面和神经科学方面的研究人员。

8.2.1 这种架构能否成为动物智能模型的基础？

本提议的架构中的许多模块在哺乳动物大脑中都有执行相似功能的对应模块。

感知模块对应于视觉皮层、听觉皮层和其他感觉区域，以及一些关联区域。
世界模型和评估模块对应于前额叶皮层的各个部分。
内在成本模块对应于参与奖励的基底神经节中的结构，包括杏仁核。
可训练的评估模块可能对应于参与奖励预测的前额叶皮层的一部分。
短期记忆模块的功能与已知的海马体重叠。
配置器模块可能对应于前额叶皮层中执行控制和调节注意力的结构。
行为模块重新组合前运动皮层中详细制定和编码运动计划的区域。

预测世界模型的思想长期以来一直是认知科学中的一个突出概念，而预测编码的思想一直是神经科学中的一个突出概念。 JEPA 架构和相应的非样本对比自监督学习方法在一定程度上符合预测编码和高效编码的思想。

所提出的架构有一个单一的世界模型引擎，可以由配置器针对当前的任务进行配置。我认为，这不仅可以通过硬件重用来赋予计算优势，还可以让知识在多个任务之间共享。人脑中有一个单一的、可配置的世界模型引擎的假设可以解释为什么人类基本上可以一次执行单一的“有意识”推理和计划任务。

一个高度猜测的想法是，意识错觉可能是大脑中类似配置器的模块的副作用，该模块监督大脑其余部分的功能并为当前的任务配置它。也许如果大脑足够大，可以容纳许多独立的、不可配置的世界模型，配置器就没有必要了，意识的幻觉就会消失。

动物和人类的情感基础是什么？瞬时情绪（例如疼痛、快乐、饥饿等）可能是大脑结构的结果，这些大脑结构的作用类似于提议的架构中的内在成本模块。其他情绪，如恐惧或兴高采烈可能是大脑结构预期结果的结果，其功能类似于可训练评估模块。

通过搜索最优动作来驱动智能体行为的成本模块的存在表明，这里提出的自主智能智能体将不可避免地拥有情绪等价物。以类似于动物和人类的方式，机器情感将是内在成本的产物，或者是可训练的评估模块对结果的预期。

8.2.2 这可能是通向机器常识的途径吗？

人们普遍认为，当前的人工智能系统都没有任何水平的常识，即使是在家猫身上可以观察到的水平。动物似乎能够获得足够的关于世界如何运作的背景知识来展示某种程度的常识。相比之下，人工智能系统，即使在（预）用自我监督模式（例如从文本）训练时，似乎也表现出非常有限的常识水平，这使得它们有些脆弱。

例如，大型语言模型 (LLM) 似乎拥有从书面文本中提取的大量背景知识。但是，人类的许多常识性知识都没有在任何文本中体现出来，而是我们与物理世界互动的结果。由于 LLM 对潜在现实没有直接经验，因此他们所展示的常识知识类型非常浅薄，并且可能与现实脱节。

常识的一个可能特征是使用世界模型来填补空白的能力，例如预测未来，或者更一般地说，填补从感知或记忆中无法获得的关于世界的信息。根据这个定义，常识是一种从世界模型集合或可配置以处理当前情况的单个模型引擎中出现的能力。这种常识观完全属于“扎根智能”阵营：常识是从低层次抽象到高层次的模型集合，一直到通过语言获得的知识。

可配置的 H-JEPA 的自监督学习能否构成机器常识的基础？一个经过适当训练和配置的 H-JEPA 能否嵌入足够的预测知识并捕获足够多的对世界的依赖关系以表现出某种程度的常识？

我推测，常识可能来自学习世界模型，这些模型捕捉世界中观察的自洽性和相互依赖性，允许代理填补缺失的信息并检测其世界模型的违规动作。

8.3 都是关于缩放的吗？奖励真的够吗？

本节回顾了近年来提出的一些实现人类智能的潜在途径。经过训练以预测文本和其他模式的大型 Transformer 架构的惊人力量导致一些人声称我们只需要扩展这些模型（Brown 等人，2020；Brown 等人，2020）。强化学习对游戏和其他简单环境的惊人力量导致其他人声称奖励就足够了（Silver et al., 2021）。最后，当前深度学习系统的局限性

推理导致一些人声称深度学习系统需要通过硬连线电路来增强以实现符号操作（Marcus and Davis，2019）

8.3.1 缩放是不够的

大型语言模型 (LLM)，以及更普遍地，采用生成式自我监督学习形式训练的大型转换器架构，在捕获文本中存在的知识方面取得了惊人的成功。这在 AI 社区引发了一场争论，即是否可以通过扩展这些架构来实现人类级别的 AI。我在这场辩论中的立场是，我不认为仅仅扩展模型规模是足够的，主要有两个原因。

首先，当前模型对“标记化”数据进行操作并且是生成的。每个输入模态都必须转换为编码为向量的“标记”序列（或集合）。虽然这适用于已经是一系列离散标记的文本，但它不太适合连续的高维信号，例如视频。用于 LLM 风格模型的 SSL 训练类型可以看作是一种特定类型的无潜在生成模型，使用一种称为去噪自动编码器 (Vincent et al., 2010) 的特定对比方法进行训练，或者在这种情况下掩码自动编码器（Devlin 等人，2018 年）。

因此，它们受到生成模型、隐变量自由模型和对比方法的限制。生成模型难以表示连续空间中的复杂不确定性。 LLM 通过仅处理有限集合中的离散对象（例如字典中的单词）来简化预测中不确定性的表示。表示关于被预测单词的不确定性归结为生成一个向量，该向量的组成部分是字典中每个单词（或离散标记）的分数或概率。但这种方法不适用于高维连续模态，例如视频。为了表示这些数据，有必要消除与要通过编码器建模的变量有关的不相关信息，如 JEPA 中那样。此外，信号的高维性排除了通过归一化分布表示不确定性。

其次，目前的模型只能进行非常有限的推理形式。这些模型中抽象隐变量的缺失妨碍了对感知的多种解释的探索以及为实现目标而寻找最佳动作方案的可能性。事实上，在此类模型中动态指定目标基本上是不可能的。

8.3.2 奖励不够

所提出的架构旨在最大限度地减少系统在现实世界中学习任务所需的操作数量。它通过学习一个世界模型来做到这一点，该模型在不采取动作的情况下尽可能多地获取关于世界的知识。它使用的内在成本是测量或预测的世界状态的可微函数。这使得该提议更类似于最优控制而不是强化学习。在所提出的模型中，大部分学习发生在世界模型（感知编码器和预测器）的级别。在这种情况下，强化学习（RL）的作用是什么？

在大多数 RL 设置中，奖励（或成本，即负奖励）由环境提供给代理。换句话说，内在成本模块是环境本身，因此是一个未知函数。函数的价值可以通过观察世界的状态、采取动作并观察得到的回报来探测。奖励相对于动作或状态的梯度是未知的，必须由下式估计

策略梯度方法中的多重动作试验。在 Actor-Critic 方法中，奖励函数由一个经过训练以近似预期未来奖励值的批评模块来近似。评估模块提供了奖励函数的可微近似。

但是无模型强化学习的样本效率极低，至少与人类和动物学习相比，需要大量试验才能学习技能。标量奖励为学习系统提供低信息反馈。因此，一个纯 RL 系统需要大量的试验来学习甚至相对简单的任务。基于模型的 RL 显然具有显着提高样本效率的潜力。但问题变成了如何训练世界模型：它是通过采取动作和获得奖励来训练的，还是通过预测世界状态来训练的？在后一种情况下，奖励显然是不够的：系统中的大多数参数都经过训练以预测世界上的大量观察结果。与 Silver 等人最近发表的立场文件的标题相反。 (Silver et al., 2021)，奖励在这种情况下的作用相对较小。

8.3.3 推理需要符号吗？

在所提出的架构中，推理归结为行为模块使用各种搜索方法来找到合适的动作和隐变量组合的能量最小化或约束满足，如第 3.1.4 节所述。

如果动作和隐变量是连续的，并且如果预测器和成本模块是可微的并且表现相对良好，则可以使用基于梯度的方法来执行搜索。但是在某些情况下，预测器的输出会随着动作的变化而快速变化，并且动作空间基本上是不连续的。这很可能发生在选择更可能是定性的高抽象层次上。自动驾驶汽车的高级决策可能对应于“在前叉处左转或右转” ，而低级版本将是一系列车轮角度。

如果动作空间是离散的且基数较低，则行为模块可能会使用穷举搜索方法。如果动作集基数太大，因此分支因子太大，行为模块可能不得不求助于启发式搜索方法，包括蒙特卡洛树搜索或其他无梯度方法。如果成本函数满足贝尔曼方程，则可以使用动态规划。

但是基于梯度的搜索方法相对于无梯度搜索方法的效率优势促使我们寻找方法让世界模型训练过程找到分层表示，其中规划/推理问题构成对其他离散问题的连续松弛.

还有一个问题是这里提出的推理类型是否可以涵盖人类和动物能够进行的所有形式的推理。

（完）