杨立昆重磅论文：通往自主机器智能之路（一）

科技 08-02 来源：自然语言初学者

摘要

机器如何能像人类和动物一样高效地学习？机器如何学会推理和计划？机器如何在多个抽象层次上学习感知和动作计划的表示，使它们能够连续地进行推理、预测和计划？本建议书提出了构建自主智能代理的架构和训练范式。它结合了可配置的世界预测模型、通过内在动机驱动的行为以及通过自我监督学习训练的分层联合嵌入架构等概念。

关键词：人工智能、机器常识、认知架构、深度学习、自我监督学习、基于能量的模型、世界模型、联合嵌入架构、内在动机。

一、序言

本文不是传统意义上的技术或学术论文，而是一份建议书，表达了我对通往智能机器之路的愿景，这些机器学习更像动物和人类，可以推理和计划，其动作由内在目标驱动，而不是通过固定的程序、外部监督或外部奖励。本文中描述的许多想法（几乎全部）都已经由许多作者在各种背景下以各种形式提出过。本文不要求它们中的任何一个的优先权，但提出了如何将它们组合成一个一致的整体的建议。特别是，这篇文章指出了未来的挑战。它还列出了一些可能或不可能成功的途径。

本书尽可能少用行话，尽可能少使用数学先验知识，以吸引具有广泛背景的读者，包括神经科学、认知科学和哲学，以及机器学习、机器人学、和其他工程领域。我希望这篇文章能帮助大家将人工智能领域一些看似不相关的研究整合到一起。

二、简介

动物和人类表现出的学习能力和对世界的理解远远超出了当前人工智能和机器学习系统的能力。

一个青少年怎么可能在大约 20 小时的练习中学会开车，而孩子怎么可能只需要很少的接触就学会语言。大多数人怎么会知道如何在他们从未遇到过的许多情况下采取动作？相比之下，为了可靠，当前的机器学习系统需要通过大量试验进行训练，以便在训练期间能遇到足够多次即使最罕见的情况的组合。尽管如此，即使在从人类专家那里获得大量监督数据之后，在虚拟环境中经历了数百万次强化学习试验之后，以及在工程师将数百种动作硬编码到系统中之后，我们最好的机器学习系统在现实世界的任务（例如驾驶）中仍远未达到人类的可靠性。

原因可能在于人类和许多动物具有学习“世界模型”的能力，即世界如何运作的模型。

今天，人工智能研究必须解决三个主要挑战：

机器如何主要通过观察来学习如何表征世界、学习如何预测和学习如何动作？
现实世界中的交互是成本巨大并且非常危险的，智能代理应该在没有交互的情况下仅通过观察尽可能多地了解世界，以尽量减少学习特定任务所需的高成本和高危险的试验。
机器如何以与基于梯度的学习兼容的方式进行推理和计划？
我们最好的学习方法依赖于估计和使用损失的梯度，这只能在可微架构中工作，并且很难与基于逻辑的符号推理相协调。
机器如何学习以分层方式、多个抽象级别和多个时间尺度来表示感知和动作计划？
人类和许多动物能够构想多层次的抽象，通过将复杂的动作分解为较低层次的序列，可以进行长期预测和长期规划。

本篇文章提出了一种智能代理架构，可以解决所有三个挑战。

本文的主要贡献如下：