李飞飞眼里的“AI 北极星”：什么是具身智能？--粉丝服务平台-粉丝头条-fensifuwu.com

李飞飞眼里的“AI 北极星”：什么是具身智能？

科技 06-30 来源：浅黑科技

2009 年，时任普林斯顿大学计算机科学家的李飞飞，构建了一个叫做 ImageNet 的数据集，触发了新一代人工智能浪潮。

ImageNet 的数据集包含了数以百万计的带标签的图像，这些图像可以训练机器学习模型识别图片中的物体。

2015 年，通过 ImageNet 数据集训练出的机器模型，识别能力超过了人类。

作为 AI 领域最知名的华人女科学家之一，李飞飞最喜欢引用爱因斯坦的一句话：“提出问题本身，通常比解决问题重要的多”。

那么，在人工智能领域，什么才是最重要的问题？

李飞飞把这样的问题称为“AI 北极星” (AI North Star)。

20 世纪末期，人工智能的“AI 北极星”是视觉智能中的物体识别，到了 21 世纪初，“AI 北极星”是图像分类。

数据集 ImageNet 就是李飞飞探索出的一颗“北极星”，但不久后，李飞飞又踏上征程，寻找另一颗“北极星”，希望能够推动人工智能走向真正智能化。

站在另一个新时代的起点，什么才是下一个“AI 北极星？”（What is the next AI North Star?）

对这一问题，答案肯定不止一条。

但对于李飞飞来说，下一个令人激动的“AI 北极星”，是“AI 在真实世界中积极地感知和互动”。

在一次谈话中，李飞飞特意提到，她的这一观点主要受两本畅销书启发。

一本是由动物学家 Andrew Parker 所写的《In The Blink Of An Eye》。

Andrew Parker 提出：“寒武纪的爆炸是由突然进化出来的视觉引发的，正是视觉的出现引发了一场进化的竞赛，在这场竞赛中，动物要么进化、要么死亡。”

另一本则是由哲学家 Peter Godfrey-Smith 所写的《Other Mind》。

Peter Godfrey-Smith 认为：“神经系统最原始和最基本的功能，就是将感知与行动联系起来。”

当下，AI 已经拥有了视觉，接下来，倘若在真实环境中，AI 能够积极地感知和互动，必将引发人工智能的新一轮进化。

除了这两本书，还有一个实验，也间接启发了李飞飞。

这个实验是由 Held 和 Hein 在 1963 年完成，实验主体是两只新出生的小猫。

其中一只能够主动探索外部世界（通过在笼子中走动，来观察周围环境）；

另一只则是被动观察外部世界（不能自由行动，是由另一只小猫的运动带动杠杆，从而观察周围环境）。

实验结果表明，数周之后，两个小猫的神经系统产生了巨大差异，被动组的小猫未能发展具备完整功能的感知系统，而主动组的小猫则可以。

由此，李飞飞认为，AI 下一个激动人心的“北极星”，便是来自于对世界的积极感知和互动。

在这种感知和互动之间，存在着一个至关重要的循环，它驱动着学习、理解、推理和计划等能力。

对于 AI 智能体，可探索的环境包括多模型、多任务以及社交等。

于是，李飞飞的重心，放在了研究以及构建具备互动学习能力的智能体，这些智能体通过感知和驱动来学习和理解世界。

智能体/代理（Agents）是人工智能领域的一个主要研究课题，分为非具身智能和具身智能。

李飞飞深耕的具身智能，是一种通过创建软硬件结合的智能体，可以简单理解为各种不同形态的机器人，通过在真实的物理环境下执行多样化的任务，来完成人工智能的进化过程。

智能生物的智能化程度，和它的身体结构之间，存在很强的正相关性。

对于智能生物来说，身体不是一部等待加载“智能算法”的机器，而是身体本身就参与了算法的进化，这和地球生物进化是相同原理。

今天地球上所有的智力活动，都是生物通过自己的身体，真真切切地与环境产生交互之后，通过自身的学习和进化所遗留下来的“智力遗产”。

一个物种在前几代通过长期和艰苦的深度学习获得的行为，在后几代中会变成一种类似本能的习惯。

这验证了鲍德温效应（The Baldwin effect）：指没有任何基因信息基础的人类行为方式和习惯，经过许多代人的传播，最终进化为具有基因信息基础的行为习惯的现象。

李飞飞的工作重点集中在 AI 智能体上，这种智能体不仅能接收来自数据集的静态图像，还能在三维虚拟世界的模拟环境中四处移动，并与周围环境交互。

具身 AI 的工作包括任何可以探测和改变自身环境的智能体。在机器人技术中，AI 智能体总是生活在机器人身体中，而真实模拟中的智能体可能有一个虚拟的身体，或者可能通过一个移动的相机机位来感知世界，而且还能与周围环境交互。

注意，具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。

虽然研究人员早就想为 AI 智能体创造一个真实的虚拟世界，供其来探索，但事实上，虚拟世界真正创建的时间只有 5 年左右。

而且，这种能力来自于电影和视频游戏行业对图像的改进。

2017 年，AI 智能体可以像在家里一样逼真地描绘室内空间。虽然是虚拟的，但却是字面上的「家」。

艾伦人工智能研究所的计算机科学家，构建了一个名为 AI2-Thor 的模拟器，让智能体在自然的厨房、浴室、客厅和卧室中随意走动。

智能体可以学习三维视图，这些视图会随着他们的移动而改变，当他们决定近距离观察时，模拟器会显示新的角度。

这种新世界也给了智能体一个机会，去思考一个新维度「时间」中的变化。

西蒙弗雷泽大学的计算机图形学研究员 Manolis savva 说：“这是一个很大的变化。在具身 AI 设定中，你有这些时间上的连贯信息流，你可以控制它。”

这些模拟的世界现在已经足够好，可以训练智能体完成全新的任务。

它们不仅可以识别一个物体，还可以与它互动，捡起它并在它周围导航。

这些看似很小的步骤对任何智能体来说都是理解其环境的必要步骤。

2020 年，虚拟智能体拥有了视觉以外的能力，可以听到虚拟事物发出的声音，这为其了解物体及其在世界上的运行方式提供了一种新的视角。

到目前为止，衡量具身 AI 进展的一种简单方法是：将具身智能体的表现与在更简单的静态图像任务上训练的算法进行比较。

研究人员指出，这些比较并不完美，但早期结果确实表明，具身 AI 的学习方式不同于它们的前辈，有时候比它们的前辈学得还好。

Meta AI 一位研究主管、佐治亚理工学院计算机科学家 Dhruv Batra 介绍说，他们在一个名叫「AI Habitat」的 Meta 虚拟世界中训练智能体，并给了它一个 GPS 和一个指南针，结果发现它可以在标准数据集上获得 99.9% 以上的准确率。

最近，他们又成功地将结果扩展到一个更困难、更现实的场景——没有指南针和 GPS。

结果显示，智能体仅借助移动时看到的像素流来估计自身位置，就实现了 94% 的准确率。

导航仍然是具身 AI 中最简单的任务之一，因为智能体在环境中移动时不需要操作任何东西。

到目前为止，具身 AI 智能体还远远没有掌握任何与对象相关的任务。部分挑战在于，当智能体与新对象交互时，它可能会出现很多错误，而且错误可能会堆积起来。

目前，大多数研究人员通过选择只有几个步骤的任务来解决这个问题，但大多数类人活动，如烘焙或洗碗，需要对多个物体进行长序列的动作。

要实现这一目标，AI 智能体将需要更大的进步。

在这方面，李飞飞可能再次走在了前沿。

她的团队开发了一个模拟数据集——BEHAVIOR，希望能像她的 ImageNet 项目为目标识别所做的那样，为具身 AI 作出贡献。

这个数据集包含 100 多项人类活动，供智能体去完成，测试可以在任何虚拟环境中完成。通过创建指标，将执行这些任务的智能体与人类执行相同任务的真实视频进行比较，李飞飞团队的新数据集将允许社区更好地评估虚拟 AI 智能体的进展。

一旦智能体成功完成了这些复杂的任务，李飞飞认为，模拟的目的就是为最终的可操作空间——真实世界——进行训练。

在李飞飞看来，模拟是机器人研究中最重要、最令人兴奋的领域之一。

无论身处模拟还是现实世界，具身 AI 智能体都在学习如何更像人，完成的任务更像人类的任务，这一挑战巨大，好在，越来越多的研究者正在加入并为此付出努力。

文 | 木子Yanni

嗨，这里是浅黑科技，在未来面前，我们都是孩子。

想看更多科技故事，欢迎戳→微信公众号：浅黑科技。

北极星眼里智能

发表评论

留言与评论（共有 0 条评论） “”

网友投稿普通会员

我还没有学会写个人说明

124711 篇文章

4076648 次浏览

最近文章

李飞飞眼里的“AI 北极星”：什么是具身智能？

相关文章

推荐文章

最热点击文章

热门标签