2009年,普林斯顿大学的计算机科学家李飞飞发明了一个数据集,它将改变人工智能的历史。该数据集被称为ImageNet,它包括数百万个标记图像,可以训练复杂的机器学习模型来识别图片中的某些内容。2015年,这些机器的识别能力超过了人类。不久之后,她开始寻找称之为另一颗“北极星”的东西,这将给人工智能带来一种不同的走向真正智慧的推动力。
她通过回顾5.3亿年前寒武纪大爆发的历史发现了灵感,当时许多陆栖动物物种首次出现。一种有影响力的理论认为,新物种的激增部分是由于第一次能看到周围世界的眼睛的出现。李飞飞意识到动物的视觉从来不会自行产生,而是“深深植根于一个需要在快速变化的环境中移动、导航、生存、操纵和改变的整体身体中”。“这就是为什么我很自然地转向(人工智能)更积极的愿景。”
如今,李飞飞的工作重点放在人工智能代理上,这些代理不仅接受数据集中的静态图像,而且可以在三维虚拟世界的模拟中四处移动并与环境交互。
这是一个被称为“具体化人工智能”的新领域的广泛目标,李飞飞并不是唯一一个拥抱这一目标的人。它与机器人学有重叠之处,因为机器人可以在物理上等同于现实世界中的具体AI代理和强化学习,强化学习总是训练交互代理使用长期奖励作为激励进行学习。但李飞飞和其他人认为,嵌入式人工智能可以推动从机器学习简单的能力(如识别图像)到学习如何通过多个步骤执行复杂的类人任务(如制作煎蛋饼)的重大转变。
加州大学伯克利分校的计算机科学家吉滕德拉·马利克(JitendraMalik)说:“很自然,我们会变得更加雄心勃勃,我们会说,‘好吧,构建一个智能代理怎么样?’这时,你会想到嵌入式人工智能。”。
创建ImageNet数据集的李飞飞制作了一套标准化的虚拟活动,以帮助评估这些学习机的进度
如今,嵌入式人工智能的工作包括任何可以探测和改变自身环境的代理。虽然在机器人学中,人工智能代理总是生活在机器人身体中,但现实模拟中的现代代理可能有一个虚拟身体,或者他们可以通过移动的相机有利位置感知世界,该位置仍然可以与周围环境交互。“体现的意义不在于身体本身,而是与你的环境互动和做事的整体需要和功能,”李飞飞说。
这种交互性为代理提供了一种全新的、在许多情况下更好的了解世界的方式。这是观察两个物体之间可能存在的关系和自己实验并导致这种关系发生之间的区别。有了这一新的认识,思维就会有更大的智慧。随着一套新的虚拟世界的建立和运行,嵌入式AI代理已经开始发挥这一潜力,在其新环境中取得了重大进展。
德国奥斯纳布吕克大学的具体人工智能研究员维维安·克莱(VivianeClay)说:“目前,我们还没有任何证据表明存在的智力不是通过与世界互动来学习的。”。
虽然研究人员长期以来一直希望为人工智能代理探索创建真实的虚拟世界,但直到过去五年左右,他们才开始构建虚拟世界。这种能力来自电影和视频游戏行业推动的图形技术的改进。2017年,人工智能代理可以在第一个真实描绘室内空间的虚拟世界中让自己在家里——在文字上,尽管是虚拟的家。艾伦人工智能研究所(AllenInstitute for AI)的计算机科学家建造了一个名为AI2 Thor的模拟器,让特工们可以在自然主义的厨房、浴室、客厅和卧室中漫步。代理可以研究三维视图,这些视图在移动时会发生变化,当他们决定更仔细地观察时,会暴露出新的角度。
这样的新世界也让特工们有机会在一个新的维度上思考变化:时间。西蒙·弗雷泽大学(SimonFraser University)的计算机图形学研究员马诺里斯·萨瓦(ManolisSavva)说:“这就是最大的区别。”。“在具体的人工智能设置中……你拥有这种时间上连贯的信息流,你可以控制它。”
这些模拟世界现在已经足够好了,可以训练代理完成全新的任务。他们不仅可以识别一个对象,还可以与它交互、拾取它并在它周围导航——这看似很小的步骤,但对于任何代理来说都是了解其环境的关键步骤。2020年,虚拟代理超越了视觉,聆听虚拟事物发出的声音,为了解对象及其在世界中的工作方式提供了另一种方式。
这并不是说工作已经完成了。斯坦福大学(StanfordUniversity)计算机科学家丹尼尔·亚明斯(DanielYamins)说:“它远没有真实世界那么真实,即使是最好的模拟器。”。Yamins与麻省理工学院和IBM的同事共同开发了ThreeDWorld,该软件将重点放在模拟虚拟世界中的真实物理上,比如液体的行为以及某些物体在一个区域是刚性的,而在另一个区域是软性的。
萨瓦说:“这真的很难做到。”。“这是一个巨大的研究挑战。”
尽管如此,AI代理开始以新的方式学习已经足够了。
到目前为止,衡量嵌入式人工智能进展的一种简单方法是将嵌入式代理的性能与在更简单的静态图像任务上训练的算法进行比较。研究人员指出,这些比较并不完美,但早期的结果确实表明,具体化人工智能代理的学习方式与他们的祖先不同,有时甚至更好。
在最近的一篇论文中,研究人员发现,具体化的AI代理在检测特定对象时更准确,比传统方法提高了近12%。艾伦人工智能研究所(AllenInstituteforAI)的计算机科学家、合著者鲁兹贝·莫塔吉(RoozbehMottaghi)说:“物体检测界花了三年多的时间才达到这一水平。”。“仅仅通过与世界互动,我们就取得了如此大的进步,”他说。
其他论文表明,当您将传统训练算法放入具体形式并允许它们只探索一次虚拟空间时,或者当您让它们四处移动以收集多个对象视图时,对象检测在传统训练算法中有所改进。
研究人员还发现,具体化算法和传统算法的学习方式有根本不同。有证据表明,神经网络是每一个具体算法和许多非具体算法学习能力背后的重要组成部分。神经网络是一种具有多层人工神经元连接节点的算法,松散地模仿人脑中的网络。在克莱(Clay)和纽约大学新任教授格雷斯·林赛(GraceLindsay)分别领导的两篇论文中,研究人员发现,具体化代理中的神经网络对视觉信息的反应活跃的神经元较少,这意味着每个神经元对其反应的选择性更强。非实体网络的效率要低得多,需要更多的神经元才能在大部分时间内保持活跃。Lindsay的研究小组甚至将具体化和非具体化的神经网络与活体大脑(老鼠的视觉皮层)中的神经元活动进行了比较,发现具体化的神经网络最为匹配。
Lindsay很快指出,这并不一定意味着具体化版本更好——它们只是不同而已。与目标检测论文不同,Clay和Lindsay在比较同一个神经网络的潜在差异方面的工作使代理完成了完全不同的任务,因此他们可能需要工作方式不同的神经网络来实现他们的目标。
但是,虽然比较具体化神经网络和非具体化神经网络是进步的一个衡量标准,但研究人员对改善具体化代理在当前任务中的性能并不感兴趣;这项工作将继续单独进行,使用传统的人工智能。真正的目标是学习更复杂、更人性化的任务,而这正是研究人员最兴奋看到令人印象深刻的进步迹象的地方,尤其是在导航任务方面。在这里,代理必须记住其目的地的长期目标,同时制定一个到达目的地的计划,以免迷路或撞到对象。
在短短几年内,由Meta AI研究总监、佐治亚理工学院计算机科学家Dhruv Batra领导的团队迅速提高了一种称为点目标导航的特定类型导航任务的性能。在这里,一个代理被放置在一个全新的环境中,并且必须导航到相对于起始位置的目标坐标(“前往北面5米、东面10米的点”),而无需地图。Batra说,通过给特工们一个GPS和一个指南针,并在Meta的虚拟世界AI Habitat中对其进行训练,“我们能够在标准数据集上获得99.9%以上的准确率。”。本月,他们成功地将结果扩展到了一个更为困难和现实的场景,即代理没有GPS或指南针。该代理仅通过根据移动时看到的像素流估计其位置,就达到了94%的准确率。
Dhruv Batra在Meta AI的团队创建了一个名为AI栖息地的虚拟世界,人工智能代理可以在20分钟内达到20年模拟经验
莫塔吉说:“这是一个了不起的进步。”。“然而,这并不意味着导航是一项已解决的任务。”在某种程度上,这是因为许多其他类型的导航任务使用更复杂的语言指令,例如“穿过厨房去拿卧室床头柜上的眼镜”,其准确率仅为30%到40%左右。
但是导航仍然是体现人工智能中最简单的任务之一,因为代理在环境中移动,而不操纵环境中的任何东西。到目前为止,具体化AI代理还远远没有掌握任何对象任务。挑战的一部分是,当代理与新对象交互时,有许多方法可能出错,错误可能会堆积起来。目前,大多数研究人员通过选择只需几个步骤的任务来解决这一问题,但大多数类似人类的活动,如烘焙或洗碗,都需要使用多个对象进行长时间的动作序列。要实现这一目标,人工智能代理需要更大的推动。
在这里,李飞飞可能再次站在了最前沿,她开发了一个数据集,希望它能像她的ImageNet项目对AI对象识别所做的那样,为具体化AI做些什么。她曾向人工智能社区赠送了一组巨大的图像数据集,供实验室标准化输入数据,现在她的团队发布了一个标准化的模拟数据集,其中包含100个可供代理完成的类人活动,可以在任何虚拟世界中进行测试。通过创建将执行这些任务的代理与执行相同任务的人类的真实视频进行比较的指标,Li的新数据集将允许社区更好地评估虚拟AI代理的进度。
一旦代理成功完成这些复杂的任务,李飞飞将模拟的目的视为对最终可操纵空间的训练:真实世界。
她说:“在我看来,模拟是机器人研究中最重要、最令人兴奋的领域之一。”。
机器人本质上是具体化的智能体。通过居住在现实世界中的某种物理身体,它们代表了最极端形式的具体化AI代理。但许多研究人员现在发现,即使是这些代理也可以从虚拟世界的培训中受益。
莫塔吉说:“机器人技术中最先进的算法,如强化学习等,通常需要数百万次迭代才能学到有意义的东西。”。因此,训练真正的机器人完成艰巨的任务可能需要数年的时间。
但在虚拟世界中训练他们首先提供了比实时训练快得多的机会,数千名特工可以在数千间稍有不同的房间里同时训练。此外,虚拟训练对机器人及其周围的任何人来说也更安全。
2018年,许多机器人学家开始更加重视模拟器,当时OpenAI的研究人员证明,将技能从模拟转移到现实世界是可能的。他们训练了一只机械手来操纵一个只有在模拟中才能看到的立方体。最近的成功使飞行无人机学会了如何避免空中碰撞,自动驾驶汽车可以在两个不同大陆的城市环境中部署,四条腿的狗形机器人可以在瑞士阿尔卑斯山完成一个小时的徒步旅行,而这需要人类的时间。
未来,研究人员还可能通过虚拟现实耳机将人类送入虚拟空间,从而缩小模拟与真实世界之间的差距。NVIDIA机器人研究高级主管、华盛顿大学教授迪特尔·福克斯(DieterFox)指出,机器人研究的一个关键目标是建造对现实世界中的人类有益的机器人。但要做到这一点,他们必须首先接触并学会如何与人类互动。
福克斯说:“利用虚拟现实将人类带入这些模拟环境,使他们能够演示事物并与机器人交互,这将是非常强大的。”。
无论是在模拟世界还是现实世界中,嵌入式AI代理都在学习更像我们的东西,学习更像我们每天做的任务。该领域正在所有前沿领域同时取得进展——新世界、新任务和新学习算法。
“我看到了深度学习、机器人学习、视觉甚至语言的融合,”李飞飞说。“现在我想,通过这次登月或北斗星对具体化人工智能的探索,我们将学习智能或人工智能的基础技术,这将真正带来重大突破。”
| 留言与评论(共有 0 条评论) “” |