斯坦福李飞飞：计算机视觉下一个“北极星”或是具身AI、社会智能

科技 07-07 来源：阿尔法公社

阿尔法公社

重度帮助创业者的天使投资基金

━━━━━━

阿尔法公社说：李飞飞教授是人工智能和计算机视觉领域的领军人物之一，近日她发表一篇题为《寻找计算机视觉“北极星”》的文章，回顾了计算机视觉发展的重要节点，阐述了在技术发展中，提出关键问题，找到“北极星”的重要性，展望了计算机视觉的下一个“北极星”，欢迎计算机视觉领域的从业者和创业者参考。

计算机视觉是AI研究的基础领域之一，也为深度学习等方面的巨大进步做出了贡献。

斯坦福大学计算机科学系教授李飞飞认为，这些进步几乎都依赖于对“北极星”（指代科学研究的关键问题）的追求。

近日，她在Daedalus上发表了一篇题为《寻找计算机视觉“北极星”》（Searching for Computer Vision North Stars）的文章，阐述了计算机视觉中对象识别的最新发展观点、ImageNet数据集的简要历史与相关工作进展。

图 | 李飞飞团队（前排右二）（来源：斯坦福大学）

李飞飞表示，关键问题的提出会推进计算机视觉，甚至整个AI领域的发展。

目前，AI领域正在快速发展，从垃圾邮件过滤器、个性化零售到自动驾驶等，AI的成功实施无处不在。就像阿尔伯特·爱因斯坦（Albert Einstein）所说：“提出一个问题往往比解决一个问题更重要。”

但这些实践背后涉及的科学问题或者哪些问题最需要解决可能并不总是显而易见的。一旦制定了某领域的一个基本问题——确定一颗“北极星”，就可以推动该领域跨越式发展。

李飞飞提到，她在计算机视觉上的研究，一直由自己的系列“北极星”所驱动。

视觉能力是智能的核心，正如眼睛的进化是造就包括人类在内的许多不同物种的关键。人类可以使用视觉感知来理解世界，并与它互动。那么，怎么让AI去看呢？这里面需要解决许多问题，而对基本问题的选择是计算机视觉科学探索的重要组成部分。

“起初，怎么样让计算机正确识别给定图像中的内容是我们特别想要了解的问题。2000年代初，由于互联网和数码相机的快速发展，数字图像的数量呈爆炸式增长，从而产生了自动对照片集进行编目，并使用户能够搜索这些图像集等需求，而这就需要用到对象识别。”李飞飞在文章中说到。

识别物体需要理解数字图像在视觉世界中意味着什么，计算机无法理解这些概念。对于计算机来说，数字图像只不过是像素的集合，没有任何意义。

教计算机识别物体需要以某种方式让它将每个数字集合连接到一个有意义的概念。

计算机从接触的例子中学习，这是机器学习的本质。具体而言，这意味着只有通过访问大量、多样化、高质量的训练数据，才能在对象识别方面取得重大进展。

因此，李飞飞等人在2009年创建了一个名为ImageNet的数据集来实现以下三个设计目标：规模（大量数据）、多样性（丰富多样的对象）和质量（高分辨率、准确标记的对象）。

“专注于这三个目标的过程中，我们已经从一般的“北极星”（图像识别）转向了更具体的问题表述。”李飞飞说。

据了解，ImageNet包括上千万张标记图像，可供机器学习模型训练。如今，当我们在互联网上搜索图像、根据智能手机里的人脸自动对照片进行分组时，都会使用与ImageNet相关的算法。

此外，研究人员还将ImageNet开源，并免费供人使用。同时，他们还设立了ImageNet大规模视觉识别挑战赛（简称ImageNet挑战赛）。

值得一提的是，在2012年ImageNet挑战赛上，一个团队首次将卷积神经网络（一种受人脑工作方式启发的算法）应用于对象识别，识别图像的准确率比当时第二名高出 41%。在 2015 年，这些机器识别图像的准确率达到 97.3%，超越了人类的识别能力（准确率约为 95%）。

尽管神经网络作为机器学习的方法已经存在了几十年，但它直到当年的 ImageNet 挑战赛才被广泛使用，在某一年中，几乎每篇 AI 论文都是关于神经网络的。像谷歌和 Meta（原 Facebook）这样的大型科技公司都在部署基于神经网络的技术。

然后，对象识别与计算机视觉中的其他任务，如对象检测和活动识别等之间存在重要的相似之处。

这种相似性意味着计算机不需要从头开始处理新任务。从理论上讲，计算机应该能够利用这些相似性，应用它从一项任务中学到的知识来执行一项稍微不同的任务。对于计算机和人类来说，这种将知识从一个任务推广到类似任务的过程被称为迁移学习。例如，人学会了法语，再学习西班牙语就会相对容易一点。事实上，能够发现任务之间的相似之处，并利用这种共享的知识来帮助我们学习新任务，是人类智能的标志之一。

计算机进行迁移学习的一种方法是通过预训练。即在给机器学习模型一个新的挑战之前，首先使用已有的有效数据训练它做类似的事情。如今，几乎每种计算机视觉方法都使用在 ImageNet 上预先训练的模型。对象检测是将 ImageNet 数据应用于对象识别以外用途的第一次尝试。

计算机视觉（或视觉智能）还有着更为广泛的应用，例如，医生可以用计算机视觉来帮他们诊断和治疗患者；用机器学习通过分析大量卫星图像可评估作物产量、环境和气候变化等；科学家在机器的帮助下，可以发现新的物种、更好的材料和未知的边界。

最后，在计算机视觉领域，下一步的“北极星”还有哪些？

李飞飞表示，其中最大的一个是在具身AI领域，包括用于导航、操作等任务的类人机器人和在太空中移动的有形和智能机器、机器人吸尘器、工厂里的机器人手臂、自动驾驶汽车等。

她还谈到，“还有一个是视觉推理。比如，在 2D 场景下对 3D 关系的理解。要 AI 执行将饭桌上的水杯移动到盘子右侧这样的简单任务也需要视觉推理。除此之外，理解人类的社会关系和意图更具复杂性，基本的社会智能是另一个关键问题。例如，如果一个女人抱着一个小女孩在她的腿上，人们很容易猜到这两个人可能是母女，但计算机还很难判断这类情况。”

本文授权转载自DeepTech深科技。

关于阿尔法公社

阿尔法公社（Alpha Startup Fund）是中国领先的早期投资基金，由曾带领公司在纳斯达克上市的许四清和前创新工场联合管理合伙人蒋亚萌在2015年共同创立。

阿尔法公社基金的三大特点是系统化投资、社交化创业者社区运营和重度产业资源加速成长。专注在半导体、企业服务软件、人工智能应用、物联网技术、金融科技等科技创新领域进行早期投资。目前已经在天使轮投资了包括白山云科技、领创集团(Advance Intelligence Group)、Zenlayer、帷幄科技、所思科技等为数众多的优秀项目。

阿尔法公社获得36氪“2017年度最受创业者欢迎天使投资机构Top20”、“2019年中国企业服务领域最受LP欢迎早期投资机构”、“2019年中国企业服务领域最具发现力投资机构TOP10”以及“2020中国最受创业者欢迎早期投资机构TOP50”、“2021年度中国最受LP认可早期投资机构TOP30”、“2021年中国最受创业者欢迎早期机构TOP50”、“2021年中国跨境出海领域投资机构TOP10”等奖项；获得钛媒体“2020 EDGE TOP50投资机构”；还获得母基金研究中心“2018年中国早期基金最佳回报TOP30”、“2019中国早期基金最佳回报TOP30”，以及母基金周刊“2020中国投资机构软实力GP100科技力Top10”等奖项。

创始合伙人许四清获得2020年“福布斯中国创投人100”、投中“2019年中国最佳早期投资人TOP50”，以及36氪“2018年中国企业服务领域投资人TOP10”、“2019企业服务领域投资人TOP20”等奖项。创始合伙人蒋亚萌获得2019及2021年“福布斯中国创投人100”、36氪“2019年中国中生代投资人TOP50”大奖。