——记清华大学教授王生进及其跨媒体智能团队
随着人工智能技术的发展,机器人已经走进我们的日常生活,人工智能与机器人深入融合,相互促进发展,让我们体会到了科技飞速发展的强劲动力。机器人灵巧精准操作是新一代人工智能的重要支撑,这也使得机器人自主抓取问题成为机器人研究领域的一个重要课题。大数据、深度学习时代的今天,有这样一支团队一直致力于机器手抓取系统设计与实现,并将新的数据规模与新的研究方法结合,取得了重大突破性成果。他们就是清华大学教授王生进及其跨媒体智能团队。
成就卓著 源于历练
“一种机器手抓取姿势质量的物理度量方法及装置”、“基于点云深度学习的6-DoF机器手抓取姿势检测系统”,这是王生进教授和他的团队展示给我们的最亮眼的两张“名片”。“一种机器手抓取姿势质量的物理度量方法及装置(2021113711660)”是已授权的发明型专利。“基于点云深度学习的6-DoF机器手抓取姿势检测系统(2022SR0283766)”是已授权的软件著作权。除此之外,2023年3月24日,王生进教授带领CV-AI队获得Intel室内机器人学习全球挑战赛识别赛道一等奖、操控赛道二等奖。此次室内机器人学习全球挑战赛是由英特尔中国研究院发起,联合清华大学、北京大学、上海交通大学、德国人工智能研究中心、意大利技术研究院共同推动的一项室内服务机器人全球赛事,旨在评估感知、认知和运动能力方面机器人学习技术的最新进展,更快地推进机器人学习研究和技术成熟度。挑战赛规格之高,也给参赛团队带来了极大挑战。王生进教授带领CV-AI队取得了骄人成绩,这不仅是对自己的考验,也是对社会最好回馈。
王生进是清华大学长聘教授,清华大学电子系信息认知与智能系统研究所所长、媒体大数据认知计算研究中心主任。兼任危爆物品探测技术国家工程中心副主任、中国图像图形学学会视频图像与安全专委会主任、IEEERegion10 北京分会学术活动委员会主席。主要研究方向为计算机视觉、机器学习、智能视频、行人再识别和多模态机器人脑计算。作为起草人之一,制定国家标准、行业标准共 7 项。荣获 2008 年国家科学技术进步奖二等奖、2006北京市科学技术奖一等奖、2019 年吴文俊人工智能科学技术奖自然科学奖二等奖、2019 年公安部科学技术奖二等奖。王生进带领的跨媒体智能团队是隶属于危爆物品探测技术国家工程中心、深度学习技术与应用国家工程中心一部、北京信息科学技术国家研究中心一部,主要研究方向为表征解耦UDA、人脸识别与行人再识别、物体检测与图像语义描述、多模态协作机器人等。团队在计算机视觉、机器学习、深度学习、大数据认知计算研究领域取得了创新成果;在物体识别研究中,提出多事例学习框架,在多个国际权威公开数据集上取得了国际先进成果;在图像检索研究中,大幅度提升了图像检索中视觉匹配的精确度。提出基于鉴别性视觉表达的高效性图像索引结构,创新性地将行人再识别与图像检索(ImageSearch)结合在一起,实现了一个快速准确行人再识别系统。构建并发布了行人再识别领域中三个大型数据集 iLIDS-VID、Market1501、MARS,总下载 13 600 余次,谷歌单篇引用逾 4190 次。获得国家发明专利“人脸检测方法与装置(ZL201710079126.6)”“用于目标检测的卷积神经网络模型的压缩方法和系统(ZL201810628418.5)”等 15 件。
精准操作 数项创新
AI 大模型赋能,机器人成为具身智能的最佳载体。机器人根据人类语言指令抓取指定物体是科研攻关的重点和难点。王生进教授和他的团队将此定义为语言交互式抓取,并围绕两大关键问题和研究难点展开了科技攻关,并取得了多项科技创新。
1 基于多模态感知和推理的交互式抓取策略VL-Grasp
语言交互式抓取系统是指机器人理解人类的指令,辨别歧义物体,在复杂环境中结合人类指令对被描述的目标物体进行感知和定位,并能够在多场景多视角下完成抓取操作。完成语言交互式抓取系统,显然有两大关键问题需要解决:一是感知——如何结合视觉和语言信息定位特指目标物体;二是决策——如何在多视角多场景下对各种物体实现自适应的抓取。同步需要解决两大研究难点:一是目标物体的歧义性——即同一场景出现多个与目标物体相同或相似的同类物体,此时如何分辨歧义物体;二是多视角抓取的泛化性——基于单视角的点云信息对场景中的物体做出鲁棒的抓取预测。围绕关键问题和研究难点,王生进教授带领他的团队认真分析了语言交互式抓取技术实现路径,创建了严谨的交互式抓取流程体系和网络框架。通过基于视觉和语言的目标物体定位——视觉语言推理,借助语音识别,团队将人传递给机器人的指令转换为文本,如“能把架子底部的蓝色可乐递给我吗?”;通过点云过滤模块,并与6-Dof抓取姿势检测任务(6-dof grasp pose detection)结合起来,实施准确无误的抓取操作。系统性的实验验证了成果:团队实现了基于语言指令的目标指向性的交互抓取,消除了多个同类物体同时出现的定位歧义,提升了机器人感知的智能能力。创新地将视觉语言推理(visual grounding)任务与6-Dof抓取姿势检测任务(6-dof grasp pose detection)结合起来,实现了多角度多场景确定目标的抓取操作。重新设计的点云过滤模块也提高了交互抓取在实际操作中的实用性和成功率。
2 面向机器人室内学习的视觉语言推理数据集RoboRefIt
机器人执行指令的前期是必须理解指令内涵,并能够准确操作。如何将人类语言转换为机器人的指令,是实现抓取的首要任务。王生进教授和他的团队研究建立了一个新颖的面向机器人室内学习的视觉语言推理数据集RoboRefIt,基于视觉语言推理算法,机器人可以结合图片信息和描述语句信息来定位目标物体位置。创建的面向机器人场景的视觉语言推理数据集,RoboRefIt。可谓是机器人的“活字典”,主要包含66类可抓取的桌面物体,适应于机器人操作,涉及食品、水果、工具、洗漱用品等生活中常见物体。数据集主要采集室内场景,包括桌子、洗手台、沙发、椅子、抽屉、架子多类场景类型。共包含10872 张RGBD图片,生成了50758 个描述语句。语言描述符合机器人抓取的指令,比如:“我想抓起魔方”、“我希望抓起那个白色的电动牙刷”等等。其中也包含5636张具有歧义性的图片。此视觉语言推理数据集旨在帮助机器人通过人类的语言命令来找到和定位相对应物体的位置,以便于进行下一步交互的操作,如抓取操作。
3 6-Dof抓取姿势检测,抓取质量度量方法:混合物理度量
现有抓取姿势检测算法与实例分割等前置任务结合得较差,不具备通用泛化能力;机械臂运动存在奇点,在算法计算时不能考虑到控制的局限性;遮挡、重叠物体检测难度大。针对上述技术难点,研究团队取得了如下创新进展:一方面,设计了一个点云深度学习框架,输入场景点云,根据物体形状、位置、结构等几何特征,对夹爪姿势的各个几何参数的预测;另一方面,根据人类抓取物体的习惯,如倾向于手与物体接触部位比较平坦,抓取部位更加贴近物体的重心,经过物体与夹爪的物理接触分析,将其转换为抓取姿势的置信度度量,与机器手 6-Dof 抓取检测已有的力闭合度量结合起来,设计了一个混合物理度量,得到一种更加合理的抓取姿势检测的置信度,从而模型可以学习到人类的这种抓取习惯。实验证明:设计的混合物理度量比力闭合度量更鲁棒和有效。原本被力闭合度量分配相同置信度分数的抓取姿势,在混合物理度量下得到了更加精细且符合人类观察的度量结果。
4 基于多分辨率点云深度学习和局部注意力机制的6-Dof抓取检测网络FGC-GrsapNet
为了提高模型在精细标签下的预测能力,王生进教授和他的团队进一步设计了一个称为FGC-GraspNet的多分辨率网络。对于6-Dof抓取姿势检测这样一个多任务学习的范式,该网络将不同分辨率的特征输入到不同子任务中。具体而言,前置任务包括前景分割和朝向矢量预测通常需要场景级的全局信息,而像面内旋转和深度预测这样的后置任务则更关注对象级的局部信息。因此,FGC-GraspNet使用PointNet++作为点云特征提取器,得到了不同分辨率的特征,将低分辨率层的特征直接用于前置任务的预测,将高分辨率层的特征进行圆柱邻域采样,并设置了一个局部关注模块,再用于后置任务的预测。实践证明:FGC-GraspNet在6-Dof抓取检测数据集上提升了10%mAP。
人机协作,人机融合操作。机器人的发展大有可为。王生进教授和他的团队正在开展多模态智能体大脑与软硬件一体化研究,智能体包括机器人、无人车、无人机等。相信通过团队的科技攻关,必将使机器人的发展尽快地实现网络化、自主化、协同化、灵巧化,更好服务于国家和社会。