服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

感知推理新模型,协作交互新科技

日期: 来源:视听庆阳收集编辑:视听庆阳

——记清华大学教授王生进及其跨媒体智能团队

随着人工智能技术的发展,机器人已经走进我们的日常生活,人工智能与机器人深入融合,相互促进发展,让我们体会到了科技飞速发展的强劲动力。机器人灵巧精准操作是新一代人工智能的重要支撑,这也使得机器人自主抓取问题成为机器人研究领域的一个重要课题。大数据、深度学习时代的今天,有这样一支团队一直致力于机器手抓取系统设计与实现,并将新的数据规模与新的研究方法结合,取得了重大突破性成果。他们就是清华大学教授王生进及其跨媒体智能团队。

成就卓著 源于历练

“一种机器手抓取姿势质量的物理度量方法及装置”、“基于点云深度学习的6-DoF机器手抓取姿势检测系统”,这是王生进教授和他的团队展示给我们的最亮眼的两张“名片”。“一种机器手抓取姿势质量的物理度量方法及装置(2021113711660)”是已授权的发明型专利。“基于点云深度学习的6-DoF机器手抓取姿势检测系统(2022SR0283766)”是已授权的软件著作权。除此之外,2023年3月24日,王生进教授带领CV-AI队获得Intel室内机器人学习全球挑战赛识别赛道一等奖、操控赛道二等奖。此次室内机器人学习全球挑战赛是由英特尔中国研究院发起,联合清华大学、北京大学、上海交通大学、德国人工智能研究中心、意大利技术研究院共同推动的一项室内服务机器人全球赛事,旨在评估感知、认知和运动能力方面机器人学习技术的最新进展,更快地推进机器人学习研究和技术成熟度。挑战赛规格之高,也给参赛团队带来了极大挑战。王生进教授带领CV-AI队取得了骄人成绩,这不仅是对自己的考验,也是对社会最好回馈。

王生进是清华大学长聘教授,清华大学电子系信息认知与智能系统研究所所长、媒体大数据认知计算研究中心主任。兼任危爆物品探测技术国家工程中心副主任、中国图像图形学学会视频图像与安全专委会主任、IEEERegion10 北京分会学术活动委员会主席。主要研究方向为计算机视觉、机器学习、智能视频、行人再识别和多模态机器人脑计算。作为起草人之一,制定国家标准、行业标准共 7 项。荣获 2008 年国家科学技术进步奖二等奖、2006北京市科学技术奖一等奖、2019 年吴文俊人工智能科学技术奖自然科学奖二等奖、2019 年公安部科学技术奖二等奖。王生进带领的跨媒体智能团队是隶属于危爆物品探测技术国家工程中心、深度学习技术与应用国家工程中心一部、北京信息科学技术国家研究中心一部,主要研究方向为表征解耦UDA、人脸识别与行人再识别、物体检测与图像语义描述、多模态协作机器人等。团队在计算机视觉、机器学习、深度学习、大数据认知计算研究领域取得了创新成果;在物体识别研究中,提出多事例学习框架,在多个国际权威公开数据集上取得了国际先进成果;在图像检索研究中,大幅度提升了图像检索中视觉匹配的精确度。提出基于鉴别性视觉表达的高效性图像索引结构,创新性地将行人再识别与图像检索(ImageSearch)结合在一起,实现了一个快速准确行人再识别系统。构建并发布了行人再识别领域中三个大型数据集 iLIDS-VID、Market1501、MARS,总下载 13 600 余次,谷歌单篇引用逾 4190 次。获得国家发明专利“人脸检测方法与装置(ZL201710079126.6)”“用于目标检测的卷积神经网络模型的压缩方法和系统(ZL201810628418.5)”等 15 件。

精准操作 数项创新

AI 大模型赋能,机器人成为具身智能的最佳载体。机器人根据人类语言指令抓取指定物体是科研攻关的重点和难点。王生进教授和他的团队将此定义为语言交互式抓取,并围绕两大关键问题和研究难点展开了科技攻关,并取得了多项科技创新。

1 基于多模态感知和推理的交互式抓取策略VL-Grasp

语言交互式抓取系统是指机器人理解人类的指令,辨别歧义物体,在复杂环境中结合人类指令对被描述的目标物体进行感知和定位,并能够在多场景多视角下完成抓取操作。完成语言交互式抓取系统,显然有两大关键问题需要解决:一是感知——如何结合视觉和语言信息定位特指目标物体;二是决策——如何在多视角多场景下对各种物体实现自适应的抓取。同步需要解决两大研究难点:一是目标物体的歧义性——即同一场景出现多个与目标物体相同或相似的同类物体,此时如何分辨歧义物体;二是多视角抓取的泛化性——基于单视角的点云信息对场景中的物体做出鲁棒的抓取预测。围绕关键问题和研究难点,王生进教授带领他的团队认真分析了语言交互式抓取技术实现路径,创建了严谨的交互式抓取流程体系和网络框架。通过基于视觉和语言的目标物体定位——视觉语言推理,借助语音识别,团队将人传递给机器人的指令转换为文本,如“能把架子底部的蓝色可乐递给我吗?”;通过点云过滤模块,并与6-Dof抓取姿势检测任务(6-dof grasp pose detection)结合起来,实施准确无误的抓取操作。系统性的实验验证了成果:团队实现了基于语言指令的目标指向性的交互抓取,消除了多个同类物体同时出现的定位歧义,提升了机器人感知的智能能力。创新地将视觉语言推理(visual grounding)任务与6-Dof抓取姿势检测任务(6-dof grasp pose detection)结合起来,实现了多角度多场景确定目标的抓取操作。重新设计的点云过滤模块也提高了交互抓取在实际操作中的实用性和成功率。

2 面向机器人室内学习的视觉语言推理数据集RoboRefIt

机器人执行指令的前期是必须理解指令内涵,并能够准确操作。如何将人类语言转换为机器人的指令,是实现抓取的首要任务。王生进教授和他的团队研究建立了一个新颖的面向机器人室内学习的视觉语言推理数据集RoboRefIt,基于视觉语言推理算法,机器人可以结合图片信息和描述语句信息来定位目标物体位置。创建的面向机器人场景的视觉语言推理数据集,RoboRefIt。可谓是机器人的“活字典”,主要包含66类可抓取的桌面物体,适应于机器人操作,涉及食品、水果、工具、洗漱用品等生活中常见物体。数据集主要采集室内场景,包括桌子、洗手台、沙发、椅子、抽屉、架子多类场景类型。共包含10872 张RGBD图片,生成了50758 个描述语句。语言描述符合机器人抓取的指令,比如:“我想抓起魔方”、“我希望抓起那个白色的电动牙刷”等等。其中也包含5636张具有歧义性的图片。此视觉语言推理数据集旨在帮助机器人通过人类的语言命令来找到和定位相对应物体的位置,以便于进行下一步交互的操作,如抓取操作。

3 6-Dof抓取姿势检测,抓取质量度量方法:混合物理度量

现有抓取姿势检测算法与实例分割等前置任务结合得较差,不具备通用泛化能力;机械臂运动存在奇点,在算法计算时不能考虑到控制的局限性;遮挡、重叠物体检测难度大。针对上述技术难点,研究团队取得了如下创新进展:一方面,设计了一个点云深度学习框架,输入场景点云,根据物体形状、位置、结构等几何特征,对夹爪姿势的各个几何参数的预测;另一方面,根据人类抓取物体的习惯,如倾向于手与物体接触部位比较平坦,抓取部位更加贴近物体的重心,经过物体与夹爪的物理接触分析,将其转换为抓取姿势的置信度度量,与机器手 6-Dof 抓取检测已有的力闭合度量结合起来,设计了一个混合物理度量,得到一种更加合理的抓取姿势检测的置信度,从而模型可以学习到人类的这种抓取习惯。实验证明:设计的混合物理度量比力闭合度量更鲁棒和有效。原本被力闭合度量分配相同置信度分数的抓取姿势,在混合物理度量下得到了更加精细且符合人类观察的度量结果。

4 基于多分辨率点云深度学习和局部注意力机制的6-Dof抓取检测网络FGC-GrsapNet

为了提高模型在精细标签下的预测能力,王生进教授和他的团队进一步设计了一个称为FGC-GraspNet的多分辨率网络。对于6-Dof抓取姿势检测这样一个多任务学习的范式,该网络将不同分辨率的特征输入到不同子任务中。具体而言,前置任务包括前景分割和朝向矢量预测通常需要场景级的全局信息,而像面内旋转和深度预测这样的后置任务则更关注对象级的局部信息。因此,FGC-GraspNet使用PointNet++作为点云特征提取器,得到了不同分辨率的特征,将低分辨率层的特征直接用于前置任务的预测,将高分辨率层的特征进行圆柱邻域采样,并设置了一个局部关注模块,再用于后置任务的预测。实践证明:FGC-GraspNet在6-Dof抓取检测数据集上提升了10%mAP。

人机协作,人机融合操作。机器人的发展大有可为。王生进教授和他的团队正在开展多模态智能体大脑与软硬件一体化研究,智能体包括机器人、无人车、无人机等。相信通过团队的科技攻关,必将使机器人的发展尽快地实现网络化、自主化、协同化、灵巧化,更好服务于国家和社会。


相关阅读

  • 多维考察语言意识

  •   自20世纪70年代英国“语言意识运动”(language awareness movement)开展以来,语言意识已成为国内外众多学者关注的议题。语言意识是一个较为宽泛的概念,有着丰富的内容,既是
  • 辞格分类新探

  •   今年是我国辞格研究的开山之作——唐钺的《修辞格》问世100周年。百年来,汉语辞格研究取得了长足进展,科学化程度大大推进。不过,相关研究依然存在一些困惑,甚至在一些基本
  • 青岛高新区:智能制造激活新型工业化后劲

  • 当前,我国工业化发展进入新的阶段,正面临数字化转型和智能化融合的迫切需求。依托“1+2+1”现代产业体系,青岛高新区积极推动数实融合、布局科技前沿,在推进新型工业化进程中不
  • 赞!长沙一初中生获国际机器人奥赛中国银奖

  • 湖南日报10月23日讯(全媒体记者 余蓉)“拿到了我梦寐以求的奖牌,太开心了!”10月23日,长沙市长郡双语雨花中学初一学生孙梓瀚收到第二十五届IRO国际机器人奥林匹克大赛中国总决赛
  • 联播观察丨央媒视角看四川 看到了啥?

  • 新闻里面找新闻,竖屏模式更亲粉!四川观察《联播观察》专区新潮上线。《联播》深一度、观察近一步,每晚8点,四川最权威时政新闻栏目换个姿势,带您一起“网感”四川。上周,由中宣部
  • 【初中物理】初中物理42个误区解答技巧

  • 【初中物理】初中物理42个误区解答技巧更多初中、高中资料,可以在物理大师app,大师一百公众号获取查看1. 密度不是一定不变的。密度是物质的属性,和质量体积无关,但和温度有关,尤

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 感知推理新模型,协作交互新科技

  • ——记清华大学教授王生进及其跨媒体智能团队随着人工智能技术的发展,机器人已经走进我们的日常生活,人工智能与机器人深入融合,相互促进发展,让我们体会到了科技飞速发展的强劲
  • 坐着火车看神舟发射!前方到站“东风航天城”

  • 神舟十七号载人飞船发射临近。许多航天城工作人员的家属、天文爱好者及游客,近日(23日)搭乘K9671次列车前往东风航天城。这趟由兰州西站开往东风南站的列车,也是人们去观看火箭
  • 日本5人意外接触核污染水!其中2人……

  • 据日本福岛当地媒体10月25日报道,当天上午11时10分左右,在处理福岛第一核电站核污染水放射性物质的过程中,由于水管脱落,核污染水溅出,5名工作人员接触到了含放射性物质的核污染
  • 睡觉时突然抖一下,是大脑怕你死了?

  • 你是否有过这样的经历在睡梦中会出现脚底猛然踩空的感觉仿佛自己从楼梯上滚落或是从大山上坠落瞬间被惊醒是不是感觉到奇怪?明明睡得好好的身体为何会突然抽动呢?下面跟随小编
  • 汤洪波:重返“天宫”第一人

  • 仅仅过了2年3个月,汤洪波将首次作为指令长带领神舟十七号乘组前往中国空间站。2023年10月25日,身着蓝色航天服的汤洪波亮相酒泉发射场问天阁与媒体见面。从空间站任务的第1棒