服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

CVPR'23|3D模型分割新方法!不用人工标注,只需一次训练,未标注类别也能识别

日期: 来源:新机器视觉收集编辑:

点击下方卡片,关注“新机器视觉”公众号

重磅干货,第一时间送达

作者丨丁润语
来源丨量子位
编辑丨极市平台

导读

 

不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别。 

3D模型分割现在也解放双手了!香港大学和字节梦幻联动,搞出了个新方法:

不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别

比如看下面这个例子,未标注的(unannotated)黑板和显示器,3D模型经过这个方法训练之后,就能很快“抓准”目标进行划分。

再比如,给它分别输入sofa、cough这类同义词刁难一下,也是轻松拿下。

甚至连浴室(bathroom)这类抽象分类也能搞定。

这个新方法名叫PLA (Point-Language Assocation),是一种结合点云(目标表面特性的海量点集合)和⾃然语⾔的方法。

目前,该论文已经被CVPR 2023接收。

不过话说回来,不需要⼈⼯标注,只进行⼀次训练,同义词抽象分类也能识别……这可是重重buff叠加。

要知道一般方法使用的3D数据和⾃然语⾔并不能够直接从⽹上免费获取,往往需要昂贵的⼈⼯标注,而且一般方法也⽆法根据单词之间的语义联系识别新类别。

那PLA又是如何做到的呢?一起来看~

具体原理

其实说白了,要成功实现3D模型划分,最重要的一步就是让3D数据也能理解⾃然语⾔。

专业点来说,就是要给3D点云引⼊⾃然语⾔的描述

那怎么引入?

鉴于目前2D图像的划分已经有比较成功的方法,研究团队决定从2D图像入手。

首先,把3D点云转换为对应的2D图像,然后作为2D多模态⼤模型的输⼊,并从中提取对于图像的语⾔描述。

紧接着,利⽤图⽚和点云之间的投影关系,图⽚的语言描述也就自然能够关联到3D点云数据了。

并且,为了兼容不同粒度的3D物体,PLA还提出了多粒度的3D点云-⾃然语⾔关联方法。

对于整个3D场景⽽⾔,PLA将场景对应所有图⽚提取的语⾔描述进⾏总结,并⽤这个总结后的语⾔关联整个3D场景。

对于每个图像视⻆对应的部分3D场景⽽⾔,PLA直接利⽤图像作为桥梁来关联对应的3D点云和语⾔。

对于更加细粒度的3D物体⽽⾔,PLA通过⽐较不同图像对应点云之间的交集和并集,以及语⾔描述部分的交集和并集,提供了⼀种更加细粒度的3D-语⾔关联⽅式。

这样一来,研究团队就能够得到成对的3D点云-⾃然语⾔,这一把直接解决了人工标注的问题。

PLA用得到的“3D点云-⾃然语⾔”对和已有的数据集监督来让3D模型理解检测和分割问题定义。

具体来说,就是利⽤对⽐学习来拉近每对3D点云-⾃然语⾔在特征空间的距离,并推远不匹配的3D点云和⾃然语⾔描述。

讲了这么多原理,那PLA在具体分割任务中表现到底如何?

语义分割任务超越基准65%

研究⼈员通过测试3D开放世界模型在未标注类别的性能作为主要衡量标准。

先是在ScanNet和S3DIS的语义分割任务上,PLA超过以前的基线⽅法35%~65%。

在实例分割任务中,PLA也有提升,对比之前的方法,PLA提升幅度15%~50%不等。

研究团队

这个项目的研究团队来自香港大学的CVMI Lab和字节跳动。CVMI Lab是香港大学的一个人工智能实验室,实验室2020年2月1日成立。研究范围涵盖了计算机视觉与模式识别,机器学习/深度学习,图像/视频内容分析以及基于机器智能的工业大数据分析。

论⽂地址:
https://arxiv.org/pdf/2211.16312.pdf

项⽬主⻚:
https://github.com/CVMI-Lab/PLA


声明:部分内容来源于网络,仅供读者学习、交流之目的。文章版权归原作者所有。如有不妥,请联系删除。

—THE END—

相关阅读

  • GPU图像处理的基本流程

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达现代GPU提供了顶点处理器和片段处理器两个可编程并行处理部件。在利用GPU执行图像处理等通用计算任务时,要做的主
  • 【视觉感知】运动目标检测算法简介及其应用

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达全文1585字,预计阅读时间6分钟原创 | sky-guo编辑 | 吕嘉玲运动目标检测的主要目的是从图片序列中将变化区域或者
  • ChatGPT最重要的三个技术!

  • 声明:本文仅梳理公司和行业的最新基本面,并非在当前时间点推荐买卖公司,本公众号不具备个股操作指导功能,投资有风险,入市需谨慎NLP语言模型与ChatGPT相关应用及发展20230327Tran
  • 为什么春夏如此美丽,你却更容易抑郁?

  • 局部气候调查组|来源jubuqihou| ID提示:如图文未加载,请刷新重附件1:《天才病》双相情感障碍即通常所说的躁郁症,指既有躁狂发作,又有抑郁发作的精神疾病。它也具有季节性特点,春
  • 【招聘】你在找工作?刚好我们在招人~来试试?

  • 工作时间长,无法正常上下班无节假日,无法陪伴亲人朋友医患压力大,无法实现人生价值竞争压力大,无法完成领导业绩考评加入我们开启一段新旅程专业课程内容运营招聘岗位职责根据市
  • 一日一技:Python-列表推导式

  • 栏目介绍本栏目主要介绍 Python 的日常使用小技巧,希望能帮助大家利用一些碎片时间,掌握提高日常效率的方法~列表推导式今天,我们学习如何使用列表推导式(List Comprehensions)。
  • AKShare-股票数据-港股股票热度

  • 作者寄语本次更新股票数据-港股股票热度接口。该接口主要包括港股热度的历史排名数据,主要包括 时间,排名,证券代码 等指标的数据。相关视频教程已经发布:《AKShare-初阶-使用教

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 以色列司法改革,剧情超过了《纸牌屋》

  • 文 | 李建秋先说一点来龙去脉。2018年以来,以色列最大的保守派利库德集团和以色列内部的阿拉伯政党产生激烈矛盾,由于双方的席位都不低,导致没有一个派别能单独组成联盟,从2018
  • 固收和期权,会碰撞出怎样的火花?

  • 固收类资产为底仓,加入期权策略是利用衍生品多次观察、多向性、下跌保护、上涨增强等特性,通过加入一定的期权仓位,构建出”固收+”的风险收益特征,力争在管控风险基础上提供更
  • GPU图像处理的基本流程

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达现代GPU提供了顶点处理器和片段处理器两个可编程并行处理部件。在利用GPU执行图像处理等通用计算任务时,要做的主