服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

论文精读 | 语义SLAM综述:现状回顾&问题分析&未来趋势!

日期: 来源:自动驾驶之心收集编辑:鱼肖农

作者 | 鱼肖农  编辑 | 汽车人

原文链接:zhuanlan.zhihu.com/p/590974335

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【SLAM】技术交流群

后台回复【SLAM综述】获取视觉SLAM、激光SLAM、RGBD-SLAM等多篇综述!

Contributions:

  1. 回顾了语义vSLAM的发展,关注了它的优势和差异。

  2. 探讨了语义vSLAM的三个主要问题:语义信息的提取与关联、语义信息的应用以及语义vSLAM的优势。

  3. 收集和分析了目前广泛应用于语义vSLAM系统的最新SLAM数据集

Background and Related Works:

  1. vSLAM优缺点

优点:其硬件成本低、小场景精度高、能够获取丰富的环境信息

缺点:一方面,在应对光线变化、动态物体移动和缺乏纹理的环境方面仍有许多挑战。另一方面,该系统计算负载高,构造的几何地图难以用于路径规划和导航。

  1. 语义vSLAM

基于深度学习技术,研究者提取特征点、描述符和语义信息,并进行位姿估计。将语义信息集成到传统的vSLAM中,提高了对图像特征的理解,构建了高度精确的语义地图。

与传统的vSLAM相比,语义vSLAM不仅可以获取环境中的几何结构信息,还可以提取独立对象的语义信息(如位置、方向和类别)。在定位中,语义vSLAM借助语义约束提高了定位的准确性和鲁棒性。在建图中,语义信息提供了丰富的对象信息来构建不同类型的语义地图,如像素级地图和对象级地图。因此,语义vSLAM可以帮助机器人提高对未知复杂环境的准确感知和适应能力,执行更复杂的任务。

1. 语义信息

语义信息包含环境中对象的位置、方向、颜色、纹理、形状和特定属性。

语义vSLAM框架

1.1 语义信息提取

目标检测:分为单阶段方法和双阶段方法两大类

为了克服语义vSLAM在动态和复杂的环境中表现不佳的问题,使用目标检测器检测潜在的移动对象,并对它们的区域进行剔除,以消除动态对象对位姿估计的影响。

先进的目标检测器解决了部分可见对象的检测问题,提高了语义vSLAM的精度,并且满足实时性。

基于单阶段和二阶段检测器的特点,为了使语义vSLAM可以面对更多的场景,lqbal等人提出了基于Fast RCNN和MobileNet的混合检测器思想,系统可以灵活地使用不同的对象检测器来应对不同环境下的对象检测。Li等人将文本对象引入语义图中。

1.2 语义分割

语义分割可以给出像素的精确对象类型,但不能区分同一类型的不同个体。语义vSLAM中常用的语义分割方法:U-Net、Bayesian SegNet、SegNet、PSPNet。

Qin等人基于UNet模型对图像像素进行了分类,如车道、停车线、减速带、障碍物等。停车线还用于车位检测,障碍物用于路径规划。

Liu等人利用PSPNet提取沙发、橱柜、书桌的语义标签,构建高精度语义场景图。相比于U-Net和SegNet,PSPNet考虑了上下文关系匹配问题,即使在复杂环境下也表现出良好的分割效果。

缺点:语义分割不能将对象实例从同一类别中区分出来,限制了应用范围。

1.3 实例分割

语义vSLAM常用的实例分割方法:Mask-RCNN。适用于动态环境,将几何信息与Mask-RCNN融合在一起,分割动态和静态对象,获得按像素的语义分割和实例标签信息。但是实时性不足。

1.4 总结

虽然现阶段三种语义提取方法都能满足语义vSLAM的基本要求,但由于在许多复杂环境中,存在动态或闭塞的目标,会影响目标检测的性能,因此要将语义提取方法有效地集成到语义vSLAM系统中,在识别精度和运算速度方面仍有很大的提升空间。为了解决这些挑战,vSLAM和语义提取方法在未来需要相互补充,帮助机器人执行更智能的任务。

2. 语义对象关联

对象关联:跨关键帧的对象观测与相同的地标相关联。

挑战:当当前图像中有多个相同类别、相似外观和接近位置的物体时,正确地将新的物体测量值与地图中现有的3D地标相关联。

一旦实现对象关联,就需要用对象和相机优化的结果更新相机和对象的位姿。对象关联有助于机器人获取环境中真实对象的数量,并将其整合到语义图中,提高对环境的感知。还可以为相机位姿和物体位姿的更新提供正确的优化约束。

Bowman等人[63]的概率对象关联模型是语义vSLAM中鲁棒对象关联的里程碑式工作。提出了一种概率方法来模拟物体关联过程,并采用EM算法来寻找物体测量和地标之间的对应关系。[36]提出了一种基于分层 Dirichlet 过程 (HDP) 的对象关联方法,大大减少了位置接近和外观相似的对象之间的错误关联。

大多数概率对象关联方法都集中在静态对象上,在动态环境中效果不佳。Em-fusion采用概率EM框架解决了动态对象关联和遮挡问题,将深度图像与符号距离函数相结合,提高了多目标跟踪的精度。DynaSLAM II采用不同的策略来关联动态和静态对象,静态对象的关联是基于ORB-SLAM中的特征点匹配机制,对于动态对象关联,考虑了对象在短时间内匀速运动的两个主要特征和特征点匹配,然后通过重投影方法将对象观测值与地图中的地标相关联。

非概率对象关联方法在对象级语义vSLAM中也很流行。一些工作使用马氏距离和匈牙利算法将新的对象观测与地标相关联,但这些算法消耗了大量的计算资源。

Eao-SLAM建立了一个综合的对象关联策略,该策略将参数统计检验和非参数统计检验以及基于IoU的方法结合起来,充分利用不同统计性质。Wang等人针对不同的传感器设备采用不同的对象关联策略。在LiDAR模式下,通过比较三维包围盒与重建目标之间的距离来执行一种关联策略。另一种关联策略是在立体或单目相机模式下,通过计算对象观测值和地标之间的匹配特征点的数量。

目前的概率对象关联策略是提高SLAM系统感知能力的最佳方法之一,但其鲁棒性和通用性还有待进一步提高。

3. 语义应用

3.1 语义定位

由于室内外环境存在明显差异,导致定位难度不同。因此,从两个不同的环境来阐述语义定位。

室外定位:长期室外视觉导航必须面临长时间运行、跨天气、光线变化明显等挑战。在这样的挑战下,很难可靠地匹配图像与地图之间的特征,最终导致定位精度较差,甚至定位算法完全失败。为了解决这些问题,有人尝试了一种基于语义分割图像和语义点特征图的定位算法,解决了长期视觉定位的问题。面对剧烈的视点变化,[72]采用语义图描述符匹配进行全局定位,实现多视点下的定位。

室内定位:为了提高机器人在环境中的认知能力,QuadricSLAM提出了一个对象级语义vSLAM系统,该系统首次采用了对偶二次曲面表示作为3D地标,同时推导了一个基于因子图的SLAM公式,在已知对象关联的假设下,联合估计对偶二次曲面参数和相机位姿参数。类似地,CubeSLAM是一种基于单目的3D目标检测和建图方法,在语义对象约束的帮助下改进相机位姿并减少单目漂移。EAO-SLAM借鉴了QuadricSLAM和CubeSLAM的思想,为基于iForest的对象位姿估计框架,该框架包含一个异常值鲁棒质心、尺度估计算法和一个对象位姿初始化算法。但QuadricSLAM和Eao-SLAM不考虑动态对象因素。语义信息可以帮助区分静态和动态对象,提高机器人在动态环境中的定位精度和鲁棒性。采用语义信息对运动对象进行分割,过滤出与运动对象相关的特征点。

3.2 语义建图

Motivation: 在应用中,vSLAM构造的地图包括稀疏地图,半稠密地图,稠密地图。与稀疏地图相比,稠密地图包含许多三维空间点来描述地图,更适合定位、导航、避障和重建。然而,传统的vSLAM地图缺乏用于人机交互的高级环境语义信息,使得机器人无法执行智能避障、识别和交互等复杂任务。因此,建立准确可靠的三维语义地图显得越来越重要。

一些工作构建了静态稠密语义地图,集成了稠密vSLAM和语义分割标签。对于动态环境重构,一些工作采用实例感知的语义分割,将对象划分为背景、移动对象和潜在移动对象。但实时性不足。针对实时性问题,一些工作尝试构造稀疏语义地图。一些方法基于ORB-SLAM2框架,结合语义对象,实时构建稀疏的三维语义对象地图。

4. SLAM数据集

4.1 数据集的分类

根据传感器的不同,slam相关数据集可以分为LiDAR、视觉和视觉-LiDAR融合数据集。

4.2 数据集的概述和对比

  • 1)考虑环境的挑战(光线变化、弱纹理、恶劣天气):如果试图说明SLAM系统在恶劣环境下的鲁棒性,可以选择数据集TUM MonoVO、Complex Urban、UrbanLoco、VIODE进行评估。
  • 2)考虑不同的场景:如果需要一个多场景数据集,可以从城市数据集RobotCar、H3D,室内数据集ICL、TUM-VIE,丛林数据集RUGD中进行选择。
  • 3)选择带有数据注释的数据集:评价数据集KITTI、TartanAir、RADIATE、VIODE、H3D RUGD、DISCOMAN、IDDA、A*3D、Virtual kitti 2、TUK Campus、Cirrus。
  • 4)选择不同运动模式:针对不同的应用场景,需要选择不同的设备运动模式,如机器人、汽车、UAVs、USVs、手持设备、仿真设备等。

5. 语义vSLAM与传统vSLAM的比较研究

5.1 传统vSLAM的发展

传统的vSLAM系统基于图像信息对未知环境下的机器人姿态进行估计,并根据多视图几何原理构建低级地图。目前,传统的vSLAM系统主要表现为基于滤波的方法、基于关键帧的BA方法和直接跟踪方法。

基于滤波的方法:基于滤波器的vSLAM方法将系统各时刻的状态视为高斯概率模型,帮助机器人根据滤波器预测准确的姿态。即使有各种噪声,滤波也能预测机器人的真实运动。例如,[113]选择了扩展卡尔曼滤波器(extended Kalman filter, EKF)。由于视觉SLAM位姿估计问题不是线性的,因此EKF不能保证姿态估计的全局最优性。

基于关键帧的BA方法:PTAM为第一个基于关键帧的BA单目vSLAM系统。ORB-SLAM基于PTAM架构,增加了地图初始化和闭环功能,以及关键帧选择和地图优化功能,其定位误差远小于[113][115]。通过不断改进ORBSLAM,发布了开源vSLAM系统(即ORBSLAM2、ORB-SLAM3),定位精度远高于[76][77][118]。

直接跟踪方法:不依赖于特征点的提取和匹配,而是通过从前后帧之间的像素灰度值构建光度误差来解决相机运动。在特征缺失和图像模糊的情况下,这些方法比前两种方法具有更好的鲁棒性。而直接跟踪方法对光照变化和动态干扰较为敏感,定位精度一般不如[57],[66]。

5.2 语义vSLAM的发展

近年来,基于特征点的vSLAM系统在定位方面表现出了突出的准确性和鲁棒性,因此研究人员尝试构建基于ORB-SLAM2算法框架的语义vSLAM系统。例如,一些工作在地图中引入3D矩形,构建了一个轻量级语义地图。还有一些工作采用语义3D椭球来构建语义地图,因为它们能够紧凑地表示地标的大小、位置和方向。SO-SLAM在QuadricSLAM的基础上结合了三个空间结构约束,提出了一种室内环境单目对象SLAM算法。不久之后,EAO-SLAM集成了CubeSLAM和QuadricSLAM的方法,并在iForest方法的基础上对目标位姿估计进行了改进,使其能够更准确地估计地标的位置、姿态和尺度。

动态环境:为了解决上述方法在面对动态环境时,在定位和建图方面不具有鲁棒性,一些研究人员提出了动态离群点检测策略来去除动态目标。

5.3 语义vSLAM系统的比较

不同的语义vSLAM系统都有各自的特点。例如,[59],[68]的优点是适用于各种类型的传感器,满足实时需求。[2],[10],[62],[65],[127]在重建3D对象方面具有优势,弥补了[11],[43],[124],[130]的不足。然而,重构对象需要消耗大量的计算资源,这使得它在实际应用中可能不如其他语义vSLAM系统时间性能。[65]、[124]、[127]、[132]适用于动态室外场景,这些系统的鲁棒性比室内或静态vSLAM好得多。

Discussion and Future work:

1. 多模态数据融合

一些语义SLAM工作使用多模态传感器(例如,RGB相机,深度相机,激光雷达)在未知环境中进行位姿估计和建图。多模态语义SLAM系统在复杂动态环境中具有更强的鲁棒性和准确性。由于这些系统包含了多模态语义信息,减少了对象关联的模糊性。此外,这些系统能够更准确地识别动态对象,减少动态对象引起的局部化漂移。

然而,在复杂和高度动态的环境中,仅靠这些传感器获取的语义信息已不足以满足实际需求。因此,未来的语义SLAM工作可以尝试融合更多的传感器(如毫米波雷达、红外相机和事件相机)和先前的语义地图(如2.5D地图)。

2. 多机器人协作模式

在多机器人协同SLAM系统中,机器人之间的相互通信与协调可以有效利用空间分布的信息资源,提高问题解决效率。而且,系统中单个机器人的损坏不会影响其他机器人的运行,具有比单个机器人系统更好的容错和抗干扰能力。近年来,语义信息(如文本信息)的融合有助于多机器人系统的鲁棒性,这归功于基于外观和上下文的语义定位方法,可以稳定准确地进行全局定位。多机器人为语义vSLAM带来了多视图语义信息。例如,在对象关联中,多视图观察对象增加了对同一对象的观测次数,可以有效避免对象关联的模糊性问题。但同时也增加了计算成本。

3. 语义信息的获取与关联

目前的语义信息获取方法基于深度学习模型,模型的泛化和准确性决定了语义信息的准确性。例如,当一个物体被遮挡时,它很容易被对象检测方法忽略。随着对象观测数量的积累,正确地将对象观测与地标相关联变得更加困难。当前的对象关联方法通常基于语义信息,如距离、方向和外观。然而,当环境中出现同类物体、相互靠近的物体、模糊物体或动态物体时,采用常规方法无法准确地将物体关联起来。因此,我们需要更深入的研究来挖掘潜在的语义信息约束,以改善对象关联和全局定位。

往期回顾

2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称
自动驾驶之心【知识星球】
想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

相关阅读

  • 轻量级模型设计与部署总结

  • 编辑 | 嵌入式视觉 点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【模型部署】技术交流群后台回复【模型部署工程】获取基于TensorRT
  • 智能座舱的下一个方向,3D 化交互?

  • 01虚幻引擎的前世今生如果你是一个游戏玩家,那么对虚幻引擎这个名字应该不会太陌生。作为一个游戏引擎,基于虚幻开发的游戏大作数不胜数,比如《堡垒之夜》和广受关注的《黑神话
  • 轻舟智航的转型,用 1 万元的成本量产 NOA

  • 智能驾驶在今年走进了分岔路。一方面,立足于 L2 的 OEM 和供应商在今年实现了由高速走向城区的场景拓展,代表企业有小鹏和华为。一方面,高举高打 L4 的 Robotaxi 企业遇了冷,大
  • 3 年 700 亿,上汽通用会怎么花?

  • 3 年花掉 700 亿,你对这种花钱的速度有什么概念?中国第一高楼,上海中心一共造了 8 年,总造价达 148 亿元,而 700 亿能造 4 幢。再举个例子,今天金价 400 元/g,700 亿可以买 175 吨,
  • 国产豪华 MPV 之路,10,000 字解析腾势 D9|42Test

  • 曾经的国内 MPV 市场,统治者无疑是别克 GL8、丰田赛那和埃尔法、本田奥德赛这几辆车。而在新能源 MPV 领域,可选项却是寥寥无几。除了岚图梦想家和近期的极氪 009,关注度比较高
  • 高通入局,能治好车企的智驾焦虑吗?

  • 高通这家公司大家肯定都很熟悉了,相信此时观看我们节目的许多朋友,手机里用的正是高通的芯片。前几年高通靠骁龙 820A 芯片杀入了汽车座舱领域,8155 芯片上车之后也成为了车企

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 轻量级模型设计与部署总结

  • 编辑 | 嵌入式视觉 点击下方卡片,关注“自动驾驶之心”公众号ADAS巨卷干货,即可获取点击进入→自动驾驶之心【模型部署】技术交流群后台回复【模型部署工程】获取基于TensorRT
  • 智能座舱的下一个方向,3D 化交互?

  • 01虚幻引擎的前世今生如果你是一个游戏玩家,那么对虚幻引擎这个名字应该不会太陌生。作为一个游戏引擎,基于虚幻开发的游戏大作数不胜数,比如《堡垒之夜》和广受关注的《黑神话
  • 轻舟智航的转型,用 1 万元的成本量产 NOA

  • 智能驾驶在今年走进了分岔路。一方面,立足于 L2 的 OEM 和供应商在今年实现了由高速走向城区的场景拓展,代表企业有小鹏和华为。一方面,高举高打 L4 的 Robotaxi 企业遇了冷,大