龙空技术网

最新发表!基于激光雷达语义神经场的大规模3D场景隐式建图

3D视觉工坊 122

前言:

今天朋友们对“隐式框架”可能比较注重,咱们都想要剖析一些“隐式框架”的相关文章。那么小编也在网上收集了一些关于“隐式框架””的相关资讯,希望朋友们能喜欢,大家一起来学习一下吧!

作者:K.Fire | 来源:3DCV

在公众号「3DCV」后台,回复「原论文」可获取论文pdf

添加v:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群

0 笔者个人体会

无论是最近非常火爆的NeRF还是目前的3D语义重建的工作大多是针对RGB-D相机和室内环境开发的,不适合大规模的室外环境。在室外大场景中激光雷达是非常好的选择,而由于激光雷达点云的稀疏性和室外环境的巨大规模,基于激光雷达传感器的语义建图和3D密集重建仍然具有挑战性。

这篇文章也是有一些地方可圈可点的,比如:

用了一种简单高效的方法实现了自监督的训练,提高了模型的泛化能力

很方便的将语义分割拓展到全景分割,通过损失函数的修改,提供了增量式和批处理两种建图模式,方便高效。

考虑到内存限制,开发了一种子地图融合策略,这样就可以方便的拓展到多机器人应用。

1 效果展示

2 引言

本文提出了一种新的隐式LiDAR建图框架,将语义元素整合到密集地图中。利用基于稀疏八树的特征向量来隐式表示和存储语义信息。给定任意点的空间位置坐标,通过几何神经场(GNF)获得符号距离函数(SDF),通过语义神经场(SNF)获得语义标签。

然后利用点云几何的自监督范式,利用语义标签和全景标签的伪监督范式对隐式特征和mlp参数进行了联合优化。为了显式显示隐式场景,采用Marching Cubes算法以语义网格的形式重构场景。此外,通过叠加更多的mlp,将语义建图范式进一步扩展到全景建图(panoptic mapping) 。

另外,本文还设计了一种地图拼接策略,将子地图合并成完整的地图,以应对大规模地图绘制任务中车载设备的计算限制。

3 算法框架

3.1 隐式语义地图

基于八叉树的网格图

八叉树主要用来存储一些特征信息,一个八叉树网格由8个角组成,每个角包含2个长度不同的一维特征向量(G和F)。G存储SDF值,F存储语义标签和实例ID。为了优化大规模场景构建的内存使用,作者还对八叉树进行了剪枝,只保留了最后L层的八叉树特征。

为了定位地图的边界,记录八叉树的每一层k的最大网格和最小网格的坐标。选择map的间隔尺寸来适应建图任务的内存限制,在每一级k中可以计算当前map的大小,计算得到的M是整个地图在xyz轴上的立方体数:

几何特征构造

SDF是点xi与其最近的曲面之间的有符号距离。为了获得采样点xi的地面真值用于训练中的监督,作者直接计算采样点xi与监督信号沿同一波束的端点之间的距离,跳过批内的搜索过程。

G以高斯分布随机初始化,在训练阶段进行优化。隐式构造SDF值的过程如下:

给定空间中的任意一点,采用Morton编码将该点的三维坐标转换为一维编码,用于定位相应八叉树层的网格。

对于某一八叉树,通过对应的哈希表检索相应网格的8个角的8个G,通过执行三线性插值得到该点的Gk。

查询Gk直到八叉树的最后三层,然后,生成三个特征向量G2, G1和G0。

将连接的特征向量GS=G2+G1+G0输入到具有P个隐藏层的MLP1中,输出SDF值。MLP参数和特征向量都是通过自监督训练进行优化的。

语义特征构建

语义神经场(SNF):与几何特征构造类似,每个采样点xi通过对应的哈希表从对应网格的8个角提取8个语义特征向量F,通过执行三次线性插值得到该点的Fk。该过程重复到八叉树的最后三层以生成F2, F1和F0。将连接的语义特征向量FS=F2+F1+F0输入到具有P个隐藏层的MLP2中,以预测语义标签。然后使用来自RangeNet++监督信号进行自监督训练,SNF回归方法比最近邻搜索更快。

笔者理解: 由于这里的监督信号是由RangeNet++算法计算得到的,并不是理论上的地面真值,所以作者将这个部分称为伪监督()

全景神经场(PNF):这里将上述语义范例扩展到全景分割。在这里,全景特征向量F不仅隐式地包含了事物的类别标签,而且还包含了事物类的实例id。接下来,分别将特征向量的两个部分(类别标签和实例id)送到两个独立的mlp中,以回归最终的全景标签。

笔者理解: 举个例子:这个场景中可能有3辆车,这3辆车的事物的类别标签为车,而它们的实例id分别为车1,车2和车3

3.2 训练和损失函数

如上所述,激光雷达能够提供精确的距离测量。因此,直接利用真实的SDF值来监督训练,取采样点到波束端点的距离作为监督信号。对于语义标签和实例标签,选择语义分割或泛视分割的输出作为监督信号,形成伪监督(pseudo-supervision)。

沿着LiDAR射线均匀采样N个点来训练SDF、MLP和语义MLP,其中一半采样点靠近物体表面,另一半采样点在自由空间内。对于SDF值,对损失函数L1利用二元交叉熵。给定一个采样点xi,di是其到曲面的带符号距离,L1表示为:

其中,表示几何MLP输出的SDF值,α为超参数。然后,应用Eikonal正则化将另一项L2添加到损失函数中:

对于增量建图,当地图大小增加时存在遗忘问题。作者在损失函数中加入正则化项L3:

其中是指扫描中的所有点。为当前迭代的MLP参数,为历史迭代参数。定义为重要权重:

为了训练语义标签,给定采样点xi和它的语义标签si,利用多类交叉熵作为损失函数:

其中c是语义类别的数量。表示语义MLP的输出。S为Softmax函数。然后,将实例ID预测也视为一个多类任务,其损失函数为:

其中q表示实例数。yi为监督ID。是实例MLP的输出。

本文提供了批处理模式和增量模式两种建图方法。基于不同的建图模式,完整的损失函数设计如下:

增量语义建图损失:

增量全景建图损失:

批处理语义建图

批处理全景建图

3.3 地图合并策略

考虑到设备内存的限制,一次输入所有数据来构建一个完整的大尺度地图往往是不可行的,特别是NeRF在城市级地图中的使用放大了这个问题。相反,本文增量输入批数据以创建子地图,这些子地图最终融合形成完整的地图。

具体来说,使用NICP(正态分布ICP)进行密集点云配准,给定点位置和表面的局部特征(法线和曲率)进行点云配准。

一旦不同的子地图有重叠扫描,就利用NICP计算相应的变换矩阵来实现地图对齐。将其中一个子地图的第一帧定义为参照系,使用变换矩阵将其他子地图转换为该坐标系。

4 实验与结果

4.1 地图质量评估

定性比较: 上图是在SemanticKITTI数据集和SemanticPOSS数据集上的重建,结果表明,该方法在不同的街道场景上都能达到准确的语义建图质量。

定量比较: 对于SemanticKITTI数据集,使用标记的点云作为地面真值。与Kimera算法(基于RGB-D传感器)进行比较,利用SCD度量,进一步计算重建度量F-score。下表显示了定量比较结果。

本文结果取得了更好的结果,其中一个原因是本算法的输入来自LiDAR,它的距离测量精度优于RGB-D传感器。为了公平起见,又与SHINE Mapping进行了比较,后者在第二个实验中仅使用lidar作为输入,用精度、补全、Chamfer-L1距离、补全率、Fscore来评估建图质量。

如上表所示,本文在某些指标上表现得更好。总的来说,取得了比SHINE Mapping稍好的结果,而且本文的地图包含了语义信息,而SHINE Mapping没有。

4.2 地图合并的结果与分析

将整个环境SemanticKITTI序列00分成四个部分进行构建。从图中看到,成功构建了语义子地图1到子地图4,并成功生成最终的完整地图。

4.3 动态场景评估

在高度动态的环境中,如何在不受动态元素干扰的情况下生成静态地图是一个挑战。如图所示,本文的方法通过在建图范式中引入语义标签来消除某些类型的动态对象。

4.4 泛化能力评估

对由32线激光雷达收集的nuScenes进行了评估。下图结果显示了本文算法的泛化能力,但它在nuScenes的地图上造成了更多的漏洞,这是因为点云的稀疏性阻碍了Marching Cubes构建空间立方体。

5 应用和未来工作

我认为本文最大的亮点有两个:

在建图过程中,不仅生成了语义地图而且进一步拓展到了全景地图(具有实例id),提供了更多详细信息。

考虑到内存限制,具备子地图融合功能,可以拓展到多机器人协同地图绘制。

未来工作:

多机器人建图任务。

研究输入激光雷达数据的稀疏性,以扩展隐式建图的回归能力。

3D视觉交流群

大家好,群里会第一时间发布3D计算机视觉方向的最前沿论文解读和交流分享,主要方向有:

视觉SLAM、激光SLAM、ORB-SLAM、Vins-Fusion、LOAM/LeGo-LOAM、cartographer、VIO、语义SLAM、滤波算法、多传感器融合、多传感器标定、MSCKF、动态SLAM、MOT SLAM、NeRF-SLAM、FAST-LIO、LVI-SAM、LIO-SAM、事件相机、GPS/RTK/UWB/IMU/码盘/TOF(iToF、dToF)、激光雷达、气压计、毫米波雷达、RGB-D相机、超声波等、机器人导航、相机标定、立体匹配、三维点云、结构光(面/线/散斑)、机械臂抓取(2D/3D)、2D缺陷检测、3D缺陷检测、6D位姿估计、相位偏折术、Halcon、光场重建、摄影测量、阵列相机、偏振三维测量、光度立体视觉、激光雷达、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图、深度估计、Transformer、毫米波/激光雷达/视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、目标检测、3D目标检测、路径规划、轨迹预测、3D点云、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪、四旋翼建模、无人机飞控、求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品等综合交流群。

添加v: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 小助理会拉你入群。

标签: #隐式框架 #隐式框架结构