CVPR'20 Oral: 一张照片三维重建你的房间 | 将门好声音

将门创投 06-29 89

前言：

眼前我们对“三维包围盒”大约比较珍视，小伙伴们都想要剖析一些“三维包围盒”的相关文章。那么小编也在网上汇集了一些关于“三维包围盒””的相关知识，希望看官们能喜欢，我们一起来学习一下吧！

作者来自将门计算机视觉社群：韩晓光

本文为将门好声音第42期，也是CVPR 2020系列分享的第·5·期，欢迎广大群友来投稿！

作者是来自将门计算机视觉社群、香港中文大学(深圳)GAP实验室的韩晓光博士，这次分享的是在其指导下团队在CVPR 2020 Oral的工作：完整三维理解：从单张室内场景图片联合重建房间布局、物体姿态及网格形状。

论文链接：

三维场景理解与重建

从单张图片完整地恢复整个室内场景的几何信息目前仍然是具有挑战性的任务，完整的三维室内场景理解与重建需要预测房间的布局、相机的位置与姿态、图片中单个物体的姿态以及物体几何形状。

想让一个网络学好如此多的任务过于困难，除此之外：

1. 以前的方法或者只解决其中的一个子任务；

2. 或者用多个网络去做多个子任务，然后拼接起来，但各个子网络的学习是独立的；

3. 又或者只关注场景中独立的物体，并没有综合考虑整个室内环境。

我们针对上述三种情况实现了“3个Total”：

1. 整合了场景理解与重建，首次提出了一种端到端的方法从单张室内图像完整重建(Total)房间布局、物体及相机姿态和实例级的几何形状，并取得了不错的效果，如图1；

2. 我们的网络也由多个子网络组成，但它们并不是独立的，我们会对整个网络进行联合训练(Total)，让多个子网络分享梯度信息，这是因为房间布局、物体姿态及三维包围盒和物体形状之间有着很强的联系，如果分开训练，后面的子网络不能向前面的网络进行反馈；

3. 室内物体的姿态和位置遵循一定的设计规则，各物体之间的关联关系尤为重要，比如说床头柜与床、桌椅间以及多把椅子之间的关系等等。之前的工作在预测物体的三维包围盒时，一般只考虑单个物体，或者考虑一对一物体间的关系。与本文工作较类似的Mesh R-CNN[1]只是在图片上检测出物体，然后在各物体的图像平面分别重建，并没有考虑物体间的关联关系。在本文方法中，我们考虑物体与房间中所有其他物体间的关联关系(Total)，并将其应用到了三维目标检测子网络的设计中。

与SOTA的对比以及消融实验均说明了“3个Total”的重要作用，这使我们的方法在所有子任务上都达到了最先进的水平，详见后面实验分析部分。

三维形状表示

与我们的工作比较类似的研究大多使用体素(voxel)表示三维形状，这种表达方式受限于有限的分辨率，重建出的形状十分粗糙。其中Mesh-RCNN [1]能重建出网格(mesh)，但仍然是以体素为中间媒介，重建网格质量差强人意。由于我们在以物体为中心的三维物体网格重建方面有一定的积累，所以我们决定跳过体素，直接来做物体的网格，并且改进了最新的TMN[2]方法，这也是除了“3个Total”以外本文最重要的贡献。在物体网格生成任务中，我们提出了一种新的密度感知拓扑修改器。该方法直接解决了TMN [2]的主要瓶颈问题，即需要严格的距离阈值来删除与目标形状距离较远的面，这使我们的方法对复杂背景下不同形状的室内物体具有较强的鲁棒性。

网络结构

图2(a)给出了本文方法的概述。该网络由三个模块组成：布局估计网络（Layout Estimation Network-LEN）、三维目标检测网络（3D Object Detection Network -ODN）和网格生成网络（Mesh Generation Network -MGN）。对于输入单张图像，我们首先用2D检测器（e.g. Faster R-CNN）预测二维物体包围盒。LEN将整个图像作为输入，生成世界坐标系下相机姿态和三维房间布局包围盒。根据二维目标检测结果，ODN在相机坐标系中检测三维物体包围盒，而MGN在以物体为中心的规范坐标系中生成由网格表示的三维几何形状。我们通过将所有网络的输出信息嵌入到场景中，进行联合训练和推理，从而重建出完整的场景。其中，来自MGN的三维物体网格将根据ODN及 LEN生成的物体与相机坐标系线性变换，从网格规范坐标系转换至世界坐标系进行联合训练。图2(b)给出了LEN和ODN坐标系转换的参数化图示，详细内容请参考我们的文章和补充材料。

1. 三维目标检测网络ODN

ODN网络结构如图3所示。在预测某个物体的三维包围盒时，我们考虑该物体与房间中所有其他物体间的关联关系。对于输入的图片，经由ResNet对物体包围盒内图像生成外观特征，同时利用物体的二维包围盒之间相对位置产生相对几何特征。最后通过目标物体与其他物体之间的多边几何特征，利用注意力机制 (Attention mechanism) [3]，加权各自外观特征从而获得其他物体与目标物体之间的关联特征（relational feature），并将其用于最后决策每个物体在相机坐标系下的三维空间位置，尺寸和姿态。

2. 布局估计网络LEN

与ODN不同，LEN则负责预测房间的布局(房间包围盒)和相机姿态。其中，相机姿态由R(β,γ)定义，即相机的俯仰角β及横滚角γ。LEN的网络结构与ODN相同，只是不会使用关联特征，即，LEN将整个场景看作一个物体包围盒（而ODN 将每个检测到的物体视为一个包围盒），这一步我们则预测的是场景包围盒在世界坐标系下的位置，尺寸和姿态，以及相机对于场景世界坐标系的旋转。到目前为止，ODN给出了相机坐标系下单个物体的3D包围盒信息，同时LEN获得了场景布局在世界坐标系下的3D包围盒，以及相机外参数用于统一所有物体坐标系进行联合训练。

3. 网格生成网络MGN

我们的MGN解决了TMN的瓶颈问题。TMN通过对模板形状（单位球）进行变形和修改网格拓扑来逼近对象形状，其中需要预定义距离阈值才能从目标形状中移除距离GT较远的面。但是，对于不同比例的物体网格，给出一个通用的阈值是非常重要的（见图4）。通过实验，我们发现TMN在室内物体的形状预测上不能很好的删除细节网格面 (见图5)，可能的原因是室内物体在不同类别之间有很大的拓扑尺寸差异，并且因为复杂的背景和遮挡常常导致无法准确估计距离值。

密度 v.s. 距离

与采用严格距离阈值进行拓扑修改的TMN不同，我们发现判断网格面是否该删除应该由其局部几何特征决定。在这一部分中，我们提出了一种基于局部密度的自适应网格修改方法。我们将pi设置为重建网格上的一个点，而qi则对应于它在GT上的最近邻（见图4）。我们设计了一个二进制分类器f (*) 来预测pi是否接近GT网格（如下）：

其中，N (qi)为qi在GT曲面的所有近邻点，而D用于定义局部密度。我们认为，在形状逼近中，如果一个点属于GT的N邻域，就应该保留它，否则删除。在实验中，我们观察到该分类器在不同的网格尺度下比使用距离阈值具有更好的鲁棒性。

移除边 v.s. 移除面

相对于移除网格面，我们选择移除网格边的方式进行拓扑修改。我们随机抽取网格边上的点，并使用分类器f (*) 来移除平均分类分数较低的边。较移除网格面，移除多余的边可以减少在计算边损失函数时（edge loss [2] ）因多余边存在而受到的惩罚，并创建紧凑的网格边界。

图4中给出了MGN网络架构。它以二维物体检测为输入，使用ResNet-18生成图像特征。我们将检测到的物体类别编码为one-hot向量，并将其与图像特征连接起来。在我们的实验中，我们观察到类别编码提供了形状先验，有助于更快地逼近目标形状。我们将扩展后的特征向量和模板球输入到AtlasNet [4]的解码器中，以预测球的形变，并在第一阶段拓扑不变的情况下输出合理的物体形状。在此基础上通过我们的边分类器进行第二阶段的拓扑修改，最后经过边界优化完成形状的预测。边分类器与AtlasNet形状解码器具有相似的网格结构，其中最后一层替换为全连接层进行分类。它根据图像特征，将变形网格作为输入，预测f(*)以移除冗余网格边。

4. 联合学习

LEN和ODN中采用的损失函数主要涉及相机参数，包围盒尺寸，位置与姿态的回归问题。而MGN使用Chamfer距离损失、边损失 (edge loss) 、边界损失 (boundary loss) 和用于剪边分类器的cross-entropy loss，详见文章。

在联合训练时，损失函数的设计建立在以下两点：一是相机姿态估计精度的提高可以提升三维物体包围盒的预测结果，反之亦然；二是场景中的物体形状预测可以提供物体的空间占有信息（spatial occupancy），这对三维物体检测有积极影响，反之亦然。根据第一点，我们采用cooperative loss Lco [5]来保证预测出的房间布局/物体包围盒与GT间的世界坐标系下坐标值的一致性。第二，我们要求重建出的物体靠近场景中点云，即，对齐世界坐标系下物体的网格与场景点云，展现出全局坐标的约束。对于此，我们根据Chamfer距离定义global loss Lg：

实验分析

我们在SUN RGB-D和Pix3D数据集上进行了实验。SUN RGB-D是真实的场景数据集，包含10335张真实的室内图片，及其对应的房间布局、物体包围盒和粗糙点云。Pix3D有约400个较精细的家具模型，对应着约10000张真实图片。要重建出较好的物体三维形状，我们需要较好的三维GT，所以我们先用Pix3D对MGN进行预训练。LEN和ODN则在SUN RGB-D上被预训练，然后将它们与MGN整合在一起，在SUN RGB-D上Fine-tuning。另外，二维包围盒检测网络 (Faster R-CNN) 会在COCO上预训练，在SUN RGB-D上Fine-tuning。关于详细的训练策略、参数和效率，请查看我们的论文和补充材料。

联合学习对三个子任务均有影响。我们的方法在三维布局及相机姿态(表1)、三维物体包围盒检测(表2、表3)、物体重建(表4)上均达到了SOTA。

布局估计：

我们将本文方法与现有的布局理解工作进行了比较。如表1所示，对房间布局、对象包围盒和网格进行联合训练有助于提高布局估计精度，比现有方法提高了2%。

相机姿态估计：相机姿态由R(β,γ)定义，因此我们用GT和估计出的俯仰角β及横滚角γ间的平均绝对误差来衡量估计精度。结果（表1）表明，联合学习也有利于相机姿态估计。

表1. SUN-RGB-D三维布局与相机姿态估计的比较。

三维目标检测：

表2比较了本文方法与现有方法对各类物体的检测结果。比较表明，我们的方法较最新的方法有了显著的改进，并且效果也优于现有方法的加强版本。原因有两方面：一是联合学习中的全局损失涉及几何约束，保证了预测结果的几何合理性；二是ODN中的多边关系特征有利于预测空间占有（spatia1 occupancy），提升了三维目标检测的精度。在表3对物体姿势预测的比较中，我们使用物体的平移、旋转和缩放误差作为指标。结果表明，该方法不仅能获得合理的空间占有率（mAP），而且能获得更精确的物体姿态。

表2. 3D物体检测比较。

表3. 物体姿态预测比较。

网格重建：

表4中物体形状重建的比较指标为样本到重建网格的Chamfer距离。结果表明，本文的剪边及局部密度策略均可提高平均精度。可能的原因是使用局部密度可以保持小规模拓扑结构，而且剪边对避免错误的拓扑修改更鲁棒。

表4. Pix3D物体重建比较。

通过图5在网格级别的比较可以看出，我们的MGN对重建结果拓扑结构的控制更优秀。图6也表明，我们的联合学习方法可以得到合理的整体三维重建结果。

消融实验

为了观察每个点的重要性，我们对比了以下几种网络配置：

C0：不使用多边关联特征（ODN）和联合训练(Baseline);

C1：Baseline+关联特征;

C2：Baseline+ 联合训练只使用cooperative loss Lco;

C3：Baseline+ 联合训练只使用global loss Lg;

C4：Baseline+ 联合训练(Lco + Lg);

Full：Baseline+关联特征+联合训练。

对比结果如表5所示。通过对比C0 v.s. C4 和C1 v.s. Full可以发现不管用不用关联特征，联合训练对三个子网络均有提升。C0 v.s.C1 和C4 v.s. Full的对比说明使用关联特征能提高ODN及MGN的效果。C0 v.s. C2 和C0 v.s. C3的比较说明Lco 和 Lg对最终的结果均有积极影响，如果联合使用，效果更佳。我们还发现Lg随着目标检测性能的提高而减小，这与物体对齐对网格重建有显著影响的直觉是一致的。在SUN RGB-D数据集上Fine-tuning MGN不能提升Pix3D数据集上单个物体重建的精度，这反映出物体重建依赖于高质量网格的良好监督。以上内容说明，对所有子任务进行联合学习是进行整体场景三维理解与重建的一个可行的解决方案。

表5. SUN RGB-D消融实验(Scene mesh需乘以10-2)。

总结

我们提出了一种基于单张图像的端到端室内场景重建方法。此方法对场景理解和网格重建进行联合训练，自动生成房间布局、摄像机姿态、物体包围盒和三维网格，以完全恢复房间和室内物体的几何信息。实验表明，本文的联合学习方法显著地提高了每个子任务的性能，且每个阶段的场景解析过程都对其他阶段有着潜在的影响。这说明了对所有阶段进行联合训练的必要性。本文方法的一个局限是，学习物体的三维网格形状时，需要用稠密点云进行全监督训练。而在真实场景中获取较精确的稠密点云需要耗费大量的人力。为了解决这个问题，我们计划在未来的工作中尝试自监督或弱监督的学习方式。

关于团队：香港中文大学(深圳)GAP实验室

该工作由香港中文大学(深圳)GAP实验室主导完成。GAP实验室取名于Generation and Analysis of Pixels, Points and Polygons。基于深圳市大数据研究院与香港中文大学(深圳)，该实验室在韩晓光博士的带领下，致力于探索和解决图片、视频及三维内容的生成与分析方面的难题，其主要研究方向涵盖计算机视觉、计算机图形学和机器学习。

该工作主要由伯恩茅斯大学博士生聂隐愚在GAP实验室交换期间完成。团队成员还包括香港中文大学(深圳)研究助理教授韩晓光博士、厦门大学副教授郭诗辉博士、香港中文大学(深圳)博士生郑玉健及伯恩茅斯大学常建教授与张建军教授。

GAP实验室主页：

References:

[1] Gkioxari, G., Malik, J. and Johnson, J., 2019. Mesh r-cnn. In Proceedings of the IEEE International Conference on Computer Vision (pp. 9785-9795).

[2] Pan, J., Han, X., Chen, W., Tang, J. and Jia, K., 2019. Deep Mesh Reconstruction from Single RGB Images via Topology Modification Networks. In Proceedings of the IEEE International Conference on Computer Vision (pp. 9964-9973).

[3] Hu, H., Gu, J., Zhang, Z., Dai, J. and Wei, Y., 2018. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3588-3597).

[4] Groueix, T., Fisher, M., Kim, V.G., Russell, B.C. and Aubry, M., 2018. A papier-mâché approach to learning 3d surface generation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 216-224).

[5] Huang, S., Qi, S., Xiao, Y., Zhu, Y., Wu, Y.N. and Zhu, S.C., 2018. Cooperative holistic scene understanding: Unifying 3d object, layout, and camera pose estimation. In Advances in Neural Information Processing Systems (pp. 207-218).

-The End-

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景，激活和实现全新的商业价值，服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容，使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景，实现商业价值的初创企业，关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里，将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

本文地址：http://www.longkongtuishu.com/cad46BA1sBFEAD1VT.html

标签： #三维包围盒