基于深度学习的6D姿态估计研究与应用

墨忆史谈 05-31 226

前言：

目前你们对“姿态识别算法”可能比较关心，朋友们都想要分析一些“姿态识别算法”的相关文章。那么小编也在网摘上搜集了一些有关“姿态识别算法””的相关内容，希望大家能喜欢，小伙伴们快快来学习一下吧！

传统计算机视觉能够对二维图像进行分类、识别以及分割，然而无法处理三维视觉信息，比如机器人定位、人体动作识别等。6D姿态即三维平移和三维旋转，是计算机能够识别三维视觉信息的必要数据转换形式。因此，6D态估计是计算机理解三维空间中外界信息的前提条件。而在实际应用中仍面临动态场景下低延时的挑战。

传统方法的实时性强，然而无法对被遮挡的物体进行6D姿态估计，严重影响了复杂场景下6D姿态估计的实际应用价值。深度学习以数据驱动方式提取图像的特征信息，提取的抽象特征鲁棒性更好泛化能力更强。

基于传统方法的6D姿态估计研究现状

模板匹配法是6D姿态估计中最经典的方法。其核心思想是从二维RGB图像中提取特征信息，有时还需要与深度图像相结合，将获取的有效信息作为制作模板的标准，并以该模板标准制作目标物体的姿态模板。

本文总结的模板匹配法的具体流程如下：1.特征提取。传统的6D姿态估计是通过二维RGB图像、深度图像以及三维模型表面进行特征提取，如图所示。每种特征信息依照储存格式建立特征提取的方案从而获取对应的特征信息。

2.模板定义.通过特征提取的信息对应不同形式的模板。例如，二维RGB图像中的关键点信息和目标物体中的剪影模板是三维关键点和三维模型的剪影，如图所示。

对于RGB-D作为输入形式的方法，可以从三维CAD模型的RGB信息中提取法线信息和梯度信息作为模板。如图所示。

基于深度学习的6D姿态估计研究现状

随着机器学习和深度学习不断融合到6D姿态估计的研究中，6D姿态表现形式的研究成为了一些研究人员的下一个目标。例如，Wohlhart等提出了一种学习物体类别和3D位姿元素信息的方法，通过该元素信息去计算二维RGB图像和深度图像中的描述子，最后通过找到欧式距离最近值来得到6D态值。

Schwarz等人提出基于深度学习的分支方向一一迁移学习来解决训练数据集的问题，并利用卷积神经网络提取训练集的高维度特征，然后通过SVM对该特征进行处理且完成物体的分类和分割任务，最后采用SVR技术结合物体检测结果得到6D态估计值。

2015年Xiang等人提出了一种全新的三维物体表现形式--3DVoxelPattemn，简称3DVP3DVP的优点是能够获得额外的信息:3D姿态、遮挡等。该方法可以从二维RGB图像获取3DVP，并通过投影到三维空间来获取位置信息。2016年Kehl等提出了种全新的多模态的方法，该方法首先通过卷积神经网络对编码器进行特征提取，并获取描述符，然后将其与局部投票相结合，最终通过层层迭代得到精确的结果。

Mousavian等在2017年提出从单张二维RGB图片中获取3Dboundingbox，并且在没有额外细化处理的情况下，能够精准估计物体的姿态信息。Xu等在2018年提出了一个新的网络--Pointfusion，该网络可以对二维RGB图像和深度图像分别处理，将所获取的两类特征进行结合来直接回归目标物体的3Dboundingbox。

同年在CVPR会议上Zhou等提出了全新的网络--VoxeNet，该网络通过输入原始三维点云直接回归物体的3Dboundingbox。2017年斯坦福大学的Qi等在CVPR会议中，提出了一种新型的神经网络，即PointNet网络，网络结构如图所示。该网络能够直接对三维点云数据进行二维卷积操作。

基于6D姿态估计的应用研究现状

在无人驾驶的研究领域里，通过获取前方行驶车辆的6D姿态，来决定无人驾驶的车辆该如何进行反应，是否应该进行刹车、超车、避障、变道等操作。如下图所示的无人驾驶场景下，在二维RGB图像和三维点云图像上都进行态估计。

2012年Geige等提出了KITTI数据集，他们利用创建的无人驾驶平台，选取了中小型城市中人口密度较低的地区以及高速路段搭建实验环境，并通过该无人驾驶平台上搭建的相机、GPS系统和扫描仪对地面进行实时的信息获取，在无人驾驶环境下，为三维物体检测和三维跟踪等很多计算机视觉相关技术在无人驾驶环境下的性能带来了评测标准。

在人机交互领域，目标物体的6D姿态可以使AR(AugmentedReality)技术的交互效果更加真实，如下图所示。2002年Shahrokni等提出将模型进行染并加以合成，将其投射到真实场景的图像中正确位置上，该方法能够将真实场景和渲染场景相结合，从而融合成一个场景，为此他们研发出一种基于表面检测的算法大幅度缩减了非目的性特征信息，从而能够直接获取三维空间中的目标物体投影到二维RGB图像上的变换。

Marchand等提出姿势估计以及相机定位的过程是增强现实技术关键点之一，同时对过往几年里，在这个领域有较大研究成果的论文做了具体的介绍和总结。2019年Su等提出了一个全新的卷积神经网络，该网络能够识别目标物体在多种情况下的姿态:同时该网络能够预测结果如何用于增强现实场景里，并为由多模块组成的物体提供详细的安装指导。

在机器人应用领域中，将机器与6D姿态估计算法相结合，能够使其很好地完成的高难度操控任务，一定程度上解放了人类，如下图所示，为能使6D姿态估计机器人完成拿取或者拉动目标物体，Collet等提出了强大的目标检测框架，该框架功能强大，可以集成多个功能，既可以对目标物体进行识别，还可以对目标物体进行姿态估计。

该框架强大的目标识别和姿态估计能力以及很好的鲁棒性解决了机器人在计算机视觉领域上面临的两大问题。2020年Deng等则提出了让机器人对这些操控的技能学习的思想，并且最大的特点是能够获取带有目标物体的姿态标签数据。

但是由于给这样的数据进行人工打标签，并不像目标识别那样在图像里打边框，其需要使用专业器械进行辅助，并且依赖于精确的计算，这样大量的工作非常耗费人力财力。因此，该课题组的研究人员提出了一种可以通过自监督学习的6D姿态估计的机器人系统。该系统通过机器人与周围环境中的目标物体不断地交互试错来为这些目标物体数据集标注准确的姿态标签，并结合机器学习，持续收集测试数据来调整姿态估计系统。

GELUs激活函数替换LeakyRule激活函数

激活函数的本质是给网络模型增加非线性变换，GELUs即高斯误差线性单元，是一种高性能的神经网络激活函数。另外，GELUs的非线性变化加入随机正则的思想，是一种对神经元输入的概率描述，解决了LeakyRule缺乏随机因素的问题，提高了网络模型的泛化能力。因此，将YOLOV2网络中原始的LeakyRule激活函数替换为GELUs激活函数。

6D姿态估计

本文提出的6D姿态估计网络首先确定目标物体的3D模型相关的控制点，随后根据控制点在二维RGB图像上的坐标映射进行PnP计算，最后回归6D姿态值。具体的，该网络将每个目标物体的3D模型相关的控制点进行参数化，控制点由目标物体的3Dboundingbox的8个角点及1个中心点构成。

该算法的特征提取网络以单张二维RGB图像作为输入，并且采用卷积神经网络结构对其进行处理提取目标物体的特征信息。如图所示，将图像分成在SXS个网格，输出的三维向量中所有网格位置都将对应一个多维向量，与其相联系，该多维向量包含了1个中心点、8个角点的位置信息，同时还包含了目标物体的类别概率及总置信度得分。另外，在测试期间，预测出的低置信度的区域，即目标物体不存在的地方，将会被裁剪。

实验结果分析

本文提出的6D姿态估计网络在构建的Fruits数据集上进行测试实验，可视化效果如图所示。最终的预测姿态和真实标注姿态重合度比较高，与LieMod数据集相比，二维RGB图像背景相对简单，检测效果显著提升，在2D重投影误差指标下，提升1.1个百分点，在ADD指标下，提升0.4个百分点，在5cm5°指标下，提升0.8个百分点。

在2D重投影误差的指标下，本文提出的网络与Brachmann等提出的网络、BB8网络进行对比实验，本文的算法表现与前面Brachmann的两个网络准确率相比，表现出色，2D重投影准确率为88.10%，并且在端到端相关算法中，本文提出的算法没有后处理过程，表中标记(R)的网络表示进行了后处理操作，但本文算法的准确率仍比表中标记(R)的网络高8.9个百分点。

在ADD指标下，本文提出的网络与Brachmann等提出的网络、BB8网络进行对比实验，数字表示准确率。虽然提出的算法没有后处理过程,但实验结果比Brachmann等提出包含后处理的方法，其结果高出3.5个百分点。

总结

计算机视觉的研究目的是使计算机能够对获取的图像内容、动态场景同人类一样理解及处理。传统计算机视觉能够完成对二维RGB图像中目标物体的分类、检测以及分割等任务。而三维空间中的有关定位、动作等需求是传统计算机视觉无法准确表达的。

6D姿态估计即三维平移和三维旋转，是计算机准确表达三维空间中的事物的必要信息。6D姿态估计能够模拟人类视觉机理与外界进行交互，是计算机与外界信息交互的前提条件。近年来，6D姿态估计在实际应用中仍面临动态场景下低延迟的挑战。

传统的6D姿态估计方法实时性强，但模板匹配依赖于完整的特征信息提取及模板的高度匹配，无法对被遮挡的物体进行6D姿态估计，严重影响了复杂场景下6D姿态估计的实际应用价值。

论述了论文研究课题的背景和存在的意义，查阅大量6D态估计相关文献和资料，分析了传统方法、深度学习方法的6D姿态估计研究现状以及6D姿态估计的应用现状。引出本研究提出的6D姿态估计方法及该方法的实际应用方案。

构建6D姿态估计网络。受YOLO-6D态估计网络的启发，提出了一种基于YOLOV2的单阶段、端到端的轻量级6D姿估计网络。该网络在二维RGB图像上提取目标物体位置的特征信息，并将目标物体位置的特征信息在三维空间中进行投影:然后利用点到点的关系进行PnP计算得到目标物体的自由度，进而完成目标物体的6D姿态估计。

在LineMod公共6D估计数据集上的实验表明，在2D重投影指标，ADD指标，5cm5指标中实验结果均优于Brachmann等多个经典6D姿态估计方法;算法运行速度方面相较于目前主流单阶段6D姿态估计网络有显著优势。

本文地址：http://www.longkongtuishu.com/ca523BA1sA1YDDw.html

标签： #姿态识别算法

基于深度学习的6D姿态估计研究与应用

基于深度学习的6D姿态估计研究与应用

人体关键点-视觉识别-人体动作捕捉姿态识别