前言:
现时看官们对“行人检测与跟踪最基本但具有挑战”可能比较着重,咱们都需要了解一些“行人检测与跟踪最基本但具有挑战”的相关资讯。那么小编在网摘上收集了一些有关“行人检测与跟踪最基本但具有挑战””的相关内容,希望看官们能喜欢,我们快快来学习一下吧!唐鹏 陈鹏 闫伟曦 孙秋月中交第二公路勘察设计研究院有限公司 武汉理工大学交通与物流工程学院
摘 要:为提高低照度环境下乡村公路行人穿越安全水平,提出了一种基于车载远红外视频的夜间行人穿越行为识别系统,该系统主要是利用YOLOv4和DeepSort对远红外视频中的行人进行检测跟踪,然后考虑到行人与路边缘的相对位置关系和行人的运动状态这两个因素与行人穿越行为的联系,进行车道线检测和行人运动光流检测,最后利用3D ResNet模型对检测处理后的行人进行过街行为识别。研究结果表明:所提方法对夜间行人穿越行为识别的准确率高达88.42%,同R(2+1)D、DenseNet等动作识别网络相比,分别提高了3.07%、7.01%。所提识别模型性能较好,可为后续的乡村公路行人穿越安全研究奠定基础。
关键词:乡村公路;行人穿越行为识别;车载远红外视频;行人检测跟踪;3D ResNet;
基金:国家自然科学基金,项目编号51208400;
乡村公路主要包括县道、乡道和村道3个层次,是中国公路网的重要组成部分,也是服务乡村群众生产、生活和乡村经济发展的重要基础设施。随着新农村建设、乡村旅游的推进,乡村公路里程、乡村出行机动化增长趋势显著,同时由于我国人口众多、地域宽广以及路网分布不均,乡村公路交通安全保障设施建设(如照明、护栏等)存在一定的不足。据相关统计,乡村公路事故发生时间主要集中于夜间18:00~22:00,在夜间交通致死事故中,有80%发生于无照明路段,而在有照明的城市路段,此时段交通事故比例仅为30%左右[1]。因为在夜间低照度的环境下,驾驶员和行人视觉环境差,难以看清道路标志标线和周围环境,而乡村公路交通多为混合交通流,极易造成车辆与行人相撞事故,因此有必要对低照度环境下乡村公路的行人穿越行为进行相关研究,以此减少人车冲突事件,保障乡村公路交通安全。
以往关于行人穿越行为识别的研究主要集中于运用相关参数来分析行人的运动状态。例如Kooij等[2]根据行人与车辆距离、行人头部朝向等信息,利用动态贝叶斯网络来推断行人的动作意图并据此预测行人的运动路径。Fang等[3]通过识别人体的骨骼关键点信息,得到关键点之间的角度、距离等特征向量,然后提取多帧图像关键点的特征向量,训练SVM模型,并据此来判别行人启动、停止等行为意图。Kwak等[4]利用行人与路边缘之间的距离、行人的横向移动速度、行人头部朝向等特征,结合动态模糊自动机对夜间行人的过街状态进行识别。
随着计算机视觉信息分析技术的发展,利用图片理解技术来对行人穿越行为进行识别的研究逐渐兴盛。例如Liu等[5]提出了一种基于图卷积的行人意图推理框架来揭示交通场景中的时空关系,其中场景图建立在视频帧内和跨视频帧的对象实例上,并在以行人为中心和以位置为中心的场景中预测行人的过街行为。Abughalieh等[6]建立了一个卷积神经网络(CNN)模型来对行人进行跟踪检测,并结合深度传感摄像机来估计行人的方向和距离,当行人的运动模式发生变化时,则向驾驶员发送警告信息。
然而上述研究对行人的运动状态和行人的相对位置等时空信息利用较少,而且研究时段主要是光照较为充分的白昼,对夜间弱光照路段行人的过街问题关注较少,同时其研究场景主要为城市道路,对乡村公路的行人安全关注较少。所以针对上述问题,本文提出了一种基于车载远红外视频的乡村公路夜间行人穿越行为识别的方法,综合考虑行人与路边缘的相对位置关系和行人运动速度等行人状态信息,利用3D ResNet网络来对行人的穿越行为进行识别,以此来对驾驶员进行预警,进而提高乡村公路的交通安全。
1 行人状态信息检测
由于在夜间远红外视频的场景下,行人的骨骼信息、交通环境信息等均无法有效获取,因此本文在利用图片理解技术对行人穿越行为进行识别的基础上,主要考虑以下2个动态参数与行人穿越行为的联系,一是行人与路边缘的相对位置关系,主要通过车道线检测和行人检测结果的相对关系来进行表示;二是行人的移动速度,主要通过行人运动光流的大小来进行表示。下文主要介绍行人检测跟踪、车道线检测、行人运动光流检测的方法。
1.1行人检测跟踪
由于数据集视频中包含的冗余信息太多,可能会影响后续的行人意图识别,所以要将行人的相关动作序列进行裁剪。首先需要对行人进行目标检测,最后根据目标检测的结果对其进行跟踪裁剪。
目标检测采用YOLOv4检测算法[7],因为其具有检测速度快、检测精度高的特点,通过目标检测可以得到行人的边界框信息,其中边界框是由矩形左上角点的(x,y)坐标与矩形的宽w和高h确定的矩形框。目标跟踪采用DeepSort算法[8],因为其与YOLOv4结合能实现比较稳定的目标检测跟踪效果。其中DeepSort采用卡尔曼滤波预测的状态与新到来的目标状态之间的马氏距离来表示运动匹配程度,计算公式为:
d(i,j)=(dj-yi)TS−1ii-1(dj-yi) (1)
式中:d(i,j)表示第j个检测框和第i条轨迹之间的运动匹配度;dj表示第j个检测框的位置;yi表示第i个跟踪器对目标的预测位置;Si表示检测位置与平均跟踪位置之间的协方差矩阵。
1.2车道线检测
行人与路边缘的相对位置关系为识别行人的过街行为提供了有意义的线索。一般情况下,行人在过街前往往会留在路边缘附近观察过往车辆。因此行人离路边缘越近,则其穿越街道的概率就越大。行人与路边缘的相对位置关系在常规车道线场景(即视图中车道的左右两侧车道线均较为明显)下可以简单地分为2种模式:模式一为行人沿着路边缘行走,如图1中行人1、2、4所示;模式二为行人从路边缘一侧走向另一侧,如图1中行人3所示。
图1 行人与路边缘相对位置关系的两种模式 下载原图
其中模式一与行人的非过街行为关联性较大,模式二与行人的过街行为关联性较大。由于在夜间远红外视频中道路标线信息无法直接获取,所以在此选择使用传统车道线检测方法来对视频中的车道线进行检测,因为利用传统方法来进行车道线检测不需要事先进行模型训练,而且检测速度也较快。传统车道线检测方法主要分为以下3个主要步骤。
(1)边缘提取:
图像边缘检测是利用图片灰度、纹理等属性的差异,分离出内部特征或属性不一致的区域,以此来刻画目标的边界线[9],在此利用Canny算法来进行边缘提取,提取后的效果如图2(a)所示。
图2 传统车道线检测流程 下载原图
(2)感兴趣区域(Region of Interest)选择:
为了识别车道线,首先要提取检测感兴趣的区域,即车道线所在的大致区域,目的是提高识别速度和准确率。提取感兴趣区域的方法是先选择一个区域,然后遍历图中每个像素点的坐标,如果当前像素点的坐标不在所选区域内,则将该点的像素值设为0,感兴趣区域选择后的效果如图2(b)所示。
(3)霍夫变换:
通过上述操作,得到组成车道线的独立像素点,由于笛卡尔坐标下通过一个点的所有直线的集合在极坐标系下是一条正弦曲线,霍夫变换可以将在笛卡尔坐标系下的线条转换到极坐标系下,并通过寻找正弦曲线的交点来确定车道线。
1.3行人运动光流检测
行人的移动速度在一定的程度上能反映行人的过街行为,而行人的运动光流可以将行人的移动速度间接地表示出来。
假设行人的运动方向与车载摄像头平面水平,根据摄像头与物理世界的对应关系可以推算行人的真实速度,结合投影原理及速度公式可知:
ul=wr (2)V=lt=rwtu (3)ul=wr (2)V=lt=rwtu (3)
式中:u代表行人的运动光流,指在视频连续帧内行人移动的像素值;l为现实物理世界中行人的运动距离;w为上述1.1节行人检测得到的行人边界框的宽度;r指行人的运动幅度;V为行人的运动速度;t为视频连续帧的时间。
其中r、t、w均可知,未知的u可以利用传统的LK光流法来进行计算。LK光流法属于稀疏光流法,LK光流法遵循3个原则:灰度不变原则、运动连续或小位移运动原则、邻域一致原则。由灰度不变原则,得光流约束方程[10]:
Ixu+Iyv+It=0 (4)
式中:u、v分别为像素点光流在x、y方向上的分量;Ix、Iy、It分别为该点灰度值在x、y、t方向上的偏导。但是式(4)中u、v为未知量,只有一个方程的情况下无法求解光流,这被称之为“孔径问题”。为了解决孔径问题,LK算法中假设目标的邻域Ω内存在n个运动趋势相同的像素点,由此建立n个像素点的光流约束方程:
⎡⎣⎢⎢⎢⎢⎢Ix1Ix2⋮IxnIy1Iy2⋮Iyn⎤⎦⎥⎥⎥⎥⎥[uv]=−⎡⎣⎢⎢⎢⎢It1It2⋮Itn⎤⎦⎥⎥⎥⎥ (5)[Ιx1Ιy1Ιx2Ιy2⋮⋮ΙxnΙyn][uv]=-[Ιt1Ιt2⋮Ιtn] (5)
利用式(5)可以获得目标像素点的水平方向光流 u。同时由式(3)可知,行人的运动速度与行人的运动光流呈正比关系,即行人的运动光流越大,相应的行人在现实物理世界中的运动速度就越快,因此采用行人的运动光流来粗略地表征行人的运动速度是可行的。
2 行人穿越行为识别模型设计
卷积神经网络(CNN)的发展极大地提高了动作识别的性能,具有时空3D卷积核的动作识别模型可以直接从原始序列中提取时空特征进行行为识别。
本文采用的行人穿越行为识别模型是基于行为识别模型3D ResNet [11,12]设计而成,其中3D ResNet是在ResNet[13]的基础上发展而来。ResNet提出了一种捷径连接,可以将信号从一层绕过到下一层,解决了网络因为多层结构造成的退化问题。3D ResNet的基础结构为残差块,其结构如图3所示,每个残差块由2个卷积核大小为3×3×3的卷积层和一个残差连接组成。
图3 3D ResNet残差块结构 下载原图
其中输入信号经过卷积层处理后,需进行批归一化(Batch Normalization, BN)操作以及ReLu激活。其中ReLu激活函数能够得到非线性输出,同时在一定程度上缓解了梯度弥散的问题。而使用BN操作可以基本消除反向传播梯度消失问题,并加快模型收敛速度。
图4为3D ResNet的网络架构图,输入的图片序列首先经过一个大小为7×7×7(取代传统的3×3×3,达到增大局部感受视野来学习长距离的空间位置关系的目的)的卷积核,步长为2×2×1(其中空间上的步长为2,在时间上为1,这样做有利于在初始阶段保留时间特征)的3D卷积层,并使用L2正则化方法初始化卷积核的权重,之后经过模型的卷积块,其中包含16个残差块,然后依次经过Flatten层(将特征图在所有维度上的信息压缩至一个维度上)、全连接层(Fully Connected Layers, FC)及Softmax分类层之后,最终得到图片序列中行人的过街行为[14]。
图4 3D ResNet模型结构 下载原图
基于车载远红外视频的夜间行人穿越行为识别模型以原始远红外视频作为输入样本,经过目标检测跟踪裁剪,同时对得到的行人动作序列进行适当扩增,再融合车道线检测、行人运动光流检测结果,以此作为3D ResNet模型的输入进行训练,其中输入样本的大小为3×16×112×112,其中3为输入图片的通道数,16为输入的动作序列帧数,112×112为输入图片的像素大小,最后输出动作序列中行人的过街行为,具体的工作流程如图5所示。
3 实例分析
由于目前相关问题研究的重点集中于光照条件良好的白昼,所以关于夜间乡村公路行人穿越的研究较少,相应的夜间行人数据集也较少,在此选取了Kwak等[15]所提出的夜间车载远红外视频数据集作为本次研究的数据集。
3.1数据处理(1)生成行人动作序列。
根据1.1节,对数据集中行人的动作序列进行裁剪,首先需要对行人进行检测跟踪,而为了能准确地将夜间远红外视频中的行人检测出来,有必要先将YOLOv4模型用夜间远红外图片集进行训练,所以先将数据集每隔15帧剪辑为图片,然后运用LabelImg工具对图片中的行人进行标注,以此作为目标检测模型训练的输入数据,对YOLOv4模型进行训练。
利用训练的YOLOv4模型对夜间红外视频中的行人进行检测,得到行人检测框的坐标信息,以检测框的中心点为基准,利用DeepSort来进行跟踪裁剪,行人的运动序列统一裁剪为640×150像素的图片,以此来保证动作序列图像大小的一致性,同时可以有效地纳入行人周边的场景信息而剔除部分冗余信息。
图5 工作流程 下载原图
根据1.2节和1.3节,对上述裁剪得到的行人动作序列进行车道线检测和行人运动光流检测,将得到的检测结果作为辅助信息与裁剪后的行人动作序列进行融合,以此来参与行人穿越行为识别模型的训练。
(2)数据扩增。
在本次实验中,将过街的行人作为正样本,没有过街行为的行人作为负样本,则正样本有145个,负样本有151个,总计样本数为296个。由于样本较少,所以有必要对数据进行适当扩充,扩增数据可以提高模型的泛化能力,缓解模型过拟合程度。
在本次研究中,主要通过对图片序列进行镜像、增加亮度、降低亮度、高斯噪声、高斯模糊等5种手段对数据进行扩充,数据扩增后可以得到行人穿越序列870例,行人非过街序列906例,总计样本数为1 776例。
3.2参数设定
在对3D ResNet模型进行训练时,以SGD为模型优化器,设置正则化系数为0.001,起始学习率为0.1,每训练50个迭代次数,则学习率减少为原来的十分之一,具体参数设定如表1所示。
利用3.1节中扩增后得到的数据,以其中70%的数据作为训练数据(包含610个过街实例,634个非过街实例),30%的数据作为测试数据(包含260个过街实例,272个非过街实例),对意图识别模型进行训练。
表1 网络训练参数设置 导出到EXCEL
名称
参数
每轮训练样本数
32
正则化系数
0.001
动量系数
0.9
模型迭代次数
120
初始学习率
0.1
3.3结果分析
为了评测本文所提方法(融合车道线检测和行人运动光流检测结果的3D ResNet行人穿越行为识别模型)的性能,在保证训练输入数据一致的情况下,将其与二维卷积动作识别网络DenseNet[16]、2+1维卷积动作识别网络(二维空间卷积和一维时间卷积)R(2+1)D[17]进行比较。同时为了评价融合车道线检测和行人运动光流检测结果对于意图识别模型识别准确率的影响,将其与未融合车道线检测和行人运动光流检测结果的数据作为输入训练的3D ResNet模型进行对比。
由于本文数据集较小,为保证模型能得到充分训练,所以选择上述模型的浅层深度模型进行训练分析,分别为DenseNet-121、R(2+1)D-18、3D ResNet-50。同时为了保证上述模型训练结果具有可比性,需分析模型是否得到充分训练,所以主要从以下2个指标来对4种模型的训练效果进行分析评价。
(1)准确率(Accuracy):
表示识别正确的样本占全部样本的比重,其值越大,说明模型训练效果更好,其表达式如下:
Acc=TP+TNTP+TN+FP+FN (6)Acc=ΤΡ+ΤΝΤΡ+ΤΝ+FΡ+FΝ (6)
式中:TP是被正确识别为行人穿越行为的样本数;TN是被正确识别为行人非过街行为的样本数;FP是被错误识别为行人穿越行为的样本数;FN是被错误识别为行人非过街行为的样本数。
(2)交叉熵损失(Cross Entropy Loss):
表示预测数据分布与真实数据分布的相近程度,其值越小,说明模型训练效果更好,其表达式如下:
LiCrossEntropy={lnyˋ ln(1−yˋ)y=1y=0 (7)Loss=1n∑i=1nLiCrossEntropy (8)LCrossEntropyi={lnyˋ y=1ln(1-yˋ)y=0 (7)Loss=1n∑i=1nLCrossEntropyi (8)
式中:yˋ是样本预测为过街的概率值,y为标签值,y=1说明样本为过街的行人,y=0说明样本为不过街的行人;LiCrossEntropy为第i个数据的交叉熵;n为数据集的样本量;Loss为数据集的损失值。
4种模型训练100个迭代次数之后,由图6可知,模型训练损失均稳定接近于0,同时由图7可知,模型训练准确率也均稳定接近于1,说明模型均已得到充分地训练。
图6 4种模型的训练损失 下载原图
图7 4种模型的训练准确率 下载原图
本文采用测试数据对上述4种模型的识别准确率进行比较,结果见表2。由表2可知,本文方法对夜间行人穿越行为识别准确率高达88.42%,其识别性能高于R(2+1)D-18、DenseNet-121模型和3D ResNet-50(未融合车道线检测和行人运动光流检测结果)。与其他3种相比,本文方法的识别准确率分别提高3.07%、7.01%、2.36%。本文方法识别准确率较高,能够应用于夜间行人穿越行为识别分析。
表2 4种方法识别准确率比较 导出到EXCEL
意图识别模型
识别准确率/%
3D ResNet-50
86.38
R(2+1)D-18
85.79
DenseNet-121
82.63
本文方法
88.42
4 结语
(1)本文提出的基于车载远红外视频的夜间行人穿越行为识别模型相较于其他识别网络表现更好,其识别准确率高达88.42%。
(2)相较于未融合车道线检测、行人运动光流检测结果的数据训练的3D ResNet-50意图识别模型,本文方法的识别准确率提高了2.36%。
(3)本文仅针对行人本身的运动行为来展开研究,而在现实的乡村公路系统中,行人的行为往往会受到多方面因素的影响,因此后续可以考虑其他交通因素对行人穿越行为的影响,并将其融入到模型中来。
参考文献
[1] 肖敏强.超疏水-自发光水泥路面材料制备及性能研究[D].长沙理工大学,2017.
[2] KOOIJ J,FLOHR F,POOL E,et al.Context-Based Path Prediction for Targets with Switching Dynamics[J].International Journal of Computer Vision,2019,127(3):239-262.
[3] FANG Z,DAVID V,ANTONIO L.On-Board Detection of Pedestrian Intentions[J].Sensors,2017,17(10):2193.
[4] KWAK,JOON-YOUNG,BYOUNG,et al.Pedestrian Intention Prediction Based on Dynamic Fuzzy Automata for Vehicle Driving at Nighttime[J].Infrared Physics & Technology,2017,81:41-51.
[5] LIU B,ADELI E,CAO Z,et al.Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction[J].IEEE Robotics and Automation Letters,2020,5(2):3485-3492.
[6] ABUGHALIEH K M,ALAWNEH S G.Predicting Pedestrian Intention to Cross The Road[J].IEEE Access,2020,8:72558-72569.
[7] BOCHKOVSKIY A,WANG C Y,LIAO H.YOLOv4:Optimal Speed and Accuracy of Object Detection[EB/OL].(2020-04-27)[2021-03-20]..
[8] WOJKE N,BEWLEY A,PAULUS D.Simple Online and Realtime Tracking with a Deep Association Metric[C]// International Conference on Image Processing(ICIP),Beijing:IEEE,2017:3645-3649.
[9] NSD A,PKD B.Edge Detection Technique using Binary Particle Swarm Optimization[J].Procedia Computer Science,2020,167:1421-1436.
[10] 林宇凌,金晓宏,王中任.基于LK光流法的微流控芯片中流体速度检测[J].激光与红外,2020,50(8):1014-1019.
[11] HARA K,KATAOKA H,SATOH Y.Towards Good Practice for Action Recognition with Spatiotemporal 3D Convolutions[C]// 2018 24th International Conference on Pattern Recognition(ICPR),Beijing:IEEE,2018:2516-2521.
[12] HARA K,KATAOKA H,SATOH Y.Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition[C]// International Conference on Computer Vision Workshops(ICCVW),Venice:IEEE,2017:3154-3160.
[13] HE K,ZHANG X,REN S,et al.Deep Residual Learning for Image Recognition[C]// Conference on Computer Vision and Pattern Recognition(CVPR),Beijing:IEEE,2016:770-778.
[14] 范银行,赵海峰,张少杰.基于3D卷积残差网络的人体动作识别算法[J].计算机应用研究,2020,37(S2):300-301.
[15] KWAK J Y,KO B C,NAM J Y.Pedestrian Tracking Using Online Boosted Random Ferns Learning in Far-Infrared Imagery for Safe Driving at Night[J].IEEE Transactions on Intelligent Transportation Systems,2017,18(1):69-81.
[16] HUANG G,LIU Z,LAURENS V,et al.Densely Connected Convolutional Networks[C]// Conference on Computer Vision and Pattern Recognition(CVPR),Las Vegas:IEEE,2016:2261-2269.
[17] TRAN D,WANG H,TORRESAN L,et al.A Closer Look at Spatiotemporal Convolutions for Action Recognition[C]// Conference on Computer Vision and Pattern Recognition,Salt Lake City:IEEE,2018:6450-6459.
声明:我们尊重原创,也注重分享。有部分内容来自互联网,版权归原作者所有,仅供学习参考之用,禁止用于商业用途,如无意中侵犯了哪个媒体、公司、企业或个人等的知识产权,请联系删除,另本头条号推送内容仅代表作者观点,与头条号运营方无关,内容真伪请读者自行鉴别,本头条号不承担任何责任。
标签: #行人检测与跟踪最基本但具有挑战