龙空技术网

区分冲突类型的路段实时碰撞风险预测模型

交通科技 42

前言:

现时朋友们对“alm算法”都比较重视,看官们都需要剖析一些“alm算法”的相关内容。那么小编在网摘上收集了一些对于“alm算法””的相关知识,希望姐妹们能喜欢,各位老铁们快快来了解一下吧!

吕能超 彭凌枫 吴超仲 文家强武汉理工大学智能交通系统研究中心 武汉理工大学国家水运安全工程技术研究中心 上海市城市建设设计研究总院(集团)有限公司

摘 要:使用交通数据建立路段实时碰撞风险预测模型(RTCPM)是主动交通安全管理的基础,路侧精细感知的行车数据和替代安全指标(SSMs)在RTCPM领域有着潜在价值。基于此,采用路侧精细感知数据生成SSMs作为输入,提出一种区分冲突类型的路段实时碰撞风险预测模型。以路段精细交通数据为基础,提取多种类别的交通参数以构建包含多类交通参数的精细数据库,参数包括车辆运动参数和SSMs等。提出一种基于车辆规避行为和时空接近性的交通冲突提取方法,从精细交通数据库中提取侧向和纵向交通冲突;将带有标签的交通冲突事件作为碰撞风险预测建模中样本的类别标签。极限梯度提升算法(XGBoost)被用于实时碰撞风险预测建模,使用了ENN方法重采样以消除样本数量不平衡问题,引入SHAP以解释模型特征对结果的贡献度。将交通冲突发生前的交通参数以30 s为时间窗进行集计,作为样本特征输入到XGBoost模型中进行训练和测试。研究结果表明:所建立的XGBoost模型能够在碰撞发生前30 s预测碰撞风险及类别,模型能够实现97.4%的总体准确率,以0.13%的误报率预测出93.0%的纵向冲突,以0.12%的误报率预测出61.8%的横向冲突;SHAP模型解释结果显示SSMs对于预测起到了比较重要的作用,5%分位的1/MTTC对纵向冲突预测模型的影响最大,交通流量和加速度的平均值是侧向冲突预测最重要的特征;提出的模型框架可为互通出入口影响区主动交通管理提供依据。

关键词:交通工程;实时碰撞风险预测;替代安全指标;冲突类型;XGBoost;SHAP;

作者简介:吕能超(1982-),男,湖北黄冈人,教授,博士研究生导师,工学博士,E-mail:lnc@whut.edu.cn。;*吴超仲(1972-),男,湖北武汉人,教授,博士研究生导师,工学博士,E-mail:wucz@whut.edu.cn。;

基金:国家自然科学基金项目(52072290);国家重点研发计划项目(2020YFB1600302);湖北省杰出青年基金项目(2020CFA081);

0 引 言

主动交通安全管理技术能够实时监控交通状态,识别不安全的交通状态并实施适当的干预措施,从而有效减少道路交通事故[1]。道路交通实时碰撞预测模型是主动交通安全管理系统的关键组成部分,它是指使用实时交通流参数来预测较短时间窗内是否产生碰撞事件的方法;基于此目的而建立的模型称为实时碰撞预测模型(Real-time Crash Prediction Model, RTCPM)[2,3]。现有研究证实了开发RTCPM对于帮助交管部门及时识别具有风险的交通状态从而采取措施降低事故风险具有非常重要的意义[3,4,5,6]。

在典型的RTCPM研究框架中,存在几个关键要点。首先,在数据采集方法和类型方面,由于线圈检测器已被许多国家广泛地安装并服务于交通管理,因此在近20年的RTCPM研究中发现,线圈检测器在采集数据方面占据了绝对的优势[7,8,9,10,11,12,13,14,15,16,17,18,19];采集的信息类型通常包括交通流量、时间占有率和速度[1,7,8,9,10,11,12,13,14,15,16,17,18,19]。其次,在预碰撞交通状况的定义方面,目前的大部分研究数据采用了来自交警报告真实的碰撞记录[7,9,10,12,13,14,20,21,22],然而这些报告数据与真实的碰撞时刻存在偏差。预碰撞交通状况通常是指发生碰撞事故前的交通流状况,在定义预碰撞时间段时,常见做法是将时间切分成5 min的时间片,进而将5 min时间片内的交通流数据进行集计研究。如Xu等[9,23]使用碰撞前6个5 min时间片分别建模,发现越接近碰撞发生时刻的时间片所建模型的预测结果更好。付存勇等[24]利用事故发生前10~40 min内事故上、下游检测器的3种基本交通流数据构建高速公路实时事故风险模型,实现了较高的事故预测准确率。游锦明等[25]利用支持向量机分别对事故前5~10 min、10~15 min和15~20 min的交通流数据建立了追尾事故实时预测模型,结果表明基于事故前5~10 min交通流数据构建的模型能够有效对事故进行实时预测。此外,也有学者利用更为精细时间片内的交通流数据研究交通流变化对高速公路交通事故风险的影响,如徐铖铖等[26]提取了高速公路上采集间隔为30 s的实时交通流数据和事故数据以判别危险交通流状态。最后,在特征变量选择方面,流量、占有率与速度平均值和标准差是最为普遍的变量,几乎出现在所有的RTCPM建模中[5,9,10,13,14,15,16,18,19,20,21,23,27]。然而,Xu等[14]则建议使用车头时距和车头间距的平均偏差和标准偏差来描述车辆跟随行为,以实现更好的预测效果;汪敏等[28]则基于跟驰行为谱,选择碰撞时间倒数、横向摆动系数、速度不稳定系数3 类指标用来描述跟驰风险状态。另外一些环境变量,例如能见度[12]、天气[19,23,29]、道路状况[23,29]、车辆类型[29]、人口及土地利用[19]等因素也被纳入考虑。

受到交通检测技术利用效率和交通数据采集类型的限制,现有RTCPM主要使用断面检测器获取流量、占有率和速度数据。受检测数据分辨率的影响,目前关于RTCPM的研究大多集中在高速公路或城市快速路的普通路段。研究表明,高速公路或城市快速路互通出入口影响区存在频繁的分合流及交织行为,事故率远高于普通路段[7],且在互通出入口附近发生的碰撞还有侧向与纵向之分,这对RTCPM提出了更高要求。因此,有必要针对高速公路或城市快速路互通出入口影响区展开区分冲突类型的实时碰撞风险预测研究[30]。

随着路侧感知技术的发展,尤其是基于视频、微波雷达、激光雷达等精细感知技术的应用为交通数据检测与分析提供了更多的细节描述,如车头时距(Time Headway, THW)、碰撞时间(Time-to-collision, TTC)、后侵入时间(Post Encroachment Time, PET)、横纵向加速度等[2,16]。这些精细感知数据不仅能够更好地描述风险,也被认为可以更好地预测风险[31]。基于车辆轨迹数据提取的微观交通数据,包含更为丰富的信息,可从中计算出各种替代安全指标(Surrogate Safety Measures, SSMs)。20世纪末SSMs在道路交通安全领域就引起了广泛关注,与交通事故数据相比,SSMs不仅能弥补事故案例难以获取的缺点,其更大的优势在于它们反映了事故发生前车辆的运行特点,能够在事故发生前短时间内预测其发生可能性。被广泛研究的SSMs有THW、TTC和PET等,这些SSMs通常可通过2种数据源获取:第1种是通过车载传感器检测的自车周边目标信息与本车运动参数;第2种是通过路侧感知手段获取的路段一定范围内的车辆行驶数据,这种方法目前大多用于方案验证和评估。尽管最新研究开始尝试将SSMs用于一定范围路段的冲突分析[32],但是这些研究没有将SSMs系统地应用于路段实时碰撞风险预测模型框架中。因此,本文尝试将路侧精细感知数据提取的SSMs作为新的特征引入到路段实时碰撞风险预测模型中。

由于精细感知系统的建设和维护成本过高,其难以被广泛推广应用,导致交通事故精细感知数据稀缺。近年来的交通安全研究中,交通冲突被视作潜在的代替碰撞事故,研究发现交通冲突与碰撞之间具有很强的相关性[33]。学者对交通冲突的定义不尽相同。对以往交通冲突研究进行全面回顾,总结了2种交通冲突定义方式[34]:①基于规避动作的定义,该理论认为交通冲突是2个或多个道路使用者中,其中一个使用者行动导致另一个使用者做出规避回避行为的事件;②基于邻近性的定义,冲突被定义为当2个或更多道路使用者在空间和时间上彼此接近,如果他们的运动保持不变,则有发生碰撞的可能。基于规避动作的定义和基于邻近性的定义都涉及到交通冲突有效性和严重性问题。有效性是指在规避行动发生前交通冲突是否客观存在或产生;严重性可以通过规避行动的强度和时间/空间接近度来确定。为了保证一致性,最近研究中客观指标是确定交通冲突主要的方式,而主观评价可以作为补充方式[35]。对于冲突的提取方式,研究表明通过运动学特征来提取交通冲突或临近碰撞事件(Near-crash Events)对于交通安全分析和验证是有价值的[36]。因此,本文使用基于路侧精细感知提取到的交通冲突或临近碰撞事件替代真实的碰撞事故,以进行RTCPM的建模与验证。

在路侧精细感知技术条件下,基于车辆轨迹数据提取的SSMs, 对提升RTCPM的性能、扩展RTCPM的功能有着广阔的应用空间。由此,本文提出采用路侧精细感知数据生成SSMs作为RTCPM输入,建立先进的模式识别模型,以实现区分类型的路段实时碰撞风险预测。首先,以路段行车数据为基础提取多类别交通参数,以构建精细交通参数数据库,包含车辆运动参数和SSMs等。然后,定义基于车辆规避行为和时空接近性的交通冲突提取方法,从精细交通参数数据库中提取侧向和纵向交通冲突,并将其作为RTCPM中带标签的样本。在建模中,将交通冲突发生前的精细交通参数以一定方式进行集计作为样本特征,将样本特征及标签输入到XGBoost模型中进行训练和测试。为了解决样本数量不平衡问题,使用了Edited Nearest Neighbors (ENN)方法对样本集进行重采样。最后引入了SHAP(SHapley Additive exPlanation)以解释模型,定量衡量模型中各个特征对路段纵向和侧向碰撞风险预测效果的重要性以及差异性。本文提出的RTCPM模型能够在冲突发生前30 s进行事件类型预测,为道路交通安全主动管控提供模型支撑。

1 方法论

本文拟建立一套基于机器学习算法的路段RTCPM。模型以路侧精细感知数据(见第2.1节)所生成的SSMs(见第1.1节)作为输入,以路段是否有冲突以及冲突类型(见第1.2节)作为输出。采用了极限梯度提升算法(XGBoost)进行实时碰撞风险预测建模(见第1.3节),引入SHAP以解释模型特征对结果的贡献度(见第1.4节)。

为了实现RTCPM的训练和验证,需建立标签化的交通事件样本,并获得与交通事件相关的交通流特征参数。关于冲突事件的定义和提取,采用客观参数与主观评价相结合的方法(见第1.2节);关于交通冲突预测所需的交通流特征参数提取,利用精细行车数据计算自车与周边车辆的相关指标,得到17种参数(见第2.2节)。最终将交通冲突发生前的交通参数以30 s为时间窗进行集计,建立了面向路段实时碰撞风险预测模型的数据集(见第2.4节),作为样本特征输入到XGBoost模型中进行训练和测试。

1.1 替代安全指标选取

SSMs一般基于微观交通参数计算,用于表征道路的交通安全风险。已有的SSMs可以根据其属性划分为3个类别:时间指标,距离指标和减速度指标[31]。表1列出了基于现有文献总结的几种代表性SSMs, 表2列出了相关参数定义。拟采用这些SSMs作为候选特征用于本文的建模输入参数。

表1 典型的SSMs定义及描述 导出到EXCEL

Table 1 Definition and Description of Typical SSMs

SSMs

定义

计算方法

解释

碰撞时间(Time-to-collision, TTC[37])

当本车保持当前速度差行驶时,本车与前车碰撞剩余的时间

前后两车车头间距和速度差比值:tTTC=dvF−vLtΤΤC=dvF-vL,当vF>vL

当TTC小于一定阈值,就认为存在碰撞风险

修正的碰撞时间(Modified Time-to-collision, MTTC[38])

一种修正的TTC,它考虑了两车的相对距离、相对速度和相对加速度

tMTTC=−vr±v2r−4ard−−−−−−−−√ artΜΤΤC=-vr±vr2-4ard ar

当MTTC小于一定阈值,就认为存在碰撞风险

紧急减速的碰撞潜在的指数(Potential Index for Collision with Urgent Deceleration, PICUD[39])

假设前车紧急制动,前后两车完全停下时的距离

dPICUD=v2L−v2F2α+d−vFτdΡΙCUD=vL2-vF22α+d-vFτ

如果PICUD小于一定的安全裕度,就认为存在碰撞风险

停车间距(Stopping Headway Distance, SHD[40])

相对于传统的基于距离的安全替代指标,考虑了道路的坡度因素

dSHD=max[−Ddiff,0],Ddiff=1.47×(vLtTHW−vFτ)+{(v2L−v2F)⋅[30×(αg±Gr)]−1}dSΗD=max[-Ddiff,0],Ddiff=1.47×(vLtΤΗW-vFτ)+{(vL2-vF2)⋅[30×(αg±Gr)]-1}

SHD值越大表示潜在碰撞风险越大,零值是区分危险情况的阈值

避免碰撞减速度(Deceleration Rate to Avoid a Crash, DRAC[41])

后车避免碰撞所需减速度是否超过最大减速度

后车与前车速度差平方和车头间距比值:aDRAC=v2rdaDRAC=vr2d

当DRAC大于制动阈值时,就认为存在碰撞风险

基于减速度的替代安全指标(Deceleration-based Surrogate Safety Measure, DSSM)[42]

使用减速度的含义借由一种新的思路来实现追尾碰撞的预警,特点在于加入了驾驶人因素和车辆机械性能的所需的减速度

tF=(aF−bmax)amFdL,Tran=12(vL+aL−bmax2×aL−bmaxamL)tLdF,Tran=12(vF+aF+aF−bmax2×aF−bmaxamF)tFK=−d+(2vF+aFτ)τ2−dn−1,Tran+dn,Tranb=bmax(vF+aFτ)2(2Kbmax+v2L)<0aDSSM=bbmax,bmax=−6.5m⋅s−2tF=(aF-bmax)aFmdL,Τran=12(vL+aL-bmax2×aL-bmaxaLm)tLdF,Τran=12(vF+aF+aF-bmax2×aF-bmaxaFm)tFΚ=-d+(2vF+aFτ)τ2-dn-1,Τran+dn,Τranb=bmax(vF+aFτ)2(2Κbmax+vL2)<0aDSSΜ=bbmax,bmax=-6.5m⋅s-2

DSSM以比率的形式描述冲突风险,当DSSM大于一定阈值时代表存在风险,且DSSM值越大碰撞风险越高

1.2 冲突事件定义及提取

由于缺乏与事故报告相匹配的精细感知行车数据,参考已有研究[32,42,43,44,45,46],本文采用交通冲突/临近碰撞事件代替真实碰撞事件。该方法分为3个步骤:首先,通过车辆运动学信息来识别两车之间可能发生碰撞的关键交互,分为与跟车行为有关的纵向交互和与换道行为有关的侧向交互;然后,使用客观的SSMs指标和规避行为指标从不同类别交互中提取不同类别的冲突;最后,用专家评判法对满足初步标准的候选冲突事件进一步筛选和标注。

表2 SSMs计算参数列表 导出到EXCEL

Table 2 SSMs Calculation Parameter List

参数

解释

d/m

前车车尾到后车车头的间距

vF,vL/(m·s-1)

前车(L)和后车(F)的速度

vr/(m·s-1)

前车和后车的速度差

aL,aF/(m·s-2)

前车(L)和后车(F)的加速度

ar/(m·s-2)

前车和后车的加速度差

α/(m·s-2)

停车减速率

τ/s

反应时间

tTHW/s

车头时距

g/(m·s-2)

重力加速度

Gr

道路坡度

tL, tF/s

前车(L)和后车(F)的过渡时间

dL,Tran,dF,Tran/m

前车(L)和后车(F)的过渡时间内的行驶距离

bmax/(m·s-2)

最大减速度

amL,amF

前车(L)和后车(F)的最大加速度变化

(1)车辆间关键交互识别

为了更准确地识别出车辆间的跟驰关系,提出一种非车道的基于车辆宽度虚拟带法则[46]的车辆交互识别方法。车辆宽度虚拟带法则不关注车辆在车道中的具体位置[47],车辆与车辆是否为跟随关系通过车宽虚拟带是否重叠来确定。如图1所示,车宽虚拟带的宽度等于或略宽于自车车宽。

图1 车辆宽度虚拟带示意 下载原图

Fig.1 Schematic Diagram of Vehicle Width Virtual Belt

两车横向重叠程度由dy表示,为车边缘之间的最小距离,dy由式(1)计算。其中,(xl,yl)为前车的前中心坐标,(xf,yf)为后车的前中心坐标,Wl和Wf分别为两车车宽。式(1)可表示为

dy=|yl−yf|−Wl2−Wf2dy=|yl-yf|-Wl2-Wf2 (1)

dy小于0并且dx大于0时,表示两车虚拟带存在重叠关系,反之亦然。在本文中,由于准确的车长和车宽不可得,因此取5 m作为车长,2 m作为后车虚拟带宽度。即使大部分小型车的实际宽度小于2 m, 采用2 m也有助于更灵活地识别车辆纵向交互[45],并且能够预留一定的安全裕度。应用车宽虚拟带法则,针对所获取的车辆轨迹数据,提出车辆纵向交互和侧向交互的识别算法步骤如下:

首先,以2 s作为1个时间窗,计算2条轨迹第1秒和第2秒的dy

当2 s内车辆全都重叠,并且满足以下条件[32]时,判定2辆车存在纵向交互:①车头时距小于3 s, 确保两车在行驶方向上存在交互;②两车的横向加速度小于0.07g(g为重力加速度),确保横向的稳定;③两车的速度均大于1 m·s-1,确保两车处于行驶状态。

当第1秒和第2秒两车的重叠关系发生变化,并且满足以下条件[20]时,判定两辆车存在侧向交互:①前车和后车的车头间距小于75 m, 确定两车存在相互作用;②非换道车的最大横向加速度小于0.07g,车道偏移小于1 m, 以确保其不会在横向上移动;③两车的速度均大于1 m·s-1,确保两车处于行驶状态。

特别地,侧向交互还需通过车辆运动关系进一步识别出交互过程中应该关注的与主体车辆(后车)可能存在碰撞风险的车辆。判断车辆之间关键交互的类型以及发生交互的对象后,进一步进行纵向冲突和侧向冲突的认定。

(2)纵向冲突事件提取

当两车为纵向交互时,基于以下准则判断两车是否存在纵向冲突;其中,准则①和准则②只要满足任意1条即可判断为存在纵向冲突。

准则①:后车正在加速或以恒定的速度行驶,同时前车处于减速并且减速度超过了紧急制动操作阈值[32,48]。紧急制动操作常和跟车时的回避碰撞行为有关,紧急制动操作通过车辆的减速度值来衡量;当车辆减速度超出正常范围时,就认定为冲突事件。本文采用Formosa等[32]提出的-2.943 m·s-2作为严重减速阈值。

准则②:TTC值小于一定TTC阈值[42,43]。以前研究中,一定的TTC阈值被广泛用于区分行车风险事件,TTC低于阈值则判断为冲突事件。TTC阈值可通过驾驶人的反应时间来确定,本文采用Sayed等[48]建议的2 s作为判断冲突发生的TTC阈值。

(3)侧向冲突事件提取

当两辆车发生侧向交互时,TTC值小于一定阈值可判断为存在侧向冲突[43,45]。与纵向冲突类似,识别侧向冲突的时间阈值也被设置为2 s。

一般场景下,TTC假设两车位于同一车道并且速度方向一致,而发生侧向交互的两车可能以任意角度相互接近。因此,一种扩展的TTC(Cross TTC, CTTC)被用于评估侧向交互车辆之间的冲突。CTTC是传统TTC在车辆在2维坐标系下运动的一般情况扩展,其优势是考虑了车辆发生冲突的最近点以及车辆的接近率。CTTC值的计算方法由Ward等[49]提出,Xing等[44]在收费站广场场景验证了这指标对于侧向冲突更具适用性。由于本文采用微波雷达检测的是车辆的前端中心点,因此最终适用于本文的CTTC值的改进计算方法如式(2)所示

tCTTC=−dijd˙ij=−((Oi−Oj)T(Oi−Oj)−−−−−−−−−−−−−−−−−√−  0.5Ll−0.5Lf)/(Oi−Oj)T(Vi−Vj)(Oi−Oj)T(Oi−Oj)√          (2)tCΤΤC=-dijd˙ij=-((Οi-Οj)Τ(Οi-Οj)-  0.5Ll-0.5Lf)/(Οi-Οj)Τ(Vi-Vj)(Οi-Οj)Τ(Οi-Οj)          (2)

式中:dij为车辆之间最接近点的距离,具体是指两车轮廓在空间上的最小直线距离;d˙ijd˙ij为两车的接近率,具体是指车辆之间最接近点距离的一阶导数;矢量OiOj为车辆的前中心位置;ViVj分别为两车的速度矢量;Ll和Lf分别为前车和后车的车长。车辆间的关系如图2所示。

图2 二维坐标系中的车辆关系 下载原图

Fig.2 Vehicle Relationship in Two-dimensional Coordinate System

1.3 基于XGBoost的碰撞预测模型

本文中,极限梯度提升算法(eXtreme Gradient Boosting, XGBoost)被用于实时碰撞风险预测建模。XGBoost由Chen 等[50]设计,是一种以决策树作为基评估器,Boosting作为集成方法的集成算法。决策树是由节点和节点之间连接的路径组成的树状图形的结构。节点对每个进入节点的样本的某特征进行提问和决策。最终的决策结果,即分类或回归结果将落在叶子节点上。Boosting是指在决策树的集成过程中,在每次迭代都增加1棵树,逐渐形成包含多个树模型的集成模型。

在XGBoost中,每个样本在每棵树上都会落到1个叶子节点上,而每个叶子节点都具有1个叶子权重。设样本xi在第k棵树上的样本i的叶子权重为fk(xi),则k次迭代后的集成模型的预测结果yˆy^i(k)为所有基评估器上叶子权重的和,即

yˆi(k)=∑kKfk(xi)y^i(k)=∑kΚfk(xi) (3)

XGBoost的损失函数由2个部分组成,分别为传统损失函数和模型复杂度

Obj=∑i=1ml(yi,yˆi)+∑k=1kΩ(fk)Οbj=∑i=1ml(yi,y^i)+∑k=1kΩ(fk) (4)

式中:等号右侧的第1项表示传统损失函数,其中m表示进入第k棵树的样本总量。等号右侧的第2项表示模型的复杂度,引入复杂度是为了尽可能降低泛化误差、减小过拟合。该损失函数最终可以转化为以下形式

O(n)bj=−12∑j=1NG2jHj+λ+γN         (5)Οbj(n)=-12∑j=1ΝGj2Ηj+λ+γΝ         (5)

Gj=∑i∈Ijgi,Hj=∑i∈Ijhi         (6)Gj=∑i∈Ιjgi,Ηj=∑i∈Ιjhi         (6)

式中:n表示第n次迭代,一棵树上总共包含了N个叶子节点;gihi分别为在损失函数l(yniin,yˆy^(n−1)ii(n-1))上对yˆy^(n−1)ii(n-1)所求的1阶导数和2阶导数,统称为每个样本的梯度统计量。

为了求解这个目标函数,XGBoost使用了贪婪算法,即控制局部最优来达到全局最优的算法。求解的基本流程为,计算节点分支前后的结构分数之差(Gain),选择Gain最大的特征上的分枝点进行分枝,当Gain小于某个值时另树停止生长,即

pGain=12[G2LHL+λ+G2RHR+λ−(GL+GR)2HL+HR+λ]−γ         (7)pGain=12[GL2ΗL+λ+GR2ΗR+λ-(GL+GR)2ΗL+ΗR+λ]-γ         (7)

式中:pGain为结构分数之差;GL和HL在分枝后的左节点上计算;GR和HR在分枝后的右节点上计算;γ为控制树停止生长。

过拟合是指模型在训练集上表现较好,而在测试集上表现较差的一种现象。决策树和XGBoost都包含有大量需要调整的参数,以减轻过拟合。在研究中,调参步骤是先使用网格搜索法找出最合适的基评估器数量参数和控制迭代速度的参数η的组合,然后依据学习曲线观察模型处于过拟合状态还是欠拟合状态,进而调整控制复杂度的参数γ和树的最大深度2个参数。最后再依据调参结果选择是否进一步剪枝。关于XGBoost原理和参数更详细的介绍,可参考文献[50]的研究。

为了评价预测模型的性能,使用了准确率(Accuracy)、查全率(True Positive Rate, TPR)、误报率(False Positive Rate, FPR)和受试者工作特征曲线(Receiver Operation Characteristic Curve, ROC)。这些评价指标的含义如下,其中TP代表真正例,TN代表真反例,FN代表假反例,FP代表假正例。

准确率RAccuracy是所有预测正确的所有样本除以总样本,即

RAccuracy=TP+TNTP+FN+FP+TNRAccuracy=ΤΡ+ΤΝΤΡ+FΝ+FΡ+ΤΝ (8)

查全率RTPR表示所有真实为正例的样本中,被正确预测的样本所占的比例,即

RTPR=TPTP+FNRΤΡR=ΤΡΤΡ+FΝ (9)

误报率RFPR表示所有真实为反例的样本中,被错误预测为正例的样本所占的比例,即

RFPR=FPFP+TNRFΡR=FΡFΡ+ΤΝ (10)

ROC曲线以RFPR作为横轴,RTPR作为纵轴,绘制不同概率阈值下的指标值。ROC曲线右下的面积称为Area Under Curve (AUC),通常来说AUC值越大,模型的整体性能越好。

由于本文要解决的是多分类问题,模型的评价指标需要重新定义。模型的准确率与二分类问题相同,仍为正确分类的样本占全部样本的比例。由于三分类的混淆矩阵不同于二分类,RTPR和RFPR也都有所不同。多分类查全率和误报率的定义有多种方法,在本文中为了直观反映2种冲突类型的预测结果,在计算任意一种冲突预测的查全率和误报率时,将另一种冲突和正常情况合并作为一种情况,然后将其看作二分类问题。

1.4 可解释模型框架——SHAP

XGBoost是一种类似黑箱的结构,对于模型内部各个特征如何影响模型决策以及预测结果的生成仍然不能够像线性模型那样直观。因此,在完成建模的基础上,有必要进一步量化特征参数对路段碰撞风险的影响,以提高模型的可解释性,进而为相应的管控措施提供更为具体的指导。尽管XGBoost提供了极为方便使用的特征重要度参数,但是该参数不能展现特征和预测结果的关系。为了定量表达模型中各个特征对于纵向和侧向碰撞风险预测的影响程度和影响方向以及2种冲突影响因素的差异性,本文使用了一种新的模型解释工具——SHAP(SHapley Additive exPlanation)。

受到博弈论的启发,Lundberg等[51]提出的一种专门用于解释模型输出的工具,称为SHAP。SHAP能够提供每个特征对模型输出的贡献程度以及这些特征影响模型结果的方式。当样本输入到模型时,每个特征都对这个样本的预测结果拥有一个贡献,这个贡献值就称为这个特征的SHAP值,将所有的特征SHAP值累加即得到模型对样本的预测结果。设第i个样本xi的第j个特征为xij,模型对xi的预测结果为yi,xij的SHAP值为f(xi1),则yif(xi1)的关系满足以下关系式

yi=ybase+f(xi1)+f(xi2)+…+f(xik) (11)

式中:ybase为整个模型的基线,通常等于所有样本的预测均值。

从式(11)可以看出:第j个特征的SHAP值f(xij)即为这个特征对预测结果的贡献。若f(xij)大于0,表示这个特征对模型起到了正向作用,提升了预测值;反之,则该特征起到了反向作用,降低了预测值。因此,相对于树模型传统的特征重要度参数只能对各个特征影响模型预测的重要性进行排序的功能,SHAP值还能够反映特征是如何影响模型结果,即反映每个样本中特征具体的影响程度,以及该影响是正向的还是反向的。

2 数据集构建2.1 路侧精细感知数据采集

为了获取满足本文方法建模所需数据集,笔者所在课题组开展了为期1周的高速公路现场数据采集试验。为了在短时间内采集到一定数量的横向及纵向冲突事件,选取高速公路互通出入口影响区作为观测对象。利用路侧门架或横杆安装的微波雷达检测器,在互通出入口影响区连续数天采集过往车辆的原始点迹数据。采集点位于广东省某高速公路互通,观测试验时间为2020-10-16~2020-10-21。本文共布设了5处微波检测器,最终选择数据质量最好的1处作为数据源建立数据集。检测路段由双向四车道组成,位于互通紧邻分流区之前,检测路段位置和安装效果如图3所示。

图3 检测路段位置及设备安装效果 下载原图

Fig.3 Detected Road Location and Equipment Installation Effect

为了能在路侧全天候连续地采集车辆数据,自主开发了一套基于微波雷达的路侧交通数据采集系统。该系统包括一种广域雷达微波检测器,可以检测纵向300 m范围内的目标车辆,以1 Hz频率收集监测范围内每个目标车辆的位置坐标和速度。微波雷达内置坐标匹配和滤波算法,距离检测的分辨率小于0.25 m, 速度检测的分辨率小于2 km·h-1,微波雷达的感知精度满足研究需求。微波雷达数据通过网络协议传输到路侧工控机,工控机上的程序实时解析并存储这些数据。

2.2 特征计算和冲突提取(1)轨迹数据处理

采集到的点迹数据是一定区域内所有车辆在连续时间片段上的位置信息,由沿着行车方向和垂直于行车方向2个轴的坐标值表示。要使原始的点迹数据转换成可靠的轨迹数据,需要进行预处理。笔者所在课题组开发了针对行车轨迹进行预处理和关联的全套程序,轨迹预处理流程如图4所示。

图4 轨迹预处理流程 下载原图

Fig.4 Process of Trajectory Preprocessing

根据原始数据集中的时间戳、车辆序号、车辆横纵向坐标、横纵向车速,按照一定的关联规则,将点迹数据转换成车辆的连续轨迹数据。行车轨迹数据是车辆沿道路行驶时按照一定的时间或距离间隔,由定位设备采集的记录车辆行驶路径的数据[52]。

由于各种原因,原始检测数据可能存在丢帧情况,故需进行轨迹关联处理。本文提出一种基于最近邻算法思想的轨迹关联方法处理原始轨迹数据缺失和中断的情况。以轨迹缺失帧为基准,向前向后搜索其最邻近2帧轨迹点的信息,并基于运动学原理来估计缺失轨迹点位置和速度,从而连接中断轨迹和补齐缺失值,使之成为一条连续轨迹。为了消除噪声,使用了基于Savitzky-Golay滤波的滤波方法处理位置数据和速度数据,以获得平滑的车辆轨迹。

(2)SSMs特征及冲突提取

精细轨迹数据包含了车辆的位置和速度信息,利用预处理后的轨迹数据集计算检测区域内每一车辆每帧的基本交通参数及相关的SSMs。其中,提取的SSMs为第1.1节中所列的几种典型特征。考虑到TTC在相对车速为0时没有数学意义,TTC和MTTC参数分别转换成各自的倒数。通过计算和特征提取,最终得到的包含特征的轨迹数据集,每辆车在1 s内存储了17个参数,分别为纵向/横向位置、纵向/横向速度、纵向/横向加速度、车道编号、前车编号、车头间距(Distance Headway, DHW)、THW、1/TTC、1/MTTC、PICUD、DRAC、DSSM、SHD以及该时刻在1 d中所处的小时值。

通过编程实现了第1.2节所提出的纵向和侧向冲突事件提取算法,轨迹数据集被用于算法的输入,得到了2类冲突事件候选集。除了算法之外,本文采用了专家评选的方法对满足标准的冲突事件进一步筛选。专家评选法作为传统但可靠的方法广泛应用于风险事件的标定,适合于通过以上指标大大精简可疑的冲突事件界定。风险界定事件中,候选事件的车辆和同一时刻的其他车辆通过编程以图形的方式绘出,并随时间移动逐渐画出这些车辆完整的轨迹,掌握交通冲突知识的3名专家观看轨迹动画并最终评价此事件是否为冲突事件,并确定其冲突类别。最终本文从轨迹数据集中提取了772起纵向冲突和989起侧向冲突事件。其中,若同一轨迹连续多个时间窗内都被识别为冲突事件,则合并为1次冲突。专家标定的冲突类型值被作为新的参数被添加到轨迹数据集中。

2.3 冲突事件描述性统计

基于关联的轨迹、SSMs特征及冲突数据,可对数据集进行简要统计性分析。首先可从轨迹中计算基本的交通流参数,通过轨迹数量来确定小时交通量,经计算检测路段单向的日均交通量约为25 395 veh, 最终建立的数据集观测到过车10.03万 veh。

除了基本流量参数外,还提取了在冲突与非冲突样本下的交通运行参数。图5给出了冲突和正常2组样本的车辆纵向速度分布对比。由图5可以看出:冲突组的纵向速度与非冲突组呈现了显著性差异,冲突组的纵向速度平均值(79.3 km·h-1)略低于非冲突组(81.0 km·h-1),独立样本t检验结果表明2组车速有显著性差异(F=2 533.7,p=0.000)。

图5 不同组别的纵向车速分布对比 下载原图

Fig.5 Comparison of Longitudinal Speed Distribution of Different Groups

进一步对冲突和正常2种交通状况下的SSMs特征进行统计分析。限于篇幅,图6仅给出了冲突和正常2组样本的THW值分布特性(为了确保非冲突组中样本所代表的车辆与前车确定存在交互,对THW值大于3 s的样本进行了剔除)。由图6可以看出,冲突组和无冲突组的THW值分布有着明显差异。交通冲突发生前的THW值相对于更安全的正常交通条件整体更大,表明了THW值对于粗略区分危险和相对安全的跟车具有一定的意义。

图6 不同组别的THW值分布对比 下载原图

Fig.6 Comparison of THW Distribution of Different Groups

2.4 面向路段实时碰撞风险预测模型的数据集构建

要实现碰撞风险实时预测,需要使用冲突事件发生前的一段时间内集计的交通参数作为特征变量,同时预留一段缓冲时间以采取合适的措施来降低碰撞发生的可能性。已有研究评估过各种时间窗的取值对冲突预测模型预测能力的影响,并且多选用分钟级的时间窗,如1 min或5 min[20,29]。这些研究发现,越接近碰撞发生时刻的交通流状况越适合用于RTCPM。本文尝试使用冲突前1~2 min的SSMs指标的数据用于建模,得出的结论是,时间片段窗口越宽,预测效果越差。然而,还应考虑保留一定时间实施主动交通安全干预;因此,本文最终采用30 s作为实时碰撞预测的时间窗。

将检测区域内的所有数据在30 s的时间片段上进行集计,将集计后的每个30 s长度的时间片段的交通变量作为样本特征,这个时间片段之后30 s代表的交通状况(非冲突、侧向冲突、纵向冲突)作为样本标签,将特征和标签进行集成生成用于路段实时碰撞风险预测建模的样本。因此,代表冲突发生的样本(正样本)是冲突发生时刻前30~60 s时间片段上的交通情况,而冲突前0~30 s的时间则作为预测完成到冲突可能发生的时刻之间的缓冲时间被剔除,如图7所示。所有其他的30 s片段的样本被作为代表正常交通情况的负样本。

图7 数据聚合方法 下载原图

Fig.7 Data Aggregation Method

数据集计的方式是先计算1 s内区域内所有检测目标的某参数的平均值,然后再将该平均值在30 s的时间片段长度上集计,方法包括但不限于取平均值、标准差和极差等。

依据对国内外实时碰撞预测模型和行车冲突分析的研究现状进行分析总结,选择了交通流变量、微观车辆行为特征和SSMs这3类交通参数作为路段实时碰撞风险预测建模的特征变量。已有研究表明,聚合的交通流量、占有率和车速与碰撞之间存在联系,故而这些交通流变量被纳入到预测模型的特征参数中;而微观车辆行为通过加减速和换道行为表征;多类别的SSMs可描述车辆间的风险关系。此外,还使用换道次数和不同车道之间某些变量的差异来表达与车道相关的特征,这些特征可能与侧向冲突密切相关。拥堵指数(Congestion Index, CI)是反映路段拥堵程度的一种指标,由Dias等[53]提出,其中自由流速度是检测点第85分位速度,CI值是一个位于0到1的连续变量,数值越大表示拥堵程度越高。

式中:PCI为拥堵指数;vfree为自由流车速;vactual为实际车速。

经过数据集计,最终形成了包括60个特征的数据集,如表3所示。表3中SMMs包括1/TTC、1/MTTC、PICUD、DRAC、DSSM、SHD。此外,Formos等[32]的研究发现交通冲突分析中较小的分位数比平均值更具代表性,故而使用5%和10%分位的SSMs值。

对包含冲突标签和SSMs的轨迹数据集按照以上方法进行数据集计,形成路段实时碰撞风险预测建模的样本集。依据交通流理论,对初步的样本集进行数据清洗,删除特征变量数值明显偏离于正常值的样本和包含缺失特征的样本,删除所有的空样本(该样本所表示在30 s时间段内没有任何车辆)。最终形成的样本数据集包括16 561个正常情况样本、772起纵向冲突样本和989起侧向冲突样本。为了提升机器模型的求解速度和精度,对所有特征变量进行了标准化处理,将数据按照均值中心化后再按标准差缩放,使每个特征变量的分布服从均值为0,方差为1。

表3 特征变量列表 导出到EXCEL

Table 3 List of Features

特征名

特征描述

交通流量的平均值/标准差/极差

30 s内每秒车辆数的平均值/标准差/极差

车速平均值/标准差/极差

30 s内每秒平均车速的平均值/标准差/极差

占有率平均值/标准差/极差

30 s内每秒占有率的平均值/标准差/极差

横向速度平均值/标准差/极差

30 s内每秒平均横向速度的平均值/标准差/极差

加速度平均值/标准差/极差

30 s内每秒平均加速度的平均值/标准差/极差

THW的平均值/标准差

30 s内每秒平均THW值的平均值/标准差

5%/10%分位THW

30 s内每秒平均THW值的5%/10%分位值

DHW的平均值/标准差

30 s内每秒平均DHW值的平均值/标准差

5%/10%分位DHW

30 s内每秒平均DHW值的5%/10%分位值

SMMs的平均值/标准差

30 s内每秒平均SMMs值的平均值/标准差

5%/10%分位SMMs

30 s内每秒平均SMMs值的5%/10%分位值

拥堵指数

30 s内的拥堵指数值

换道次数

30 s内的换道次数

车道间交通量/平均速度/占有率差

车道间的每秒车辆数/平均车速/占有率的平均值的差

车道间平均THW/DHW差

1/2车道间的每秒平均THW/DHW值的平均值的差

车道间平均SMMs差

1/2车道间的每秒平均SMMs值的平均值的差

3 结果与讨论3.1 预测模型结果

使用第2.4节建立的样本集进行建模,随机将样本集按照70%的训练集和30%的测试集进行划分,其中训练集数据用于XGBoost模型的训练,测试集数据用于模型测试。为了减轻正样本(冲突样本)远少于负样本(正常状况)的样本类别不平衡问题,在建模前使用了ENN对多数类样本进行欠采样。该过程仅用于训练集,处理后的训练集包含10 086个正常样本、542个纵向冲突样本和667个侧向冲突样本;测试集未经过处理,包含4 945个正常样本、230个纵向冲突样本和322个侧向冲突样本。在本文中,使用了基于Python3.8的Scikit-learn库和XGBoost库实现XGBoost模型;使用5折交叉验证法对训练集数据进行训练和验证,最后在未经采样算法处理的原始类别比例的测试集上测试模型。

表4为所建区分碰撞类型的路段实时碰撞风险预测模型在独立测试集上预测结果。模型的准确率为97.39%,纵向冲突的查全率和误报率分别为93.04%和0.13%;侧向冲突的查全率和误报率分别为61.80%和0.12%。总体来说,这些结果都显示了模型预测能力较好,其中纵向风险的检出率要高于侧向冲突,而整体的误报率都非常低。

表4 区分类型的模型预测结果 导出到EXCEL

Table 4 Model Prediction Results of Different Crash Types

预测结果

(次数)

预测值

侧向冲突

纵向冲突

正常情况

真实值

侧向冲突

199

5

118

纵向冲突

4

214

12

正常情况

2

2

4 941

为了将XGBoost的性能与其他几种常见的机器学习模型对比,使用同样的建模准备流程分别建立了基于支持向量机(Support Vector Machine, SVM)、Logistic回归和神经网络的路段实时碰撞风险预测模型。图8显示了交叉验证过程中随着样本训练数的提升,训练集和验证集的预测准确率的变化趋势和过拟合情况,表5显示了这几种模型的在测试集上的预测结果对比。虽然XGBoost模型的训练集和验证集准确率存在一些差距,表明存在一定过拟合,但是从模型的总体准确率、查全率、误报率和训练时间综合来看,XGBoost都要明显优于其他机器学习模型,这说明XGBoost对于改善预测性能具有帮助。

图8 不同机器学习模型的交叉验证结果 下载原图

Fig.8 Cross-validation Results of Different Machine Learning Models

查全率和误报率指标更能反映模型具体的性能。查全率是模型对碰撞风险的检出能力,对于主动安全措施的实施、减轻碰撞风险进而降低事故率至关重要;而误报率反映了模型错误将无风险的情况识别成有风险的情况,过高的误报率会降低驾驶人或管理者对主动安全系统的信赖度。从不同机器学习模型的预测结果对比来看:XGBoost对侧向冲突和纵向冲突的查全率都要显著高于SVM和Logistic回归,仅在纵向冲突的误报率上高出另外2种模型0.9%;查全率显著高于其他模型,也是模型能够支撑实际应用的关键因素。此外,XGBoost的训练时间3.96 s, 只是比常规的Logistic回归模型(0.36 s)要长,但是比支持向量机(4.37 s)、神经网络(12.45 s)2种模型要短。

表5 不同机器学习模型的预测结果对比 导出到EXCEL

Table 5 Comparison of Prediction Results of Different Machine Learning Models

方法

准确

率/%

侧向冲突

纵向冲突

训练

时间/s

查全率/

%

误报率/

%

查全率/

%

误报率/

%

XGBoost

97.39

61.80

0.12

93.04

0.13

3.96

支持向量机

94.80

25.47

0.02

80.43

0.04

4.37

Logistic回归

96.54

50.93

0.23

88.26

0.04

0.36

神经网络

96.69

56.52

0.44

90.87

0.11

12.45

本文提出的基于SSMs的路段实时碰撞风险预测模型与其他最新的类似研究的对比如表6所列。由表6可以看出,相比较其他模型,本文提出的基于SSMs的路段实时碰撞风险预测模型具有最大的AUC面积以及更好的整体预测精度,也能取得查全率和误报率之间较好的平衡,证明了引入SSMs的模型能够更好地预测出道路潜在的碰撞风险。

表6 路段实时碰撞风险预测模型对比 导出到EXCEL

Table 6 Comparison of Prediction Results of Different RTCPMs

模型

准确率/%

查全率/%

误报率/%

AUC面积

基于SSMs的模型

97.39

79.71

1.23

0.95

Peng(2020)[54]

84.21

18.38

0.89

Parsa(2019)[18]

80.00

0.50

0.90

Basso(2018)[55]

75.30

22.47

Liu(2017)[23]

65.00

7.50

You(2017)[56]

70.86

76.32

33.91

0.80

3.2 特征贡献度分析

为了提高模型的可解释性,显示各个特征变量对模型预测结果的影响,本文在建模后引入了SHAP进行特征分析。首先,进行独立特征对预测结果的影响分析。图9、10分别显示了对模型将样本预测为纵向和侧向冲突影响程度最重要的20个特征排序,横坐标为各特征的SHAP值,SHAP值越大表示对样本预测为冲突的贡献越大。每个点代表1个样本,颜色越红表示特征本身数值越大,颜色越蓝则越小。由图9 、10可以看出:影响纵向冲突和侧向冲突预测的特征具有较大的差异,对纵向冲突预测最为重要的20个特征依次为5%分位1/MTTC、1/MTTC平均值、1/MTT标准差、5%分位DRAC、DRAC平均值、5%分位1/TTC、5%分位DSSM、车道间交通量差、加速度极差、车速标准差、车速平均值、加速度平均值、横向速度标准差、加速度标准差、车道间平均速度差、车速极差、横向速度平均值、横向速度极差、1/TTC平均值和交通流量平均值;对侧向冲突最为重要的20个特征依次为交通流量平均值、加速度平均值、1/2车道间平均THW差、1/2车道间平均速度差、PICUD平均值、DRAC标准差、横向速度平均值、10%分位THW、车速标准差、车速极差、横向速度平均值、10%分位THW、车速极差、横向速度极差、PICUD标准差、车速平均值、交通流量标准差、横向速度标准差、1/MTTC标准差、5%分位PICUD、1/2车道间平均DHW差、加速度极差和10%分位PICUD。

图9 对纵向冲突预测最为重要的特征 下载原图

Fig.9 Most Important Features for Longitudinal Conflict Prediction

图10 对侧向冲突预测最为重要的特征 下载原图

Fig.10 Most Important Features for Lateral Conflict Prediction

对于纵向冲突,最为重要的前7种特征都是与SSMs相关的特征,这也证实了SSMs在反映路段级别的碰撞风险预测上具有较好性能。5%分位的1/MTTC对模型的影响最大,并且5%分位的1/MTTC数值越大,路段发生冲突的可能性越大。类似地,最重要的几种特征中其他几个5%分位的SSMs数值对模型的影响方向与这些SSM表征单车冲突时是一致的。同时,5%分位的SSMs要明显多于SSMs的平均值,这也说明了在表征跟车行为风险时较小的SSMs分位数比平均值更具有代表性,这与Liu等[23]的研究一致。传统交通流参数有关的车速特征也表现了较高的贡献度,其对模型的影响表现为速度的平均值越小、极差越大,路段的风险越高。与车辆行为密切相关的加速度也对模型具有一定影响,路段范围内平均加速度的升高也会增大碰撞发生的可能性。

对于侧向冲突,交通流量和加速度的平均值为最重要的特征,表现为交通量或平均加速度越大,侧向碰撞风险越大。这可以解释为,在交通量较大时车辆的车道变换从自由变道变为条件受限的换道,这无疑会增加侧向冲突。而与纵向冲突最为不同的是,与车道相关的车道间平均THW差和车道间平均速度差都具有较高的贡献度,较高的平均THW差和较低的平均速度差更可能导致侧向冲突的发生;车道间存在THW差和车速差会诱发一些换道行为,从而增加侧向冲突概率。与SSMs相关特征表明,PICUD平均值减小和DRAC标准差增大会提高路段风险。3种横向速度特征也表现了一定的贡献度,这表明车辆的横向行为对于侧向冲突风险的预测也比较重要;然而在目前的技术条件下,车辆横向速度的检测精度还有待提高,这种结论需要进一步验证。

总的来说,特征SHAP值表明本文在路段碰撞风险预测模型中引入的SSMs起到了较重要的作用,特别是在纵向风险的预测中。这些集计的SSMs对路段级别的风险影响方向基本与它们表达单车级别上的风险上一致。因此,在冲突发生前,同一路段区域内已经出现了不安全的车辆交互;当越来越多的车辆出现风险行为,表征冲突的SSMs特征也就出现的越多,微观层面的个体风险逐渐演变成路段级别上的群体风险。在集计指标中,SSMs的5%分位值比平均值对于整体分布情况更具有代表性,因此模型在预测中也更多的使用了5%分位值中的信息。这种风险演变的过程在纵向冲突发生前尤为明显,对纵向冲突预测最重要的特征几乎都与SSMs相关;并且,这些SSMs涵盖了时间、空间和减速度相关的各类SSMs, 说明了多样化的SSMs相比于单一类型的SSMs更能提高模型的容错能力。

除了SSMs外,速度和交通量这2种在已有的研究中使用最多的参数也表现出了比较重要的贡献度。交通流参数的变化对冲突预测结果的影响方向与之前Xu等[9,14]和Liu等[23]的研究结论基本一致,即较大的交通流量和较低的速度与碰撞风险的增高更相关,这代表着拥堵且缓慢移动的交通流,在这种情况下容易诱发车辆加减速和变换车道行为,而这种局促的行车环境又进一步增加冲突风险。

3.3 特征交互分析

除了能够分析每个特征对模型预测的影响程度和影响方向之外,SHAP的另一个优势是可以在此基础上,增加对两两特征之间交互作用的分析,以及它们在交互作用下对模型的影响。图11为纵向冲突预测中几特征对的SHAP交互图,横坐标为主要特征的数值,位于图形左侧的纵坐标为该特征的SHAP值,图形右侧的纵坐标表示与主要特征交互的次要特征的数值。图形上的每个点都代表1个样本,点的颜色越红表示这个样本的次要特征数值越大,越蓝表示越小。由于本文建模前已经对数据进行了标准化处理,因此显示的特征数值也为标准化后的数值。

图11 纵向冲突SHAP交互性分析 下载原图

Fig.11 SHAP Interaction Analysis of Longitudinal Conflict

当忽略图形颜色时,图形反映的是主要特征对模型的影响。图11(a)表明:随着5%分位1/MTTC增大,其SHAP值也逐渐增大,即路段纵向风险水平增大,发生纵向冲突的可能性越高;而样本点颜色显示了1/MTTC和PICUD的交互作用,随着5%分位的1/MTTC逐渐升高,蓝色点逐渐从红色点下方转至上方,即当SHAP值为正值时,低5%分位PICUD值的样本点SHAP值才更高。该结果表明高的5%分位1/MTTC和低的5%分位PICUD值所表示的样本风险更大,这2种特征能够协同反映更高的纵向风险。

图11(b)、(c)反映了类似规律。SHAP为正值的样本更多出现在5%分位DRAC和5%分位1/TTC较大区域,说明5%分位DRAC和5%分位1/TTC的增大会增大碰撞风险;并且在SHAP为正值时,交通量的增大会进一步增大SHAP。这表明交通量增大会加强危险跟车对路段纵向碰撞风险的正向影响,即在车辆较多的情况下更可能导致碰撞的发生。

类似地,图12显示了侧向冲突预测中几对特征的SHAP交互图。图12(a)表明:随着交通流量上升,SHAP值也随之上升的趋势;并且在SHAP值小于0的时候,加速度平均值的升高不会导致SHAP增大;只有当交通量逐渐增大,加速度平均值的升高才会引起更大的SHAP,进而增大侧向碰撞风险。也就是说,在路段范围内的交通量和加速度平均值都较大的情况下,路段的侧向碰撞风险会处在较高的水平。图12(b)表明:随着车道间交通量差增大,SHAP也整体升高。当车道间交通量差很大时,低的5%分位DHW的样本数量更多。这表明了极为接近的跟车情况更多地出现在车道间交通量差异较大的情况下,并且二者同时出现可能会增大侧向碰撞风险;也即是较大的流量会增加车辆变换车道的需求,而较小的车头间距又增加了换道相关的冲突。

图12 侧向冲突SHAP交互性分析 下载原图

Fig.12 SHAP Interaction Analysis of Lateral Conflict

4 结 语

(1)在路侧精细感知技术条件下,基于车辆行驶数据提取的SSMs在RTCPM领域有着广阔的空间;基于这一发展趋势,本文提出采用路侧精细感知数据生成SSMs作为RTCPM输入,提出了一种区分冲突类型的路段实时碰撞风险预测模型。这种路段冲突预测框架与现有基于断面检测器数据的RTCPM相比,不仅能提高预测精度,还能区分冲突的类型。而互通出入口影响区存在频繁的分合流及交织行为,模型可用于高速公路或城市快速路互通出入口影响区实时碰撞风险预测。

(2)为了获取建模所需数据集,在互通出入口影响区采集过往车辆的原始点迹数据,建立的数据集观测到过车10.03万 veh; 基于轨迹数据集计算检测区域内每辆车每秒的基本交通参数及相关的SSMs, 得到每个目标车车辆的17个特征参数;将检测区域内所有的特征参数在30 s的时间片段上进行集计,最终形成的样本数据集包括16 561个正常情况样本、772起纵向冲突样本和989起侧向冲突样本。

(3)几种典型的SSMs首次被加入到建模的特征中。使用一种以车辆规避行为和时空接近性作为区分侧向和纵向冲突类型的冲突提取方法,并以冲突代替真实的碰撞。最终所建立的XGBoost模型能够在碰撞发生前30 s预测到碰撞发生的可能性以及类别。模型能够实现97.39%的总体准确率,以0.13%的误报率预测出93.04%的纵向冲突,以0.12%的误报率预测出61.80%的横向冲突。XGBoost模型对侧向冲突和纵向冲突的查全率都要显著高于SVM和Logistic回归,仅在纵向冲突的误报率上高出另外2种模型0.9%。

(4)为了提高模型的可解释性,使用了SHAP工具分别分析了预测2种冲突最为重要的数个特征及其对模型预测的影响程度和影响方向。此基础上,增加对两两特征之间交互作用和在交互作用下对模型影响的分析。结果显示,引入的SSMs对于预测起到了比较重要的作用,5%分位的1/MTTC对纵向冲突预测模型的影响最大,交通流量和加速度的平均值是侧向冲突预测最重要的特征。分析结果可以为高速公路互通出入口影响区的交通管控措施提供依据。

(5)尽管本文为提高侧向冲突的预测能力,专门提取与车道差异和车辆侧向行为相关的特征。但是现有精细感知手段对于车辆侧向参数提取依然显得不足;基于这一考虑,本文没有提取更丰富的侧向行为参数,例如横向加速度等。尽管所提取到的这些侧向特征在侧向冲突的SHAP分析中也表现了较高的重要性,但是从模型预测结果来看,纵向冲突的检出率要远远高于侧向冲突,这说明模型对路段侧向风险的预测精度可以通过进一步优选特征和提高数据精度来提升。

参考文献

[1] Cambridge Systematics,Incorporated.Crash vs.Congestion:What's the Cost to Society?[R].Heathrow:American Automobile Association,2008.

[2] WANG C,XIE Y C,HUANG H L,et al.A Review of Surrogate Safety Measures and Their Applications in Connected and Automated Vehicles Safety Modeling [J].Accident Analysis & Prevention,2021,157:16157.

[3] HOSSAIN M,ABDEL-ATY M,QUDDUS M A,et al.Real-time Crash Prediction Models:State-of-the-art,Design Pathways and Ubiquitous Requirements [J].Accident Analysis & Prevention,2019,124:66-84.

[4] 朱顺应,蒋若曦,王红,等.机动车交通冲突技术研究综述[J].中国公路学报,2020,33(2):15-33.ZHU Shun-ying,JIANG Ruo-xi,WANG Hong,et al.Review of Research on Traffic Conflict Techniques [J].China Journal of Highway and Transport,2020,33 (2):15-33.

[5] ROSHANDEL S,ZHENG Z D,WASHINGTON S.Impact of Real-time Traffic Characteristics on Freeway Crash Occurrence:Systematic Review and Meta-analysis [J].Accident Analysis & Prevention,2015,79:198-211.

[6] 陆建,程泽阳.道路交通网络安全风险辨识研究进展[J].东南大学学报(自然科学版),2019,49(2):404-412.LU Jian,CHENG Ze-yang.Research and Development of Road Traffic Network Security Risk Identification [J].Journal of Southeast University (Natural Science Edition),2019,49 (2):404-412.

[7] OH C,OH J,RITCHIE S G.Real-time Hazardous Traffic Condition Warning System:Framework and Evaluation [J].IEEE Transactions on Intelligent Transportation Systems,2005,6 (3):256-272.

[8] 常振廷.线圈检测器采集信息的预处理方法和多维数据模型的构造[J].交通信息与安全,2009,27(1):64-67.CHANG Zhen-ting.Data Preparation and Multi-dimensional Data Model Based on Loop Detector [J].Journal of Transport Information and Safety,2009,27 (1):64-67.

[9] XU C C,LIU P,WANG W,et al.Evaluation of the Impacts of Traffic States on Crash Risks on Freeways [J].Accident Analysis & Prevention,2012,47:162-171.

[10] AHMED M,ABDEL-ATY M,YU R J.Assessment of Interaction of Crash Occurrence,Mountainous Freeway Geometry,Real-time Weather,and Traffic Data [J].Transportation Research Record,2012 (2280):51-59.

[11] 刘红红,杨兆升.基于数据融合技术的路段出行时间预测方法[J].交通运输工程学报,2008,8(6):88-92.LIU Hong-hong,YANG Zhao-sheng.Estimating Methods of Link Travel Times Based on Data Fusion Technology [J].Journal of Traffic and Transportation Engineering,2008,8 (6):88-92.

[12] ABDEL-ATY M A,HASSAN H M,AHMED M,et al.Real-time Prediction of Visibility Related Crashes [J].Transportation Research Part C,2012,24:288-298.

[13] XU C C,TARKO A P,WANG W,et al.Predicting Crash Likelihood and Severity on Freeways with Real-time Loop Detector Data [J].Accident Analysis & Prevention,2013,57 (1):30-39.

[14] XU C C,LIU P,WANG W,et al.Identification of Freeway Crash-prone Traffic Conditions for Traffic Flow at Different Levels of Service [J].Transportation Research Part A,2014,69:58-70.

[15] XU C C,LIU P,WANG W,et al.Evaluation of the Predictability of Real-time Crash Risk Models [J].Accident Analysis & Prevention,2016,94:207-215.

[16] YAN X D,ABDEL-ATY M,RADWAN E,et al.Validating a Driving Simulator Using Surrogate Safety Measures [J].Accident Analysis & Prevention,2008,40 (1):274-288.

[17] 高珍,高屹,余荣杰,等.连续数据环境下的道路交通事故风险预测模型[J].中国公路学报,2018,31(4):280-287.GAO Zhen,GAO Yi,YU Rong-jie,et al.Road Crash Risk Prediction Model for Continuous Streaming Data Environment [J].China Journal of Highway and Transport,2018,31 (4):280-287.

[18] PARSA A B,TAGHIPOUR H,DERRIBLE S,et al.Real-time Accident Detection:Coping with Imbalanced Data [J].Accident Analysis & Prevention,2019,129:202-210.

[19] PARSA A B,MOVAHEDIA A,TAGHIPOUR H,et al.Toward Safer Highways,Application of XGBoost and SHAP for Real-time Accident Detection and Feature Analysis [J].Accident Analysis & Prevention,2020,136:105405.

[20] KE J T,ZHANG S C,YANG H,et al.PCA-Based Missing Information Imputation for Real-Time Crash Likelihood Prediction Under Imbalanced Data [J].Transportmetrica A:Transport Science,2019,15 (2):872-895.

[21] 游锦明,方守恩,张兰芳,等.高速公路实时事故风险研判模型及可移植性[J].同济大学学报(自然科学版),2019,47(3):347-352.YOU Jin-ming,FANG Shou-en,ZHANG Lan-fang,et al.Real-time Crash Risk Prediction Models and Transferability Analysis on Freeways [J].Journal of Tongji University (Natural Science),2019,47 (3):347-352.

[22] 蔡晓禹,雷财林,彭博,等.基于驾驶行为和信息熵的道路交通安全风险预估[J].中国公路学报,2020,33(6):190-201.CAI Xiao-yu,LEI Cai-lin,PENG Bo,et al.Road Traffic Safety Risk Estimation Based on Driving Behavior and Information Entropy [J].China Journal of Highway and Transport,2020,33 (6):190-201.

[23] LIU M M,CHEN Y S.Predicting Real-time Crash Risk for Urban Expressways in China [J].Mathematical Problems in Engineering,2017 (1):1-10.

[24] 付存勇,王俊骅.基于监控数据的高速公路实时事故风险模型[J].交通信息与安全,2017,35(5):11-17,36.FU Cun-yong,WANG Jun-hua.A Real-time Accident Risk Model on Freeways Based on Monitoring Data [J].Journal of Transport Information and Safety,2017,35 (5):11-17,36.

[25] 游锦明,王俊骅,唐棠,等.基于支持向量机的高速公路实时事故风险研判[J].同济大学学报(自然科学版),2017,45(3):355-361.YOU Jin-ming,WANG Jun-hua,TANG Tang,et al.Support Vector Machines Approach for Predicting Real-time Rear-end Crash Risk on Freeways [J].Journal of Tongji University (Natural Science),2017,45 (3):355-361.

[26] 徐铖铖,刘攀,王炜,等.基于判别分析的高速公路交通安全实时评价指标[J].东南大学学报(自然科学版),2012,42(3):555-559.XU Cheng-cheng,LIU Pan,WANG Wei,et al.Discriminant Analysis Based Method to Develop Real-time Crash Indicator for Evaluating Freeway Safety [J].Journal of Southeast University (Natural Science Edition),2012,42 (3):555-559.

[27] SHI Q,ABDEL-ATY M.Big Data Applications in Real-Time Traffic Operation and Safety Monitoring and Improvement on Urban Expressways [J].Transportation Research Part C,2015,58:380-394.

[28] 汪敏,涂辉招,李浩.基于跟驰行为谱的跟驰风险状态预测[J].同济大学学报(自然科学版),2021,49(6):843-852.WANG Min,TU Hui-zhao,LI Hao.Prediction of Car-Following Risk Status Based on Car-following Behavior Spectrum [J].Journal of Tongji University (Natural Science),2021,49 (6):843-852.

[29] WANG L,ABDEL-ATY M,MA W J,et al.Quasi-vehicle-trajectory-based Real-time Safety Analysis for Expressways [J].Transportation Research Part C,2019,103:30-38.

[30] HOSSAIN M,MUROMACHI Y.A Real-time Crash Prediction Model for the Ramp Vicinities of Urban Expressways [J].IATSS Research,2013,37 (1):68-79.

[31] MAHMUD S M S,FERREIRA L,HOQUE M S,et al.Application of Proximal Surrogate Indicators for Safety Evaluation:A Review of Recent Developments and Research Needs [J].IATSS Research,2017,41 (4):153-163.

[32] FORMOSA N,QUDDUS M,ISON S,et al.Predicting Real-time Traffic Conflicts Using Deep Learning [J].Accident Analysis & Prevention,2020,136:105429.

[33] PERKINS S R,HARRIS J L.Traffic Conflict Characteristics-accident Potential at Intersections [J].Highway Research Record,1968 (224):35-43.

[34] ZHENG L,SAYED T.A Bivariate Bayesian Hierarchical Extreme Value Model for Traffic Conflict-Based Crash Estimation [J].Analytic Methods in Accident Research,2020,25:100111.

[35] SAYED T,ZEIN S.Traffic Conflict Standards for Intersections [J].Transportation Planning and Technology,1999,22 (4):309-323.

[36] JONASSON J K,ROOTZEN H.Internal Validation of Near-crashes in Naturalistic Driving Studies:A Continuous and Multivariate Approach [J].Accident Analysis & Prevention,2014,62:102-109.

[37] HAYWARD J C.Near Misses as a Measure of Safety at Urban Intersections [D].State College:The Pennsylvania State University,1971.

[38] OZBAY K,YANG H,BARTIN B,et al.Derivation and Validation of New Simulation-based Surrogate Safety Measure [J].Transportation Research Record,2008 (2083):105-113.

[39] IIDA Y.Traffic Conflict Analysis and Modeling of Lane-changing Behavior at Weaving Section [J].Proceedings of Infrastructure Planning,2001,21:8-19.

[40] SON H,KWEON Y,PARK B.Development of Crash Prediction Models Using Real Time Safety Surrogate Measures [J].Highway Safety,2008,84:79-93.

[41] ALMQVIST S,HYDEN C,RISSER R.Use of Speed Limiters in Cars for Increased Safety and a Better Environment [J].Transportation Research Record,1991 (1318):34-39.

[42] TAK S,KIM S,YEO H.Development of a Deceleration-based Surrogate Safety Measure for Rear-End Collision Risk [J].IEE Transaction on Intelligent Transportation System,2015,16 (5):2435-2445.

[43] WU J B,WEN H Y,QI W W.A New Method of Temporal and Spatial Risk Estimation for Lane Change Considering Conventional Recognition Defects [J].Accident Analysis & Prevention,2020,148:105796.

[44] XING L,HE J,ABDEL-ATY M,et al.Examining Traffic Conflicts of Up Stream Toll Plaza Area Using Vehicles' Trajectory Data [J].Accident Analysis & Prevention,2019,125:174-187.

[45] YANG M M,WANG X S,QUDDUS M.Examining Lane Change Gap Acceptance,Duration and Impact Using Naturalistic Driving Data [J].Transportation Research Part C,2019,104:317-331.

[46] BEHBAHANI H,NADIMI N.A Framework for Applying Surrogate Safety Measures for Sideswipe Conflicts [J].International Journal for Traffic & Transport Engineering,2015,5 (4):371-383.

[47] PENG Y C,ABDEL-ATY M,SHI Q,et al.Assessing the Impact of Reduced Visibility on Traffic Crash Risk Using Microscopic Data and Surrogate Safety Measures [J].Transportation Research Part C,2017,74:295-305.

[48] SAYED T,BROWN G,NAVIN F.Simulation of Traffic Conflicts at Unsignalized Intersections with TSC-Sim [J].Accident Analysis & Prevention,1994,26 (5):593-607.

[49] WARD J R,AGAMENNONI G,WORRALL S,et al.Extending Time to Collision for Probabilistic Reasoning in General Traffic Scenarios [J].Transportation Research Part C,2015,51:66-82.

[50] CHEN T Q,GUESTRIN C.XGBoost:A Scalable Tree Boosting System [C] // ACM.Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington DC:ACM,2016:785-794.

[51] LUNDBERG S,LEE S I.A Unified Approach to Interpreting Model Predictions [J].Statistics,2017,63:4765-4774.

[52] 陆川伟,孙群,陈冰,等.车辆轨迹数据的道路学习提取法[J].测绘学报,2020,49(6):692-702.LU Chuan-wei,SUN Qun,CHEN Bing,et al.Road Learning Extraction Method Based on Vehicle Trajectory Data [J].Acta Geodaetica et Cartographica Sinica,2020,49 (6):692-702.

[53] DIAS C,MISKA M,KUWAHARA M,et al.Relationship Between Congestion and Traffic Accidents on Expressways:an Investigation with Bayesian Belief Networks [C] // JSCE.Proceedings of 40th Annual Meeting of Infrastructure Planning.Tokyo:JSCE,2009:100-120.

[54] PENG Y C,LI C Y,WANG K,et al.Examining Imbalanced Classification Algorithms in Predicting Real-time Traffic Crash Risk [J].Accident Analysis & Prevention,2020,144:105610.

[55] BASSO F,BASSO L J,BRAVO F,et al.Real-Time Crash Prediction in an Urban Expressway Using Disaggregated Data [J].Transportation Research Part C,2018,86:202-219.

[56] YOU J M,WANG J H,GUO J Q.Real-time Crash Prediction on Freeways Using Data Mining and Emerging Techniques [J].Journal of Modern Transportation,2017,25 (2):116-123.

标签: #alm算法