龙空技术网

前端业务指标-模型监控

CDA数据分析师 112

前言:

而今我们对“前端监控指标”大体比较看重,姐妹们都需要学习一些“前端监控指标”的相关资讯。那么小编在网上汇集了一些关于“前端监控指标””的相关资讯,希望咱们能喜欢,各位老铁们快快来了解一下吧!

作者:研究猿

模型监控

模型监控不但包括模型样本外评估的所有指标,还包括以下指标用于模型的事前和事后监控,及时发现问题。模型评估的作用在于查看模型在预测能力上是否有退化。模型监控主要用于发现数据问题和异常行为,比如外部端口数据缺失、策略漏洞或被绕过、平台是否被黑产攻击中。

01、前端监控—业务指标

业务指标中的通过率是监控的重点。产品准入政策变更、渠道引流策略的变化、数据源统计口径或数据不稳定都可能导致通过率发生波动。过高的通过率会增大业务风险,这可能由于数据中的负分项变量返回了大量的缺失值,这在黑名单产品中会出现。过低的通过率则提示客群在变化或数据均置有明显位移,如图5-8所示。

图5-8 通过率监控

除此之外,日志数据也是重要的监控数据源,比如数据端口返回值情况等。

02、前端监控—评分分布稳定性

评分分布稳定性报告的目的在于生成一个能够代表总体的分值分布随时间变化的指数,这种情况出现的原因在于评分卡开发时使用的是历史数据,而新进客户的数据得出的评分描述的是客户的当前行为,比较当前行为和历史行为的差异可以得到差异。一般来说,差异的产生可能在于:

1)客户群体发生变化,新客户进入,老客户流失,都将使得客群发生变化;

2)市场发生变化,例如经济周期、宏观环境的变化;

3)行业发生变化,例如新的法律法规的出现。

为保证评分卡能够被正确使用,需要监测评分分布稳定性。表5-3是评分稳定性示例。

表5-3评分稳定性示例

表中可以直观观察到分值区间下建模客户和新进客户在各个分值段上的差异,例如可以看出建模时高分值客户正在往低分值进行移动。这里PSI(群体稳定性系数)的计算方法为:

PSI指数越大说明不同时点评分分布差异越大,反之则小。一般来说,PSI小于0.1时说明不同时点评分差异小;在0.1~025之间时,说明有一定差异,需要注意;大于0.25时,说明差异较大,需要进行调整。

除此之外可以将每个时点监控的PSI指标绘制为时序图,了解趋势变化情况,如图5-9所示。

图5-9 PSI示例

03、前端监控-特征分布稳定性

评分分布稳定性描述总评分稳定性,当评分稳定性较差时,一定是某些或全部变量的分布稳定性出现了异常,所以需要进行特征分布稳定性监控以了解是哪些变量的分布差异导致了总评分稳定性差异。表5-4是特征分布稳定性的一个示例。

表 5-4 特征分布稳定性例

居住属性变量中,计算出建模客户与新进客分布差异,再乘以水平分值得到分数差异,汇总后可得到总差异。当变量差异为正时,说明较建模客户,新进客户分布往高分分布移动;当变量差异为负时,说明较建模客户,新进客户分布往低分分布移动。

04、后端监控-评分正确性

在监控模型稳定性的同时,模型对好坏客户的预测正确情况也应纳入到模型监控中。首先可对评分卡分数与好坏客户率的关系进行分析。具体实施时,在新的时间段进件的客户统计出其评分分值和定义的好坏客户,形成如表5-5所示报表。

表5-5 评分正确性报表例

在报表基础上,绘制出好坏客户分布,如图5-10所示(此图无需在系统中绘制)。

图5-10 好坏客户在评分区间的分布例

图中横轴为评分区间,纵轴为好/坏客户占比。上例中分值低代表坏客户可能性大,而好坏客户分布有着明显的差别。上图中,好坏客户在不同分值下分布重叠得较少,说明模型对好坏客户有着很好的区分能力;若重叠得较多,说明模型对好坏客户区分能力不佳,需要对模型进行调整。

此外,评分正确性指标可以按照指定时间间隔对相应进件客户进行分析,已观测评分正确性指标随时间变化的趋势,如图5-11所示。

图5-11 评分正确性随时间变化情况

图5-11中,横轴代表评分区间,纵轴代表区间下的坏客户率。不同颜色的趋势线表示不同时间段统计的评分正确性。该图可以直观地展示不同时间段评分卡在不同分值客户下的坏客户率情况,像图中紫色线(2007年3月进件客户)说明该月分值正确性分布较其他时间内变化较大,尤其是630~660分区间内坏客户数量较多,需要注意该月份异常的原因。

05、后端监控-变量有效性

若评分分布进行正确性分析时发现了评分正确性异常后,还要关注具体是哪些变量的正确性出现了问题,这就涉及对评分卡具体变量的有效性分析。表5-6是变量有效性分析的示例。

表5-6 变量有效性分析例

对客户坏客户占比的可视化图形如图5-12所示。

图5-12 变量有效性分析例

图5-12中显示在建模客户与新进客户下,水平“未知”和“男性”的坏客户率差异较大。依次类推作出评分卡所有变量的有效性分析,可找出具体哪些变量出了问题导致评分正确性出现问题。

标签: #前端监控指标