前言:
目前咱们对“pagerank邻接表算法”都比较讲究,朋友们都想要知道一些“pagerank邻接表算法”的相关知识。那么小编在网摘上收集了一些对于“pagerank邻接表算法””的相关内容,希望兄弟们能喜欢,咱们一起来了解一下吧!本文是对《智能风控典藏版合集》中涉及到的关系网络及图谱、图算法作的总结笔记,涉及到的文章有《图算法在网络黑产挖掘中的思考》、《Frauder算法在京东关系网络反欺诈中的应用》、《关系图谱在贝壳找房风控体系的应用于实践》、《金融风控反欺诈之图算法》。
《图算法在网络黑产挖掘中的思考》
这篇文章通过图表征学习将图结构的节点属性以及结构特征映射到一个节点低维空间,由此产生一个节点特征,然后再去进行下游的任务,如用户定性等。图表征学习的关键点在于在进行低维的映射当中需要保留原始图的结构和节点属性信息。
这里的节点嵌入特征就是图神经网络的Embedding过程,传统的graph embedding方法有DeepWalk/Node2vec。具体过程可简化如下图,摘自知乎《深度学习中不得不学的Graph Embedding方法》
图算法GraphSAGE的核心思想是邻居抽样和特征聚合。聚合过程是节点自身的属性特征和其抽样的邻居节点特征分别作一次线性变换,然后将两者concat在一起,再进行一次线性变换得到目标节点的embedding特征。最后利用目标节点的embedding特征进行下游的任务,训练的方式可以采用无监督的方式。
针对黑产挖掘场景中的孤立点和异质性,解决思路如下:
孤立点:黑产用户在被处理后,通常会快速申请新的账户或备用账号,因此会不可避免出现孤立点,类似于推荐算法中的冷启动问题。解决该问题的方法是EGES,将每一个节点的属性特征映射到一个embedding特征,然后将每一个属性的embedding特征置于注意力层进行处理。这样新增节点可以通过自身的属性特征直接获得embedding特征,不需要考虑用户关系从而解决孤立点的问题。
异质性:黑产用户不仅与黑产用户相关,也可以与正常用户建立联系,会导致算法的梯度下降。为解决这个问题需要将恶意账号与正常账号之间的联系剔除,并将恶意账号之间的联系进行增强,用LDS算法解决这类问题。算法思想是先给定一个网络结构,固定GCN模型,然后训练邻接矩阵,几轮迭代后再固定,接着训练GCN模型,几轮迭代后可以得出一个合理的网络结构。
由于这篇文章有很多深度学习的概念,了解得很少,因此有兴趣的可以去看原文。
《Frauder算法在京东关系网络反欺诈中的应用》
从图论的角度可以根据节点属性的不同将网络分为同构图和异构图。同构图是同一种结点组成的关系网络,相应的有PageRank算法、Louvian社区发现算法等;异构图是由不同属性的节点组成的关系网络,二部图是异构图的一种,它由两类节点组成,并且同类节点之间通常没有关联。比如刷单欺诈中出资店铺和刷手这两类节点构成的交易关系就是二部图。消金场景下用户与商户勾结对平台的消费贷套现欺诈行为也是二部图。
二部图中两类节点之间会出现异常的连结分布,从整体网络看其呈现出一张致密的双边连接子图,且该子图内的节点与图外节点联系相对较少。这种大量的、同步的非正常关联行为模式称作Lockstep。即在本不应该出现聚集行为的二部图自然关系网络中出现了双边聚集行为。
《金融风控反欺诈之图算法》
对可疑致密子图的分析,需要结合统计性指标作出二次判断。比如致密子图除了刷单还可能提取出多个羊毛党或黄牛党网络,这些拥有类似连接关系得到欺诈模式都会被抓取出来,只有经过充分的二次定性才能进行后续的案件处理。
社群发现算法可以与有监督学习协同训练,用两类节点的关联关系构建交易二部图,进行Frauder无监督社群挖掘;用欺诈标签、用户节点特征和商户节点特征进行有监督建模,得到单点的欺诈概率。二者可以综合利用各方信息互相协同形成模型闭环,通过多轮迭代不断提升社群挖掘的数量和有效性。
《关系图谱在贝壳找房风控体系的应用于实践》
贝壳的业务场景涉及线上+线下多个环节,整个环节的长链条中混杂各种小B/大B的违规行为,具有低频、大额、长周期的属性。关联关系在贝壳风控体系中的作用,可以表述为先通过关联关系或举报发现高风险的违规行为,而后利用关联关系识别中低风险的违规行为,进而实现对黑、灰、白三个不同层次违规行为的监控和打击。
《金融风控反欺诈之图算法》
介绍图的一些基本知识,度、度中心性、接近中心性、介中心性,社区发现算法。主要是基于模块度的Louvain、基于信息熵Infomap、基于相似度的node2vec。感兴趣的话可以深入研究。
《机器学习在反欺诈中应用》
介绍了三种图谱关系在反欺诈中的应用。
第一种是常规统计,一般不会直接用作规则而是将规则做成特征再带入模型进行统计。比如一度联系人中有多少黑中介,一度联系人中的逾期人数有多少,此类特征的KS较高且有效。
第二种是复杂网络Embedding算法。有兴趣再深入学习。
第三种是trustrank算法,是pagerank的升级版,属于传播关系的一种算法,根据人与人的关系进行判断和识别。比如小红和小明是情侣,当小红违约时小明的违约概率会增大,根据类似传播关系来做定额和模型的衍生变量。
这本资料介绍比较多的还有联邦学习相关的知识,水平有限就不做总结了,感兴趣的可以去研究学习。
【作者】:Labryant
【原创公众号】:风控猎人
【简介】:做一个有规划的长期主义者。
【转载说明】:转载请说明出处,谢谢合作!~
标签: #pagerank邻接表算法