前言:
如今小伙伴们对“微博内容分类算法”大概比较注重,咱们都需要分析一些“微博内容分类算法”的相关资讯。那么小编同时在网络上汇集了一些关于“微博内容分类算法””的相关知识,希望大家能喜欢,你们一起来了解一下吧!知洋娱乐:微博用户粉丝识别分好坏的区别在哪?相信不少人是有疑问的,今天深圳市知洋文化传媒有限公司就跟大家解答一下!
知洋娱乐:微博用户粉丝识别分好坏的区别在哪如下:
在影响力计算中,提到要避免僵尸用户粉丝对影响力计算的干扰,在微博算法中,如果可以识别这样的用户粉丝,在计算影响力时将其排出在外,不仅可以提高效果,还可以降低计算量。
与影响力计算相似,垃圾用户粉丝的识别要同时考虑用户粉丝属性与链接关系两方面的因素。
对于垃圾用户粉丝来说,有一些统计上的特征与正常用户粉丝不同,那么微博用户粉丝识别分好坏的区别在哪?接下来就跟着知洋娱乐小编一起来看下吧!
垃圾用户粉丝一般发微文具有一定的时间规律性,可以使用熵值对此进行衡量,熵是衡量随机性的一种量度,随机性越大,熵值越小,具体做法为将一定的粒度进行时间切片统计,得到每个时间片内的博文概率,然后依照概率进行熵值的计算,熵值越大代表用户粉丝发微文的时间越有规律,越有可能是垃圾用户粉丝。
垃圾用户粉丝有些倾向于在微文中恶意的@其他人,因而有些垃圾用户粉丝的微文中@使用的比例比一般用户粉丝高。
有些垃圾用户粉丝的微文中为了进行广告的推广,添加大量的URL,可以通过微文中的URL比例进行衡量,也有些用户粉丝为了骗取URL的点击,微文中的内容与URL对应界面的内容不一致。
这时需要判断微文与URL内容的一致程度,简单的做法可以使用词袋法将微文与URL对应界面表示成词语向量,查看微文中的词语在URL对应网页中出现的频度。
对于那些为做广告推销的用户粉丝,还可以对其微文进行文本分类,判断其微文是否是广告,如果某用户粉丝的相当一部分微文是广告,则该用户粉丝可能是垃圾用户粉丝。
垃圾用户粉丝一般随意的关注用户粉丝,故其粉丝数目与好友数目的比例与正常用户粉丝会有差别,而且正常用户粉丝一般是通过好友关系添加好友的,这样会形成关注三角形。
比如A看到其好友B关注了C,那么若A也去关注C,就形成了A关注B、C,B关注C的三角形。一般来说,由于垃圾用户粉丝关注的随意性,其关注三角形的比例与正常用户粉丝不同。
当然垃圾用户粉丝与正常用户粉丝的不同之处不止这些,本文不再一一枚举,垃圾用户粉丝的识别本质上是一个二分类问题,获得了这些属性之后,就可以将这些信息输入到一个机器学习的分类模型中,比如逻辑斯蒂回归(LR)、决策树、朴素贝叶斯等,就可以对其进行分类了。
当然还没有用到链接信息,一般来说,垃圾用户粉丝会去关注正常用户粉丝,而正常用户粉丝不会关注垃圾用户粉丝。
正常用户粉丝不倾向于关注垃圾用户粉丝。
这样就可以再次使用PageRank微博算法来对用户粉丝是否是垃圾用户粉丝的概率进行计算,这里需要注意的是,微博算法初始化时采用上面的分类器结果,将垃圾用户粉丝的概率设为1,正常用户粉丝的概率设为0。
在PageRank计算过程中,不能通过简单的求和公式计算,比如如果一个用户粉丝关注了多个垃圾用户粉丝的时候,求和后概率可能大于1,因而需要使用一些归一化方法或指数族函数进行概率的更新。
以上就是深圳市知洋文化传媒有限公司小编给你们介绍的知洋娱乐:微博用户粉丝识别分好坏的区别在哪,希望大家看后有所帮助!
标签: #微博内容分类算法