龙空技术网

「CSTC观点」聚类算法的评价方法浅析

中国软件评测中心 241

前言:

而今兄弟们对“聚类效果的评价方法”都比较关切,咱们都需要剖析一些“聚类效果的评价方法”的相关内容。那么小编同时在网上网罗了一些关于“聚类效果的评价方法””的相关文章,希望咱们能喜欢,朋友们一起来了解一下吧!

专业就是实力!中国软件评测中心感谢您的关注,我们在这里与您共同分享基于第三方服务的科技资讯与趣闻,欢迎加入我们。

1、聚类的理解

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

2、评价方法

2.1 purity

Purity方法一种较为简单的聚类评价方法,只需计算正确聚类的样本数占总样本数的比例:

其中Ω = {ω1,ω2, . . . ,ωK}是聚类的集合ωK表示第k个聚类的集合。C = {c1, c2, . . . , cJ}是样本集合,cJ表示第J个样本。N表示样本总数。

2.2 RI

实际上这是一种用排列组合原理来对聚类进行评价的手段,公式如下:

其中TP是指被聚在一类的两个样本被正确分类了,TN是只不应该被聚在一类的两个样本被正确分开了,FP只不应该放在一类的样本被错误的放在了一类,FN只不应该分开的样本被错误的分开了。

2.3 F值

这是基于上述RI方法衍生出的一个方法。

RI方法有个特点就是把准确率和召回率看得同等重要,事实上有时候我们可能需要某一特性更多一点,这时候就适合F值方法。

标签: #聚类效果的评价方法