龙空技术网

「SPSSAU | 数据分析」 分层聚类

spssau 84

前言:

此刻兄弟们对“层次聚类的方式主要有”可能比较重视,兄弟们都需要剖析一些“层次聚类的方式主要有”的相关资讯。那么小编也在网上网罗了一些有关“层次聚类的方式主要有””的相关文章,希望大家能喜欢,小伙伴们一起来了解一下吧!

分层聚类,又称层次聚类、系统聚类,顾名思义是指聚类过程是按照一定层次进行的。

数据分析过程中如果需要按变量(标题)聚类,那么此时就应该使用分层聚类,并且结合聚类树状图进行综合判定分析。比如当前有8个裁判对于300个选手进行打分,试图想对8个裁判进行聚类,以挖掘出裁判的打分偏好风格类别情况,此时则需要进行分层聚类。

分层聚类的基本思想是:

在聚类分析的开始,每个样本(或变量)单独作为一组,然后按照某种方法度量所有样本(或变量)之间的亲疏程度,把距离相近的先样本(或变量)先聚成类,距离相远的后聚成类,如此反复,直到所有样本(或变量)聚成一类为止。

分层聚类有几点需要特别注意:

1:仅针对定量数据进行分层聚类;

2:如果数据的单位有较大差别,可首先对于数据进行标准化处理后,针对标准化数据进行分层聚类;

SPSSAU用户可点击数据处理-生成变量-选择标准化(S),进行数据标准化处理。

3:由于均为定量数据,因而从原理角度上,分层聚类时应该使用Pearson相关系数去度量距离,相关系数值越大说明越紧密,则说明距离越近,相关系数值越小说明越疏远,说明距离越远;SPSSAU默认使用Pearson相关系数表示距离大小;

案例分析

1、背景

当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。总共8个裁判共有8列数据,并且共有300行。由于打分全部均是从1到10分,8列数据的单位均一样,因此在分析之前不需要进行标准化数据(当然进行标准化处理也没有问题)。

2、操作步骤

本案例中总共涉及8个标题,SPSSAU操作截图如下:

SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。

3、SPSSAU输出结果

SPSSAU会首先输出聚类项的基本描述情况,接着输出每项的聚类类别归属情况;并且输出树状图,如下所述:

聚类项描述分析

上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分以上。

SPSSAU:智能化分析聚类类别分布表

总共聚类为3个类别,以及具体分析项的对应关系情况。在上表格中展示出来,上表格可以看出:裁判8单独作为一类;裁判5,3,7这三个聚为一类;以及裁判1,6,2,4作为一类。

聚类类别与分析项上的对应关系可以在上表格中得到,同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字,这个需要结合对应有关系情况,自己单独进行命名。

上图为聚类树状图的展示,聚类树状图是将聚类的具体过程用图示法手法进行展示;最上面一行的数字仅仅是一个刻度单位,代表相对距离大小;一个结点表示一次聚焦过程。

树状图的解读上,建议单独画一条垂直线,然后对应查看分成几个类别,以及每个类别与分析项的对应关系。比如下图中,红色垂直线最终会拆分成3个类别:第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。

当然在分析时也可以考虑分成2个类别,此时只需要对应将垂直线移动即可:

上图展示出仅分为2个类别时的情况;如果聚类成2个类别;此时裁判8单独作为一个类别;裁判5,4,7,1,6,2,4会单独聚为一类。

如果是聚为四类;从上图可看出,明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适(上图中的裁判1与6/2/4);但是如果分成4类,此时裁判1会单独成一类。所以画垂直线无法区分出类别。

因而综合分析来看,最终聚类为3个类别最为适合。

文字分析

本次研究共涉及8个裁判对于300个选手的打分数据,打分从1到10分;并没有量纲问题,因而对平数据不需要进行标准化处理(如果有量纲单位问题,最好先进行标准化处理)具体分层聚类时使用Pearson相关系数度量距离大小,同时使用组平均距离法进行分析。

结合树状图进行分析,如果聚类为一个类别,此时其中一个类别仅对应1项,另外一个类别对应7项;如果聚类为四个类别,其中有一项无法很好的区分成一类;最终聚类为三类最为合适,第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。

标签: #层次聚类的方式主要有 #层次聚类平均距离公式 #聚类分析树状图的意义 #如何解读聚类分析树状图的结果数据