龙空技术网

用Excel做聚类分析:层次聚类法

大数据研习社 791

前言:

现时你们对“聚类分析距离计算方法”都比较讲究,大家都想要分析一些“聚类分析距离计算方法”的相关资讯。那么小编在网络上网罗了一些关于“聚类分析距离计算方法””的相关文章,希望我们能喜欢,各位老铁们一起来学习一下吧!

聚类分析将个体进行分类,已知当前所研究的问题的类别数目及各类特征,将一些未知类别的个体正确地归属于其中某一类。

常用聚类分析方法有层次聚类法、k-均值聚类法、DBSCAN、模糊聚类法等。本文将介绍层次聚类法。

在开始具体的聚类分析方法之前,需要了解一些关于聚类分析的基本原理。

聚类不同于分类

聚类分析不同于日常生活中所说的分类,事先不知道所研究的问题应分为几类,也不知道观测到的个体的具体分类情况,需要按照性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生分类结果。

例如,在大学,同学之间根据兴趣爱好、性格、家乡等,自发地聚集成不同的圈子,这个过程就是聚类,一开始不知道类别数目及细节,聚类过程自发进行。

上面提到两个关键点:亲疏程度、没有先验知识。

亲疏程度通过样品间的距离来衡量,下面介绍样品间的距离。

样品间的距离

1、欧式距离

最常用的距离是欧氏距离,初高中数学学过的两点间的距离就是欧式距离。

2、平方欧式距离

平方欧式距离,即欧氏距离的平方。

3、切比雪夫距离

切比雪夫距离定义为两个体中k个变量值绝对差的最大值。

4、块距离

块距离定义为两个体中k个变量值绝对差的总和。

5、闵可夫斯基距离

在闵可夫斯基距离中,

当q=2时,就是欧式距离;当q=1时,就是块距离;当q趋于无穷时,就是切比雪夫距离。

其他距离还有兰氏距离和马氏距离等。

总结一下,如下图所示。

一个例子

下表是同一批客户对经常光顾的五座商厦在购物环境和服务质量两方面的平均评分。现希望根据这批数据将五座商厦分类。

首先,通过这个例子讲解一下样品间的距离。

以A,B为例,在Excel中,可以直接根据公式计算:

具体Excel公式如下:

定义类间距离的方法

在聚类分析中,不仅要计算要计算样品间的距离,还要计算类与类之间的距离,比较常用的有:最短距离法、最长距离法、类平均法、Ward离差平方和法和重心法。

1、最短距离法

最短距离法:定义为两个类中最邻近的两个样品的距离,如下图所示,这两个类中最近的两个样本是2与4,按照最短距离法,将样本2与4的距离作为这两个类的距离。

2、最长距离法

最长距离法:定义为两个类中最远的两个样品的距离,如下图所示,这两个类中最远的两个样本是1与3,按照最长距离法,将样本1与3的距离作为这两个类的距离。

3、类平均法

类平均法:定义为两个类中任意两个样品距离的平均,如下图所示,将这两个类中的所有样本的距离都计算出来,然后取平均,作为这两个类的距离。

其他常用的距离还有Ward离差平方和法和重心法。

总结如下:

层次聚类法

层次聚类法分为3步:

1、开始每个对象自成一类;

2、然后每次将距离最近的两类合并,合并后重新计算新类与其他类的距离;

3、重复步骤2,直到所有对象归为一类。

具体操作如下:

1、开始每个对象自成一类,计算出距离矩阵,记为D1

距离计算公式:

例如,计算A,B之间的距离,公式为:

=SQRT(($C$5-C6)^2+($D$5-D6)^2)

其他样本距离按照类似的方式计算。

2、然后每次将距离最近的两类合并,合并后重新计算新类与其他类的距离

由距离矩阵D1可知,D,E之间距离最小,因合并为一新类,记为CL4

接着,按最短距离法计算新类与其他类的距离,得到距离矩阵,记为D2。

从距离矩阵D2可知,A,B之间距离最小,合并为一新类,记为CL3。

接着计算新类与其他类的距离,得到距离矩阵,记为D3。

由距离矩阵D3可知,C,CL4之间距离最小,合并为一新类,记为CL2。

接着计算新类与其他类的距离,得到距离矩阵,记为D4。

合并CL3与CL2,记为CL1。至此,聚类过程完成。

层次聚类法聚类的过程可用一张谱系聚类图描述,如下所示。

如果要分为三类,则按照下图所示的方式切割:

三类划分方式为:G1={A,B},G2={C},G3={D,E}。

如果要分为两类,则按照下图所示的方式切割:

两类划分方式为:G1={A,B},G2={C,D,E}。

聚类分析不仅可以对样品进行分类,也可以对变量进行分类,多数情况下,都是对样品进行聚类,这也叫做Q型聚类,少数情况,需要对变量进行聚类,称为R型聚类。

你是否做过聚类分析?用什么工具呢?欢迎评论留言!

标签: #聚类分析距离计算方法