龙空技术网

分类分析 之 两步聚类分析

Star课堂 149

前言:

如今咱们对“聚类分析各种方法适用条件是”大体比较关注,同学们都想要剖析一些“聚类分析各种方法适用条件是”的相关文章。那么小编同时在网摘上搜集了一些有关“聚类分析各种方法适用条件是””的相关文章,希望咱们能喜欢,兄弟们快快来了解一下吧!

序曲

齐天乐·蝉

【宋】王沂孙

一襟余恨宫魂断,年年翠阴庭树。乍咽凉柯,还移暗叶,重把离愁深诉。西窗过雨。怪瑶佩流空,玉筝调柱。镜暗妆残,为谁娇鬓尚如许。

铜仙铅泪似洗,叹携盘去远,难贮零露。病翼惊秋,枯形阅世,消得斜阳几度?馀音更苦。甚独抱清商,顿成凄楚?谩想熏风,柳丝千万缕。

【赏析】

《花外集》和《乐府补题》中都收录了这首词。《乐府补题》为宋遗民感愤于元僧杨琏真伽盗发宋代帝后陵墓而作的咏物词集。词中的齐后化蝉、魏女蝉鬓,都是与王室后妃有关,“为谁娇鬓尚如许”一句,还有可能关合孟后发髻。词中运用金铜承露典故,隐射宋亡及帝陵被盗事。咏物托意,且以意贯串,无有痕迹。

这首词借咏秋蝉托物寄意,表达国破家亡、末路穷途的无限哀思。开始由蝉的形象联想到宫女形象,由宫妇含恨而死,尸体化为蝉长年攀树悲鸣的传说,为全章笼罩悲剧气氛。“病翼”、“枯形”,是形容饱尝苦难的遗民形象。最后以寒蝉“漫想”二字,一笔将希望抹去,酸楚之至,有含蓄不尽之势。全词以寒蝉的哀吟写亡国之恨,词人哀吟,宛如寒蝉悲鸣,既贴物写形、写声,又超物写意,不失为一首咏物佳作。

两步聚类分析简介

两步聚类分析是一个执行探索性分析功能的过程,可用它来揭示原始数据的自然分组或分类,于1996年提出,是一种智能的聚类方法,其聚类变量既可以是连续变量,也可以是分类变量,并且自动进行聚类的类别数确定,结果也更可靠。

基本思想:利用统计量作为距离进行聚类,两步聚类顾名思义分为两步:先以距离为依据形成相应的聚类特征树节点,构造聚类特征树,进行预聚类;其次依据AIC和BIC最小原则,自动判定聚类数目。

在执行两步聚类分析时,虽然数据可以是连续性变量,或者分类变量,但要遵循一定的假设条件:(1)各分析变量相互独立(2)连续变量服从正态分布(3)分类变量服从多项式分布。由此,在两步聚类分析前,建议使用SPSS的相关过程检验响应的假设条件:

Bivariate Correlations过程:检验两连续变量之间的独立性;Crosstab过程:检验两个分类变量之间的独立性;Means过程:检验两个连续变量和分类变量之间的独立性;Explore过程:检验连续变量的正态性;Chi-square过程:检验分类变量是否服从多项式分布。

因为在两步聚类中也是使用距离进行分类的,但由于含有分类变量和连续变量,其选择距离也略有不同:数据集中若包括连续变量和分类变量,距离测量为似然距离;若只包含连续变量,也可选择欧式距离

从上面分析可简单看出,两步聚类分析的优势包括:

同时处理分类变量和连续变量通过指定的判别规则,自动选择最优的聚类个数可有效地分析大样本数据用户可自行设置用于计算的内存容量

相关概念解释:

调谐算法(Tuning the Algorithm):在指定聚类数目时,需要指定相应参数,称之为调谐,参数指定了,聚类特征树的规模基本确定。噪声处理(Noise Handling):构建 CFT 树时,如果指定聚类个数等参数,而样本量很多的话,可能发生CFT 树长满而不能再长的情况;没有长在树上的样本成为噪声,可调整参数容纳更多样本,或者直接归入某一类/直接丢弃。离群值(Otulier):对 CFT 树进行噪声处理后,被丢弃的样本为聚为这,可单独构成一类,但不计入聚类过的类别个数中。SPSS实现两步聚类

示例:某医院记录了患有某种疾病的500个病人的资料,现希望通过聚类的方法对病人的情况进行归类,以更清晰地了解这类病人的特征。涉及的变量包括年龄、性别、血压(高/正常/低)、胆固醇浓度(高/正常)、血液中钠含量、钾含量。

1.打开 分析—分类—二阶聚类

2. 参数选择与说明

(1)主页面

分类变量:选择需分析的分类变量连续变量:选择需分析的连续变量连续变量计数:显示对连续变量进行标准化处理的个数统计信息。假定标准化计数:显示不需要进行标准化处理的连续变量个数,即已经假定他们为标准化后的数据,对于一个变量是否要被标准化处理,可在 选项 模板进行设置距离测量:

----对数似然 Log-likelihood:基于变量的概率分布,假设所有变量都是独立的,且分类变量服从多项分布,数量变量服从正态分布

----欧式 Euclidean:计算两类之间的直线距离,只有所有变量为连续变量可选择

聚类数目:设置如何确定聚类个数

----自动确定:由系统自动确定最优聚类数

----固定值:可自己设定固定值

聚类准则:指定自动聚类算法中确定最优聚类个数的准则,可从BIC和AIC选择一个

(2)选项 页面

离群值处理:离群值处理方法

---CFT长满后,将离群值归为 噪音 类。如果某一节点的样本数低于最大叶节点中样本数的给定百分比,系统默认为25%,则被认为 离群值

---若不选择,当 CFT 长满后,若存在过多异常样本,就使用更宽松的临界条件重新生成CFT;在最终聚类结果汇总,仍不能归入某个类别的观测就标记为异常样本,自成一类以“-1”作为类号

内存分配:指定聚类算法需使用的最大内存,默认为64M,该值不小于4M,若太低,算法可能无法得到正确的聚类数连续变量标准化:选择数值是否被标准化,系统默认先对数值变量标准化。如果不需要标准化,则可将“待标准化”变量到“假定标准化”。

(3)输出 页面

输出:

a.透视表:结果将显示在结果输出窗口中

b.图表和表:在模型查看器中查看

c.评估字段:为未在聚类创建中使用的变量计算聚类数据。可以在模型查看器中将其与输入特征一起显示。

工作数据文件:该组允许您将变量保存到活动数据集。

a.创建聚类成员变量:此变量包含每个个案的聚类标识号。此变量的名称为 tsc_n,其中 n 是一个正整数

XML 文件:最终聚类模型和 CF 树是两类可以以 XML 格式导出的输出文件。

a.导出最终模型:最终聚类模型以 XML (PMML) 格式导出到指定文件中。您可以使用该模型文件以应用模型信息到其他数据文件用于评分目的。

b.导出 CF 树:此选项允许您保存聚类树的当前状态,并在以后使用较新的数据对其进行更新

3.结果输出与解释

(1)自动聚类说明

此表主要用于了解软件是如何根据BIC值自动判断最终聚类个数,主要参考依据包括“BIC值”、“BIC变化量”、“BIC变化率”、“距离测量比率”四个指标,SPSS软件综合四个判据,最后自动确定最佳聚类个数。一般来说,在BIC统计量取较小值时,代表了较好的模型。但有时BIC值会随着类数的增加而减少,从而很难依据BIC值确定聚类个数。如此,可采用最优模型应拥有最大的BIC变化比率和最大的距离测量比例。在本例中,聚类个数为4例。

(2)聚类分布

(3)最终聚类中心

(4)模型概要

采用两步聚类算法,自变量数为6个最终聚为4类。下面为聚类模型评价尺度图,发现聚类效果良好。注意:本图中有BUG,显示两个良好,最右边应为优秀。双击该图,可以弹出模型查看器,如下图所示

(5)模型查看器

从下图可看出左侧是模型概要,右侧的各类别的分布。点击左下角下拉菜单,选择“聚类”,显示最终聚成的4类中,各个指标的分布,分布差异越大,说明该指标的重要性越高。在上图中,选择其中2列或多列,则会显示各类别的比较图形点击右侧下拉菜单,选择“预测变量重要性”,对于最终建立的4个聚类,按变量的重要性大小排序,结果可见,胆固醇>性别>血压>钠含量>年龄>钾含量。前3个变量重要性大于50%以上,其他均较小。

4.语法

********************两步聚类 ******************.TWOSTEP CLUSTER/CATEGORICAL VARIABLES=性别 血压 胆固醇/CONTINUOUS VARIABLES=年龄 钠含量 钾含量/DISTANCE LIKELIHOOD/NUMCLUSTERS AUTO 15 BIC/HANDLENOISE 0/MEMALLOCATE 64/CRITERIA INITHRESHOLD(0) MXBRANCH(8) MXLEVEL(3)/VIEWMODEL DISPLAY=YES/PRINT IC COUNT SUMMARY/SAVE VARIABLE=TSC_8359.

标签: #聚类分析各种方法适用条件是