龙空技术网

基于SAS软件的聚类分析——以9省份居民生活消费数据为例

科技实践分享 68

前言:

目前咱们对“基于聚类分析的我国城镇居民消费结构实证分析”可能比较关心,各位老铁们都想要剖析一些“基于聚类分析的我国城镇居民消费结构实证分析”的相关资讯。那么小编在网上收集了一些对于“基于聚类分析的我国城镇居民消费结构实证分析””的相关文章,希望小伙伴们能喜欢,同学们快快来了解一下吧!

物以类聚—人以群分

物以类聚,人以群分(《战国策·齐策三》《周易·系辞上》方以类聚,物以群分。西汉末刘向编定。用于比喻同类的东西常聚在一起,志同道合的人相聚成群,反之就分开。也是朋友之间门当户对、志同道合的统称。),各行各业都需要从收集到的微观数据集合了解宏观,通过聚类进行行业分析,经济动态,人群分类,病例群体分群等。

聚类分析是研究事物分类的一种统计方法,将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中,根据数据特征进行的分类研究。

提起聚类,大家可能听过战国事情的一个故事:战国时期,齐国有一位著名的学者名叫淳于髡。他博学多才,能言善辩,被任命为齐国的大夫。齐宣王喜欢招贤纳士,于是让淳于髡举荐人才。淳于髡一天之内接连向齐宣王推荐了七位贤能之士。

齐宣王很惊讶,就问淳于髡说:“寡人听说,人才是很难得的,如果一千年之内能找到一位贤人,那贤人就好像多得像肩并肩站着一样;如果一百年能出现一个圣人,那圣人就像脚跟挨着脚跟来到一样、现在,你一天之内就推荐了7个贤士,那贤士是不是太多了?”

淳于髡回答说:“不能这样说。要知道,同类的鸟儿总聚在一起飞翔,同类的野兽总是聚在一起行动。人们要寻找柴胡、桔梗这类药材,如果到水泽洼地去找,恐怕永远也找不到;要是到梁文山的背面去找,那就可以成车地找到、这是因为天下同类的事物,总是要相聚在一起的。我淳于髡大概也算个贤士,所以让我举荐贤士,就如同在黄河里取水,在燧石中取火一样容易、我还要给您再推荐一些贤士,何止这七个!”

聚类分析实际应用领域比较广泛,通过案例大家更能深入理解聚类的价值所在。它是研究分类问题的一种多元统计分析方法。

【例1】表1-1是全国9省市居民2011年支出情况数据汇总资料,主要涉及生活消费支出情况的八个指标。

表1-1 全国9省市居民2011年支出情况数据

表1-1 全国9省市居民2011年支出情况数据

data diaocha;

input diqu $ shipin house yiliao jiaotong education;

cards;

天津 1117.72 1200.16 6000.10 800.32 6800.87

北京 2300.12 1600.88 7898.92 1300.89 12000.56

吉林 1020.00 780.08 5456.21 678.21 4000.32

上海 2287.15 1889.23 8356.21 1500.23 15000.21

江苏 1317.88 467.62 163.16 293.07 6700.21

浙江 1838.57 798.88 326.12 496.86 8900.96

福建 1408.54 430.14 136.40 306.06 7680.09

山东 1100.13 560.97 1678.85 221.93 298.23

广东 1681.68 1700.21 8700.19 900.23 12000.26

;

run;

proc cluster data =diaocha standard method =ward

outtree =jltree pseudo;

copy diqu;

run;

proc tree data =jltree horizontal;

id diqu;

run;

程序执行后输出窗口显示如图1-1-1和1-1-2所示。

图1-1-1 cluster聚类分析

图1-1-1 cluster聚类分析

图1-1-2 聚类分析树

图1-1-2 聚类分析树

【程序解读】

1) PROC cluster data =diaocha standard method =ward outtree =jltree pseudo:method =ward指定选择ward方法聚类,pseudo项显示为F及t的平方统计量,该选项只有当数据是坐标或method=ward、average、centroid才有效。

2) copy diqu:将变量diqu复制到outtree=指定的数据集中。

3) PROC tree data =jltree horizontal:horizontal项指定树的高度轴为水平方向,默认为垂直方向。

4) ID diqu:指定树图中识别对象。

【分析结果解读】

图1-1-1中,列PSF列可以看出G=2和G=3处有峰值,因此分为2类或3类最好。在图7-15-2可以看RSQ变化最大,从0.946变化到0.7,可以看出分为2类最好。

图1-1-2通过对中国9个城市的五大指标分析,对城市群进行划分,聚类图把北京、上海和广东分为一类,也是第一梯队,山东、浙江、福建和江苏分为一类,天津和吉林分为一类。

案例形象,更能让我们提升学习聚类的积极性,跟着案例学习也是学习的最好方式。

标签: #基于聚类分析的我国城镇居民消费结构实证分析