龙空技术网

多元统计分析常考算法的辨别

智慧小刀爱分享 174

前言:

现在朋友们对“k均值聚类算法聚成2类”大约比较关注,姐妹们都需要学习一些“k均值聚类算法聚成2类”的相关知识。那么小编同时在网上搜集了一些有关“k均值聚类算法聚成2类””的相关内容,希望看官们能喜欢,看官们一起来了解一下吧!

1. 聚类分析和判别分析的相关与区别?

答:(1)相关:聚类分析和判别都是多元统计中研究事物分类的基本方法。

(2)区别:

①基本思想不同。

聚类分析:根据研究对象特征对研究对象进行分类的一种多元分析技术。把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。

判别分析:对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后将其应用到未知分类的样本中进行判别分类。

②已知条件不同。

聚类分析:在进行聚类分析之前,对总体到底分成几种类型并不知道。

判别分析:判别分析则是在总体类型划分已知时,判断当前新样本属于哪个类别。

③分类不同。

聚类分析:根据分类对象不同,聚类分析可以分为样品聚类(Q聚类)和变量聚类(R聚类)。

判别分析:根据判别标准不同,判别分析可以分为距离判别、Fisher判别和Bayes判别。

2. 聚类分析的基本思想和功能?

答:(1)基本思想:聚类分析是根据研究对象特征对研究对象进行分类的一种动员分析技术。把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。根据分类对象不同,可以分为样品聚类(Q聚类)和变量聚类(R聚类)。

(2)聚类分析的目的或功能就是把相似的研究对象归成类,即使类间对象的同质性最大化和类与类间对象的异质性最大化。

3. 系统聚类法的原理和步骤?

答:(1)系统聚类法的基本思想:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,这个过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

(2)步骤:假设共有n个样品(或变量),

①将每个样品(或变量)独自聚成一类,共有n类;

②计算类与类之间的距离,把距离最近的两类归为一新类,并重新计算新类与当前各类的距离;

③重复②,直到最后将所有的样品(或变量)聚成一类。

4. 均值聚类的步骤?

答:k均值聚类算法是一种迭代求解的聚类分析算法。

①预将数据分成k组,随机选取k个对象作为初始的聚类中心;

②计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类;

③每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程不断重复,直到没有对象被重新分配给不同的聚类,聚类中心不再发送变化,误差评分和局部最小。

5. 判别分析的思想和步骤?

答:(1)判别分析的基本原理:对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后将其应用到未知分类的样本中进行分类。根据判别标准不同,可以分为距离判别、Fisher判别和Bayes判别。

(2)步骤:

①判别分析的对象:根据判别分析的目的定义观测变量;

②判别分析的研究设计:主要包括解释变量和被解释变量的选择,估计判别函数所需要的样本量和为了验证目的对样本的分隔;

③假定条件的验证:检验解释变量的正态分布性、协方差是否相等以及解释变量间是否存在多重共线性;

④估计判别模型和评估整体拟合:确定估计的方法和保留的函数个数,根据估计的函数可用多种方法来评估模型拟合;

⑤结果的解释:说明在判别分析中每个解释变量的相对重要性;

⑥结果的验证:通常采用分隔样本或者交叉验证法。

6. 主成分分析的思想和步骤?

答:(1)主成分分析的思想:主成分分析是研究将原来多个变量重新组合成一组新的互相无关的综合指标的一种统计分析方法,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。也是用来降维的一种方法。

(2)步骤:

①根据研究问题选取初始分析变量;

②根据初始变量特性判断由协方差阵还是相关阵求主成分;

③求协方差阵或相关阵的特征根与相应标准特征向量;

④判断是否存在明显的多重共线性,若存在,则回到第①步;

⑤得到主成分的表达式并确定主成分个数,选取主成分;

⑥结合主成分对研究问题进行分析并深入研究。

7. 因子分析的思想和步骤?

答:(1)因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。

(2)步骤:

①根据研究问题选取原始变量;

②对原始变量进行标准化并求其相关阵,分析变量之间的相关性;

③求解初始公共因子及因子载荷矩阵;

④因子旋转;

⑤计算因子得分;

⑥根据因子得分做进一步分析。

8. 主成分分析与因子分析的关联与区别?

答:(1)关联:主成分分析与因子分析都常用于数据降维和信息浓缩,分析多个变量的基本结构。因子分析是主成分分析的进一步推广,主成分分析是因子分析的一个特例。

(2)区别:

①因子分析中,把变量表示成各因子的线性组合;而在主成分分析中,把主成分表示成各变量的线性组合。

②主成分分析中不需要一些专门假设,因子分析则需要一些假设(各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。)

③主成分分析只有主成分法;因子分析中有主成分因子法、主轴因子法和极大似然法等。

④主成分分析中,当给定的协方差矩阵或相关矩阵的特征根唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子。

⑤主成分分析中得到的主成分数量一般等于原始变量数目;而因子分析中得到的因子数量一般由人为事先确定。

⑥因子分析是主成分分析的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系。

⑦主成分分析没有实质意义,只是一个综合指数,只需要对主成分进行经济解释;因子分析具有客观的实质意义,需要对因子进行命名。

⑧主成分分析不要求数据来自总体,因子分析一般要求服从多元正态分布。

9. 典型相关分析的基本理论及分析方法?

答:(1)基本理论:典型相关分析是研究两组变量之间相关关系的多元分析方法。借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组分别提取的主成分的相关性来描述两组变量整体的线性相关关系。

(2)分析方法:

标签: #k均值聚类算法聚成2类