龙空技术网

基于聚类分析的社会数据研究

清华李博 28

前言:

此刻看官们对“基于聚类分析的我国城镇居民消费结构实证分析”可能比较重视,小伙伴们都想要了解一些“基于聚类分析的我国城镇居民消费结构实证分析”的相关文章。那么小编也在网络上汇集了一些关于“基于聚类分析的我国城镇居民消费结构实证分析””的相关文章,希望姐妹们能喜欢,兄弟们快快来了解一下吧!

阅读此文前,诚邀您点击一下“关注”,方便您随时查阅一系列优质文章,同时便于进行讨论和分享,感谢您的支持~

文|扎西朗姆

编辑|清华李博

引言

巴西法律(Lei11.326,2006年)将家庭农民定义为在不超过四个财政模块的农村地区,从事农业活动并在其商业活动中主要使用家庭自己的劳动力的家庭。

此外,根据法律规定,家庭农民的收入必须来自与自己的业务相关的活动,这些活动必须由农民及其家人经营。

据Guanziroli称,2001年,巴西的家庭农业占农业总产量的近40%,占农业就业的76.8%。

巴西大部分以家庭为基础的农业集中在东北地区。然而,居住在该地区的家庭农民面临着与土壤和气候相关的各种挑战。大约70%的半干旱地区位于结晶基底之上,土壤普遍较浅,水分入渗能力低,限制了农业的发展。

此外,东北地区经常遭受干旱,导致降雨量不足或分布不均,在收获周期以外的时间无法保持土壤足够湿润。此外,该地区农户之间的收入分配也存在不足。

2006年,东北地区家庭农业农户超过450万;其中只有约450,000人构成资本最多的群体,年收入超过53,000雷亚尔,而超过2,500,000名农民仅靠维持生计活动生存,年货币收入约为255雷亚尔。

一、分析这些家庭的社会数据

在这些家庭中识别类别并深入了解这种划分的最重要因素的一种可能方法,是通过聚类分析和数据挖掘技术分析有关这些家庭的社会数据。

数据挖掘是在数据库中发现有用信息和隐藏模式的过程,广泛应用于食品科学、农业、社交媒体、业务和客户管理、体育和别的。

然而,社交数据集的分析提出了一些源自收集和存储方式的挑战。社会数据集由许多混合变量组成,这限制了最流行的聚类算法之一——K-means的直接应用。

在必须处理的数据中还分布着大量空值。由于我们希望进行的分析具有探索性,数据中存在的自然组的数量是先验未知的,许多聚类技术需要将该值作为输入参数。

被选中的六个城市分别代表该州的一个农业生态区。问题是根据可持续生计方法制定的,并提供了理解它们之间关系的框架。

受访者是从当地农场工人辛迪加提供的农民名单中随机选择的,其中包含几乎详尽的农民名单。

二、使用数据挖掘和聚类分析进行知识发现

分析程序的第一步是根据与所涉及的社会问题的性质和领域相关的相似性因素,确定受访家庭的相关群体。为此,我们采用了聚类分析概念和技术。

数据挖掘技术融合了机器学习、统计计算、线性代数和数学优化概念,以发现数据中隐藏的模式。机器学习是数据挖掘过程的一个基本过程,因为它生成能够自动发现数据库中的模式和信息的智能算法,这有助于决策。

聚类分析是一种数据挖掘过程,属于同一集群的样本必须在它们之间显示出相似性模式,同时与与其他集群关联的样本尽可能不同。

由于社交数据的性质及其通常获取和存储的方式,聚类技术在此类数据上的应用被证明具有挑战性。对社会数据的研究通常是通过使用结构化形式进行的,这些形式会带来许多问题,供观察人群的成员回答。

收集后,这些数据将存储在电子表格或纯文本中。将这些文件转换为数据矩阵通常会生成混合类型的列,包括数字、分类和有序变量。此外,未填充的字段被映射为空值,这代表了数据分析的障碍。

三、估计最佳簇数

在这项研究中,我们使用Silhouette方法来估计数据集中自然聚类的最佳数量。剪影是聚类算法的一种图形显示方法。

每个聚类由一个轮廓表示,该轮廓是根据样本之间的相似性和不相似性设计的。剪影显示哪些样本很好地放置在簇中,哪些样本在两个或多个簇之间浮动。

整个分区显示在单个图中,作为轮廓的组合,可以可视化集群的质量。可以通过计算为具有不同簇数的一系列分区设计的轮廓的平均权重来估计簇的最佳数量。

四、围绕中心点进行分区

尽管K-means是目前最著名和最常用的聚类算法,但它具有仅处理数值的关键限制,这使得它在我们的混合数据集上的应用不可行。我们选择使用PAM算法,它实现了K-medoids聚类算法。

medoids类似于K-means,但更稳健且对异常值更不敏感。k-medoids算法基于在数据集中找到k个具有代表性的样本,称为medoids,k个聚类将通过每个样本与其最近的代表性对象的关联来构建。

medoids也可以接收相异矩阵而不是数据,该矩阵存储样本之间的成对距离。簇的中心点将是来自该簇的样本,使得该样本与同一簇中其他样本之间的平均差异尽可能小,而不是欧几里得距离的平方和由K-means计算。

该算法分两步执行,BUILD和SWAP。在BUILD阶段,通过连续选择k个代表性样本来执行初始聚类。选择的第一个样本必须与其他样本具有最小的平均相异性,因此应位于数据集的质量中心。

五、相异矩阵计算

PAM算法作为输入参数接收的相异矩阵可以使用详述的Daisy函数计算。此函数接受混合数据类型,包括数字、分类、序数、对称和非对称二进制值,这对我们在本研究中分析的数据集很有用。

为了处理混合变量,Daisy使用Gower相异系数。在减去最小值之后,通过将每个值除以相应变量的值范围来对每个变量进行归一化。此后,变量将缩放到。从计算中丢弃空值。

六、数据分类

除了聚类分析之外,数据挖掘还提供了执行称为分类的预测分析的技术。分类模型实现了监督学习,其中可以根据先前对标记样本的观察来预测由未知样本的类标签表示的特定信息。这些带标签的样本也称为训练集。

对数据进行聚类后,我们开发了分类模型,能够预测任意家族将关联到哪个聚类。我们选择了数据分类文献中最流行的三种分类模型:人工神经网络、支持向量机和决策树。

决策树指最古老的分类模型之一。数据集的每个变量都被单独提问,所有的问题和答案都可以排列在称为树的层次结构中。树的每个节点都指向一个变量,源自节点的每条边代表该节点所代表的变量的一个值或值范围。

叶节点存储类标签,即分类的最终点。每当分析一个新的测试样本时,每个变量都会被质疑,沿着树上的一条预先存在的路径,直到到达叶节点,并将其对应的类标签设置为为分析样本预测的类标签。递归亨特算法是构建决策树最常用的算法之一。

决策树的另一个优点是易于可视化和解释。路径上的决策规则使我们能够生成关于分类过程中每个变量的个体影响的假设。因此,尽管它们主要用作分类模型。

七、特征选择

特征选择是一种数据挖掘过程,旨在去除被认为对分类不重要的特征变量。一般来说,如果一个特征是相关的和无关紧要的,我们就说它被认为对分析很重要。

当一个变量对其他变量具有高度依赖性并且其中包含的信息可以用较少数量的这些变量来表达时,该变量被认为是冗余的。

当变量包含的信息不有助于生成关于样本与其类标签相关的假设时,变量被认为是无关紧要的。去除此类变量可以提高分类模型的准确性,减少异常值并简化分析。

八、结论

我们对从巴西东北部塞阿拉州六个城市的小生产者和家庭农民那里获得的社会数据进行了数据挖掘研究和聚类分析。社会数据是通过直接与家庭进行的研究获得的,其中涉及有关人口统计学、经济、农业生产和粮食安全的个人问题。

获得的答案用作我们分析的特征变量。为了处理这些具有挑战性的数据,我们采用了一种能够处理混合类型和空值变量的方法。

我们使用Silhouette技术估计数据中的最佳聚类数,并采用PAM聚类算法对聚类中的数据进行分区。

在C4.5决策树的帮助下,我们观察到,总体而言,集群1的家庭比集群2相关的家庭从社会保障中获得更高的收入,并给予其他家庭更多的支持,即使在极少数情况下,这些家庭的社会保障收入较低且粮食安全价值最低。

当集群的家庭不支持其他人时,他们会提出一个最低访问指数。大多数来自Barbalha和Parambu的分析家庭都属于这个集群。

另一方面,集群2的家庭社会保障收入较低,但当社会保障收入较高时,他们的获取指数较高。这些家庭的粮食安全指数也较高,即使社会保障收入较低。

参考文献

1.G.Barbier,H.刘,社交媒体中的数据挖掘社交网络数据分析(2011年)

2.G.Chandrashekar,F.沙欣,特征选择方法综述电脑。(2014年)

3.JNB坎普斯巴西东北部干旱的范式和公共政策:历史视角环境。(2015年)

4.RPBunker,F.Thabtah用于运动结果预测的机器学习框架申请计算机,信息学(2019年)

5.J.C.高尔一般相似系数及其一些性质生物测定学(1971)

6.Guanziroli,CE,2001。21世纪的家庭农业和土地改革。加拉蒙。

标签: #基于聚类分析的我国城镇居民消费结构实证分析