龙空技术网

每周学一点统计学——数据的估计

立世蜉蝣 208

前言:

目前同学们对“多维相关系数”都比较重视,兄弟们都需要剖析一些“多维相关系数”的相关内容。那么小编也在网络上汇集了一些有关“多维相关系数””的相关知识,希望同学们能喜欢,我们一起来学习一下吧!

估计这个词经常看到,其中最常见的是参数估计以及它的分支贝叶斯估计、最大似然估计、最大后验估计…,统计学家们很亲耐“估计”这个词汇,但是作为初学者,一开始挺迷惑的,就是不断的迭代,计算最优参数啊,为什么要叫“估计”,而不叫“计算”呢。细细品味“估计”和“计算”,前者似乎更柔性,后者则更“刚”。对于很小的数据集,做“线性规划”这种简单的问题,列一系列方程式,把问题中的关系和参数表示出来,然后直接解方程,计算出参数的解,这样用“计算”更合适;而现实中收集的数据集,通常数据量大,含有各种噪音,并且,这些数据的关系并不是一系列方程就可以直接理清楚的,能不能求出理论最优解也不能确定,这样的求解过程,用“计算”确实“刚”了一些。“估计”要完成的任务有两个:①求出参数的解,②在一定置信度下,给出这个解的精度。

平常“估计”都是围绕参数来的,在估计参数之前,先要对数据进行估计。虽然数据是客观存在的,但稍微上规模的数据,依然需要“估计”,且不说海量数据,即便是上千条,人脑要记住这些数据,并在脑子里了解和分析他们,平凡人也是办不到的。因此,还得估计。

1. 均值、中位数与众数

这三个概是数据统计中经常出现的统计量,尤其是平均值,学生的平均分、国家的人均产值,都是按平均数来算的,为什么要算平均数呢?他既容易理解,又能衡量一堆数据(一个团体)的大概面貌(综合实力)。例如,两个50人的班级比较某学科成绩,给大家分别念一遍两班每个学生的成绩,然后让大家说哪个班学生更厉害?大部分平凡如我的人怕是都答不上来。然而,说A班平均分70,B班平均分80,马上你就知道B班水平更高。

平均值算是我们对数据最基本也最直观的估计,但是平均值对两极极值比较敏感。设想,如果调查杭州人民的年收入,于是我们随机抽样1000个人作为样本,一不小心抽中了马云爸爸,结果一算年平均收入1000万,而实际除了马云爸爸,其他999人年收入都在100万以内,平均数是不是对极端值很敏感,对极端值敏感的估计就算不上稳健估计。

从稳健性的角度来讲,中位数更加稳定。中位数是将数据按每种顺序排序,然后取最中间的值,如果数据数量为偶数,则计算中间值。中位数取决于位置,因此,对非中间位置数据的数值不敏感。上面估计年收入的问题,如果换成中位数,那马云爸爸的年收入对中位数几乎没有影响。

除了中位数,切尾均值也更加稳健,比赛中,评委打分后,去掉一个最高分,去掉一个最低分,xx选手的最后平均得分是nn.nn,这就是切尾均值。当然在数据处理中可能切掉的是前p1%和后p2%。切尾均值对长尾比较厉害的数据很有效。

切尾均值

除了切尾均值,还有加权均值,

加权均值

众数表示更多数据的状态,是和密度更加相关的统计量。

2. 数据的变异性

假如现在我们知道,B班的平均分是80,B班学生总体来说更厉害,但是,到底是有一小部分同学特别厉害,抬高了大家的平均分呢?还是所有同学成绩都比较好呢?不好说。这时候,了解正态分布的同学就会说啦,计算一下方差呗。没错,方差可以反应成绩的分散程度,它是数据变异性的一种计算方式。变异性旨在衡量数据的分散程度。

最简单的变异性计算方式是两极极差,也就是最大值减去最小值,这个值越小,说明数据越集中,但值越大却不一定数据就越分散,或许最大值和最小值就是两个噪音或者特例(离群点)呢。

现在最常用的变异性计算方式应该是标准差

方差

标准差

和均值一样,标准差对于离群点也不是稳健的估计,更稳健的估计是中位数绝对偏差,

中位数绝对偏差

同时,另一种常用的衡量分散程度的估计量是四分位距,顾名思义,就是四分之一处数据值和四分之三处数据值的差值。是不是和切尾均值有呼应的意思。

四分位距可普及为两个不同百分位数的差值,至于取哪两个百分位数,就看数据的分布了。

3. 相关性

前面说的都是某个单维数据的估计,一个数据集如果只有一维,那它也没什么可挖掘的,如果数据集中每一维都是独立的,与其他维不相关,挖掘的意义也不大,太直观明了了。我们做数据的挖掘不就是为了挖它隐藏的,不能直观被看到的部分吗?越是相关的数据间,越能隐藏信息。

相关性是针对两维数据的统计量,表示A数据因B数据变化而变化的程度。如果A数据变大时,B数据变小,这是负相关,反之,如果A数据变大,B数据随之变大,这是正相关。

目前最普遍的相关性计算方式是皮尔逊相关系数

皮尔逊相关系数

多维数据两两相关性可组成相关矩阵。

4. 实际数据举例

我们以kaggle上普适性最好的房价数据对上面的几个估计量做实例吧。

数据下载地址:

这个数据的基本情况:

我们以LotArea这一列数据为例,数据的基本情况如下:

可以看出来,均值比中位数(50%位数)大了10.9%。两极极差为213945,而四分位距只有4048,可见数据两极分化大,切掉两极,数据还是很集中的。

中位数绝对偏差是标准差的五分之一。

通过核密度估计图来看LotArea这一维数据的密度

直方图

‘LotArea’和‘YearBuilt’的相关性以及'LotArea’和‘SalePrice’的相关性

面积和修建年代的相关性比面积和售价相关性低很多,常识判断也的确如此。

多维数据的相关矩阵:

最后看看'LotArea’和‘SalePrice’的散点图:

确实是正相关,面积越大,它越售价的关系越发散,正好说明,售价越小的房子,咱们对面积更看重,售价越高,面积被考虑的可能性越低。从散点图上看,这两维之间绝不会是线性关系,而且别的因素也会起到重要影响。

标签: #多维相关系数