每周学一点统计学——数据的估计

立世蜉蝣 09-26 219

前言：

目前同学们对“多维相关系数”都比较重视，兄弟们都需要剖析一些“多维相关系数”的相关内容。那么小编也在网络上汇集了一些有关“多维相关系数””的相关知识，希望同学们能喜欢，我们一起来学习一下吧！

估计这个词经常看到，其中最常见的是参数估计以及它的分支贝叶斯估计、最大似然估计、最大后验估计…，统计学家们很亲耐“估计”这个词汇，但是作为初学者，一开始挺迷惑的，就是不断的迭代，计算最优参数啊，为什么要叫“估计”，而不叫“计算”呢。细细品味“估计”和“计算”，前者似乎更柔性，后者则更“刚”。对于很小的数据集，做“线性规划”这种简单的问题，列一系列方程式，把问题中的关系和参数表示出来，然后直接解方程，计算出参数的解，这样用“计算”更合适；而现实中收集的数据集，通常数据量大，含有各种噪音，并且，这些数据的关系并不是一系列方程就可以直接理清楚的，能不能求出理论最优解也不能确定，这样的求解过程，用“计算”确实“刚”了一些。“估计”要完成的任务有两个：①求出参数的解，②在一定置信度下，给出这个解的精度。

平常“估计”都是围绕参数来的，在估计参数之前，先要对数据进行估计。虽然数据是客观存在的，但稍微上规模的数据，依然需要“估计”，且不说海量数据，即便是上千条，人脑要记住这些数据，并在脑子里了解和分析他们，平凡人也是办不到的。因此，还得估计。

1. 均值、中位数与众数

这三个概是数据统计中经常出现的统计量，尤其是平均值，学生的平均分、国家的人均产值，都是按平均数来算的，为什么要算平均数呢？他既容易理解，又能衡量一堆数据（一个团体）的大概面貌（综合实力）。例如，两个50人的班级比较某学科成绩，给大家分别念一遍两班每个学生的成绩，然后让大家说哪个班学生更厉害？大部分平凡如我的人怕是都答不上来。然而，说A班平均分70，B班平均分80，马上你就知道B班水平更高。

平均值算是我们对数据最基本也最直观的估计，但是平均值对两极极值比较敏感。设想，如果调查杭州人民的年收入，于是我们随机抽样1000个人作为样本，一不小心抽中了马云爸爸，结果一算年平均收入1000万，而实际除了马云爸爸，其他999人年收入都在100万以内，平均数是不是对极端值很敏感，对极端值敏感的估计就算不上稳健估计。

从稳健性的角度来讲，中位数更加稳定。中位数是将数据按每种顺序排序，然后取最中间的值，如果数据数量为偶数，则计算中间值。中位数取决于位置，因此，对非中间位置数据的数值不敏感。上面估计年收入的问题，如果换成中位数，那马云爸爸的年收入对中位数几乎没有影响。

除了中位数，切尾均值也更加稳健，比赛中，评委打分后，去掉一个最高分，去掉一个最低分，xx选手的最后平均得分是nn.nn，这就是切尾均值。当然在数据处理中可能切掉的是前p1%和后p2%。切尾均值对长尾比较厉害的数据很有效。

切尾均值

除了切尾均值，还有加权均值，

加权均值

众数表示更多数据的状态，是和密度更加相关的统计量。

2. 数据的变异性

假如现在我们知道,B班的平均分是80，B班学生总体来说更厉害，但是，到底是有一小部分同学特别厉害，抬高了大家的平均分呢？还是所有同学成绩都比较好呢？不好说。这时候，了解正态分布的同学就会说啦，计算一下方差呗。没错，方差可以反应成绩的分散程度，它是数据变异性的一种计算方式。变异性旨在衡量数据的分散程度。

最简单的变异性计算方式是两极极差，也就是最大值减去最小值，这个值越小，说明数据越集中，但值越大却不一定数据就越分散，或许最大值和最小值就是两个噪音或者特例（离群点）呢。

现在最常用的变异性计算方式应该是标准差

方差

标准差

和均值一样，标准差对于离群点也不是稳健的估计，更稳健的估计是中位数绝对偏差，

中位数绝对偏差

同时，另一种常用的衡量分散程度的估计量是四分位距，顾名思义，就是四分之一处数据值和四分之三处数据值的差值。是不是和切尾均值有呼应的意思。

四分位距可普及为两个不同百分位数的差值，至于取哪两个百分位数，就看数据的分布了。

3. 相关性

前面说的都是某个单维数据的估计，一个数据集如果只有一维，那它也没什么可挖掘的，如果数据集中每一维都是独立的，与其他维不相关，挖掘的意义也不大，太直观明了了。我们做数据的挖掘不就是为了挖它隐藏的，不能直观被看到的部分吗？越是相关的数据间，越能隐藏信息。

相关性是针对两维数据的统计量，表示A数据因B数据变化而变化的程度。如果A数据变大时，B数据变小，这是负相关，反之，如果A数据变大，B数据随之变大，这是正相关。

目前最普遍的相关性计算方式是皮尔逊相关系数