龙空技术网

统计学入门 - 05 均值、中位数及其他

Engineer Fu 26

前言:

此刻兄弟们对“如何确定中位数所在组成的数据”都比较珍视,同学们都想要剖析一些“如何确定中位数所在组成的数据”的相关资讯。那么小编在网上汇集了一些有关“如何确定中位数所在组成的数据””的相关知识,希望各位老铁们能喜欢,我们快快来学习一下吧!

第5章 均值、中位数及其他

每个数据集都有一个故事,如果统计学得到正确运用,它们能够很好地揭示和报告这个故事。不正确使用的统计数据可能讲述一个不同的故事,或者只是其中的一部分,因此了解如何对所提供的信息做出明智的决策非常重要。

描述性统计(或简称统计量)是一个总结或描述一组数据特征的数字。在本章中,你将看到一些最常见的描述性统计以及它们的使用方式,你将了解如何计算、解释它们,并将它们组合在一起以获得对数据集的全面认识。你还将了解这些统计量在数据方面传达了什么信息,以及它们未传达的信息。

总结数据的描绘性统计

描绘性统计将一个数据集概括为一组基本信息。总结后的数据通常用于向人们提供易于理解的信息,帮助回答他们的问题。想象一下,你的老板走到你跟前问:“我们的客户群现在是什么样的,谁在购买我们的产品?”你想用怎样的方式回答这个问题呢?是用一长串详细而复杂的数字,准备让她一脸茫然吗?可能不是。你想为她提供简洁、清晰而简明扼要的统计数据,总结客户群的情况,这样她就能看到你有多聪明,然后派你出去收集更多的数据,看看如何能够扩大客户群的范围。

总结数据还有其他目的。在从调查或其他类型的研究中收集到所有数据之后,研究人员的下一步是试图理解这些数据。通常,研究人员采取的第一步是对数据运行一些基本的统计分析,以对其中发生的情况有一个大致的了解。在后续的过程中,研究人员可以对数据进行更多的分析,制定或测试有关数据所来自的总体的声明,估计有关总体的某些特征(如均值),寻找他们测量的变量之间的联系等。

研究的另一个重要部分是报告结果,不仅要向同行报告,还要向媒体和公众报告。尽管研究人员的同行可能急切地想了解有关数据集进行了哪些复杂的分析,但公众既没有准备好,也对此不感兴趣。公众想要什么?基本信息。通常会使用清晰简明的统计数据来向媒体和公众传递信息。

如果你真的需要从数据中了解更多,仅仅进行快速的统计概述是不够的。在统计学的世界中,少不等于更多,有时数据背后真正的故事可能会在混乱中失去。作为统计数据的知情消费者,你需要考虑报告了哪些统计数据,这些统计数据真正意味着什么,以及有哪些信息是缺失的。本章将重点关注这些问题。

处理分类数据:表格和百分比

分类数据(也称为定性数据)捕捉有关个体的特质或特征,如一个人的眼睛颜色、性别、政治党派或对某个问题的意见(使用类别如同意、不同意或无意见)。分类数据往往自然而然地分为组或类别。例如,“政治党派”在美国通常有四个组:民主党、共和党、独立派和其他。分类数据通常来自调查数据,但它们也可以在实验中收集。例如,在对新医疗治疗进行实验性测试时,研究人员可能使用三个类别来评估实验的结果:患者在接受治疗时是好转了、恶化了还是保持不变?

分类数据通常通过报告落入每个类别的个体的百分比来进行总结。例如,民意调查人员可能通过提供共和党人、民主党人、独立派和其他人的百分比来报告政治党派统计数据。要计算某个类别中个体的百分比,找到该类别中的个体数量,除以研究中的总人数,然后乘以100%。例如,如果对2,000名青少年进行的一项调查包括1,200名女性和800名男性,那么结果的百分比将分别为(1,200 ÷ 2,000)* 100% = 60% 女性和(800 ÷ 2,000)* 100% = 40% 男性。

你还可以通过创建所谓的二向表来进一步分解分类数据。二向表(也称为交叉表)是带有行和列的表格。它们同时总结了两个分类变量的信息,例如性别和政治党派,因此你可以看到(或轻松计算)每个类别组合中个体的百分比,并用它们进行组间比较。

例如,如果你有关于受访者性别和政治党派的数据,你可以查看共和党女性、共和党男性、民主党女性、民主党男性等的百分比。在这个例子中,表格中可能的组合总数为2 * 4 = 8,即性别类别的总数乘以政治党派类别的总数。(有关二向表的详细信息,请参阅第19章,了解关于二向表的全部情况。)

美国政府使用交叉表计算和总结大量分类数据。美国人口调查局在2009年进行的一项调查中报告的典型年龄和性别数据如表5-1所示。(通常情况下,年龄被视为数值变量,但美国政府的报告方式将年龄分成类别,使其成为分类变量。)

通过查看并使用表5-1中的不同数字,您可以检查美国人口的许多不同方面。例如,看性别,您会注意到女性略多于男性 - 2009年的人口中,女性占50.67%(将女性总数除以总人口大小并乘以100%),男性占49.33%(将男性总数除以总人口大小并乘以100%)。您还可以查看年龄:整个人口中5岁以下的比例为6.94%(将5岁以下的总数除以总人口大小并乘以100%)。最大的群体属于45-49岁的人,占总人口的7.44%。

接下来,您可以通过比较表的各个部分来探索性别和年龄之间的可能关系。例如,您可以比较80岁及以上年龄组中女性与男性的百分比。由于这些数据以5年为单位报告,因此您需要进行一些数学运算才能得到答案。女性和80岁以上年龄组的人口百分比(查看表5-1的第7列)为2.27% + 1.54% + 0.69% + 0.21% + 0.04% = 4.75%。男性80岁及以上的人口百分比(查看表5-1的第5列)为1.52% + 0.84% + 0.28% + 0.05% + 0.01% = 2.70%。这显示了女性80岁及以上年龄组的人口比男性大约76%(因为[4.75 - 2.70] ÷ 2.70 = 0.76)。

这些数据证实了一个被广泛接受的观念,即女性往往比男性寿命更长。然而,随着时间的推移,男女之间的差距正在缩小。根据美国人口调查局的数据,早在2001年,80岁及以上的女性比例为4.36,而男性为2.31。在2001年,这个年龄组的女性比男性多了整整89%(请注意,[4.36 - 2.31] ÷ 2.31 = 0.89)。

在得到显示两个分类变量的交叉表后,您可以进行假设检验,以确定是否存在两个变量之间的显著关系或联系,考虑到数据在样本之间变化的事实。第14章为您提供有关假设检验的所有详细信息。

使用均值和中位数测量中心位置

对于数值数据,可测量的特征,如身高、体重、智商、年龄或收入,由在问题背景中有意义的数字表示(例如,以英尺、美元或人数为单位)。因为数据具有数字含义,所以可以用比分类数据更多的方式对其进行总结。总结数值数据集的最常见方法是描述其中心位置。思考数据集中心的一种方式是问:“典型值是多少?”或者,“数据的中间在哪里?”数据集的中心实际上可以用不同的方式来测量,所选择的方法可以极大地影响人们对数据的结论。本节涉及中心位置的度量。

求平均值

NBA球员挣很多钱,对吧?你经常听说科比·布莱恩特(Kobe Bryant)或勒布朗·詹姆斯(LeBron James)这样的球员每年挣数千万美元。但这是典型的NBA球员的收入吗?实际上并不是(尽管我对其他球员并不感到遗憾,因为他们仍然比我们大多数人挣得更多)。数千万美元是你在众多超级巨星中脱颖而出时可以要求的收入,而这正是这些精英球员所拥有的。

那么,典型的NBA球员挣多少钱呢?回答这个问题的一种方式是查看平均值(这是有史以来最常用的统计量之一)。

平均值,也称为数据集的均值,用符号表示。计算均值的公式如下:

其中,数据集中的每个值用具有下标的x表示,下标i从1(第一个数字)到n(最后一个数字)。

以下是计算数据集均值的步骤:

将数据集中的所有数字相加。除以数据集中的数字个数n。

这里讨论的均值适用于数据样本,技术上称为样本均值。整个数据总体的均值用希腊字母μ表示,称为总体均值。它是通过将总体中的所有值相加并除以总体大小来找到的,用N表示(为了与样本大小n区分开)。通常总体均值是未知的,您使用样本均值来估计它(加上或减去一个误差限;有关详细信息,请参阅第13章)。

例如,表5-2显示了2010年NBA总冠军洛杉矶湖人队的13名球员的薪水数据。

这支球队所有球员的平均薪水为91,378,064美元 ÷ 13 = 7,029,082美元。这是一个相当不错的平均薪水,不是吗?但请注意科比·布莱恩特在这份名单中确实脱颖而出,而且他应该脱颖而出——在那个赛季,他的薪水是整个联盟第二高的(仅次于特雷西·麦克格拉迪)。如果你从方程中去除科比(字面上),那么除科比之外的所有湖人队员的平均薪水变为68,343,689美元 ÷ 12 = 5,695,307美元 — 差异约为130万美元。

这个新的均值仍然是一个相当可观的数额,但明显低于包括科比在内的所有球员的平均薪水。

底线是:均值并不总是讲述整个故事。在某些情况下,它可能有点误导,而这就是其中之一。这是因为每年都有一些顶尖球员(如科比)的薪水远远高于其他任何人,他们的薪水使整体平均薪水上升。

数据集中与其余数据相比极高或极低的数字称为异常值。由于平均值的计算方式,高异常值往往会将平均值推高(就像前面的例子中科比的薪水那样)。低异常值则往往会将平均值拉低。

分割你的数据,以中位数为界

还记得在学校参加考试吗?你和班上大多数同学都考得不好,但有几个书呆子却考了满分?还记得老师没有调整分数曲线来反映大多数同学糟糕的表现吗?你的老师可能是在使用平均值,而在那种情况下,平均值并没有真正代表统计学家可能认为是学生成绩的最佳中心度量。

除了平均值,你可以报告什么来显示“典型”NBA球员的薪水或你班上“典型”学生的考试分数是多少呢?用于度量数据集中心的另一个统计量被称为中位数。中位数在某种意义上仍然是统计学中的无名英雄,因为它并没有像它应该的那样经常被使用,尽管现在人们开始更多地报告它。

数据集的中位数是当数据被排序时正好位于中间的值。它用不同的方式表示;有些人使用M,有些人使用。以下是找到数据集中位数的步骤:

将数字按从小到大的顺序排列。如果数据集包含奇数个数字,请选择正好位于中间的数字。你找到了中位数。如果数据集包含偶数个数字,请取出位于中间的两个数字,并对它们取平均值以找到中位数。洛杉矶湖人队在2009年至2010年赛季的薪水(参见表5-2)从最小值(底部)到最大值(顶部)进行了排序。由于列表包含13名球员的姓名和薪水,中位数是从底部数起的第七个:德里克·费舍尔,他在那个赛季从湖人队赚了5,048万美元。德里克是中位数。这个中位数薪水(5,048万美元)远低于2009年至2010年湖人队的7,029万美元的平均薪水。请注意,在13名球员中,只有4名的薪水超过了湖人队7,029万美元的平均薪水。由于平均值包括异常值(如科比·布莱恩特的薪水),中位数薪水更能代表球队薪水的中心。中位数不受那些在高端的球员薪水的影响,而平均值受到了影响。注意:顺便说一下,2009年至2010年赛季湖人队的最低薪水是959,111美元——按大多数人的标准来说是一笔不小的钱,但与人们想象中的NBA球员的薪水相比,微不足道!美国政府通常使用中位数来代表与收入数据相关的中心,因为中位数不受异常值的影响。例如,美国人口调查局报告称,2008年的家庭收入中位数为50,233美元,而平均值为68,424美元。这是一个相当大的差距!比较均值和中位数:直方图

有时,均值与中位数的辩论可能会变得非常有趣。假设你是NBA球队的一员,正在谈判薪水。如果你代表所有者,你想展示每个人赚多少钱以及你花了多少钱,因此你想考虑那些超级巨星球员并报告平均值。但如果你站在球员这一边,你会想报告中位数,因为这更能代表中间球员的薪水。50%的球员的薪水高于中位数,而50%的球员的薪水低于中位数。为了搞清楚一切,最好找到并比较均值和中位数。展示数据形状的图表是一个很好的起点。

你可以制作的图表之一,用于说明数值数据的形状(接近/远离平均值的值有多少,中心在哪里,可能有多少异常值),是直方图。直方图是一种以图片形式组织和显示数值数据的图表,显示数据组和落入每个组的数据数量或百分比。它为你提供了数据集的一个良好快照。(有关直方图和其他类型的数据显示的更多信息,请参见第7章。)

数据集可以具有许多不同的可能形状;以下是入门统计课程中常常讨论的三种形状的示例:

✓ 如果大多数数据位于直方图的左侧,但右侧出现了一些较大的值,数据被称为右偏。

图5-1中的直方图A显示了一个右偏数据的示例。少数较大的值将均值提高,但实际上并没有对中位数产生真正的影响。因此,当数据右偏时,均值大于中位数。NBA的薪水就是这样的数据的一个例子。

✓ 如果大多数数据位于右侧,而左侧出现了一些较小的值,数据被称为左偏。

图5-1中的直方图B显示了一个左偏数据的示例。少数较小的值使均值下降,而中位数受到最小的影响(如果有的话)。左偏数据的一个例子是学生用于参加考试的时间;一些学生提前离开,更多的学生待得更久,很多学生一直待到最后(有些人如果可以的话可能会永远待下去!)。当数据左偏时,均值小于中位数。

✓ 如果数据对称,它们在中间的两侧大致相同。换句话说,如果将直方图对折,两侧看起来差不多。

图5-1中的直方图C显示了一个直方图中对称数据的示例。对称数据时,均值和中位数靠得很近。

通过观察图5-1中呈右偏形状的直方图A,你可以看到图形的“尾巴”(柱形变短的地方)在右侧,而呈左偏形状的直方图B的“尾巴”在左侧。通过观察右偏分布的尾巴的方向,你可以确定偏斜的方向。在描述偏斜分布时,始终加入方向。

直方图C是对称的(两侧大致相同的形状)。然而,并非所有对称数据都像直方图C那样呈钟形。只要形状在两侧大致相同,那么就说形状是对称的。

数据集的平均值(或均值)受到异常值的影响,但中位数不受影响。在统计术语中,如果统计量不受数据的某种特性(例如异常值或偏斜)的影响,那么就说该统计量对于该特性是抵抗的。在这种情况下,中位数对异常值是抵抗的;均值则不是。如果有人报告平均值,请同时要求中位数,这样你可以比较这两个统计量,更好地了解数据中实际发生了什么,什么是真正典型的。

考虑到变异性

无论您测量哪些特征,数据集中始终存在变异,因为不同个体在每个变量上的数值不会完全相同。变异性是统计学领域的基础。例如,房屋价格因房屋而异,因年份而异,因州而异。你上班所需的时间每天都会有所变化。处理变异的诀窍在于能够以最能捕捉它的方式测量这种变异。

报告标准差

对于数值数据,迄今为止最常见的变异度量是标准差。标准差度量数据围绕均值的集中程度;越集中,标准差就越小。它并没有像应该那样经常报告,但是当它被报告时,你通常会看到它用括号括起来:(s = 2.68)。

计算标准差

数据集的样本标准差(s)的公式是

要计算s,请执行以下步骤:

找到数据集的平均值。对数据集中的每个数字(x)减去均值以得到。对每个差异进行平方。将步骤3的所有结果相加以获得平方和。将平方和(在步骤4中找到)除以数据集中的数字数减一;即(n – 1)。现在你有:取平方根得到

这就是样本标准差s。

在步骤5结束时,你找到了一个名为样本方差的统计量,用s²表示。方差是衡量数据集变异的另一种方法;它的缺点是它的单位是平方单位。例如,如果你的数据是美元,那么方差将以美元的平方为单位,这是毫无意义的。这就是为什么我们继续进行第6步的原因。标准差具有与原始数据相同的单位。

看下面的小例子:假设你有四个测验分数:1、3、5和7。均值为16 ÷ 4 = 4分。从每个数字中减去均值,你得到(1 – 4)= –3,(3 – 4)= –1,(5 – 4)= +1和(7 – 4)= +3。对这些结果的每一个进行平方,你得到9、1、1和9。将这些相加,总和是20。在这个例子中,n = 4,因此n – 1 = 3,所以你将20除以3得到6.67。这里的单位是“分的平方”,这显然没有意义。最后,你对6.67取平方根,得到2.58。这四个测验分数的标准差是2.58分。

因为计算标准差涉及许多步骤,在大多数情况下,你会让计算机为你计算。然而,了解如何计算标准差有助于更好地解释这个统计量,并帮助你弄清楚何时统计量可能是错误的。

统计学家在s的公式中除以n – 1而不是除以n,以便结果具有更好的属性,这些属性在理论上的范围超出了本书的范围。

整个数据集的标准差用希腊字母σ表示。当我使用术语标准差时,我指的是s,即样本标准差。(当我提到总体标准差时,我会告诉你。)

解释标准差

标准差作为单个数字本身可能难以解释。基本上,小的标准差意味着数据集中的值在平均情况下接近数据集的均值,而大的标准差意味着数据集中的值在平均情况下离均值较远。

在某些情况下,小的标准差可以是一个目标,例如在产品制造和质量控制中。例如,必须为了正确安装而直径为2厘米的特定类型的汽车零件在制造过程中最好不要有很大的标准差。在这种情况下,大的标准差意味着许多零件最终会被丢弃,因为它们不合适;要么汽车以后会出问题。

但是在仅观察和记录数据的情况下,大的标准差并不一定是坏事;它只是反映了正在研究的群体中的大量变异。例如,如果你查看某公司所有人的薪水,包括从学生实习生到首席执行官的所有人,标准差可能会很大。另一方面,如果你缩小组的范围,只看学生实习生,标准差就较小,因为该组内的个体的薪水变化较小。第二个数据集并不更好,只是变化较小。

与均值类似,离群值会影响标准差(毕竟,标准差的公式包括均值)。在NBA薪水的例子中,洛杉矶湖人队在2009–2010赛季的薪水范围从最高的23034375美元(科比·布莱恩特)到959111美元(迪迪尔·伊隆加-门本加和乔希·鲍威尔)。变化很大,确实!这支球队的薪水标准差为6567405美元;几乎和平均数一样大。然而,正如你可能猜到的,如果从数据集中删除科比·布莱恩特的薪水,标准差会减小,因为剩余的薪水更集中在均值周围。标准差变为4671508美元。

在确定标准差是否较大时,请注意单位。例如,年单位下的标准差为2等于月单位下的标准差为24。此外,在评估标准差时,请查看均值的值。如果用户发布到互联网新闻组的平均数量为5.2,标准差为3.4,相对而言这是很大的变化。但如果你谈论新闻组用户的年龄,均值为25.6岁,那么相同的标准差3.4就会相对较小。

理解标准差的性质

以下是一些性质,可以帮助你解释标准差:

✓ 标准差永远不会是负数,这是由于它的计算方式以及它测量的是距离(距离永远不会是负数)。

✓ 标准差的最小可能值是0,只有在所有数据集中的每个数字完全相同的人为情况下才会发生(没有偏差)。

✓ 标准差受离群值(数据集中极低或极高的数字)的影响。这是因为标准差是基于与均值的距离计算的。而且要记住,均值也受离群值的影响。

✓ 标准差具有与原始数据相同的单位。

游说支持标准差

标准差是一种常用的统计量,但它往往没有得到应有的关注。尽管均值和中位数在日常媒体中随处可见,但你很少看到它们伴随着任何衡量数据集多样性的指标,因此你只得到了故事的一部分。事实上,你可能错过了故事中最有趣的部分。

没有了解标准差,你无法判断数据是接近平均值(例如,当所有东西都正常运作时,从传送带上取下的汽车零件的直径)还是分布在广泛的范围内(例如美国的房价和收入水平)。

例如,如果有人告诉你在“统计公司”(Company Statistix)工作的人的平均起薪是70,000美元,你可能会想:“哇!太好了。” 但如果在“统计公司”(Company Statistix)的起薪标准差为20,000美元,这意味着你可以赚多少钱有很大的变化,所以最终平均起薪为70,000美元并没有那么有信息性,对吧?

另一方面,如果标准差只有5,000美元,你会对在该公司的起薪有更清晰的预期。哪一个更吸引人?这是每个人都必须做出的决定;然而,一旦你意识到标准差的重要性,这将是一个更加明智的决定。

没有标准差,你无法有效地比较两个数据集。假设两组数据具有相同的平均值;这是否意味着数据集必须完全相同?完全不是。例如,数据集199、200、201和数据集0、200、400都具有相同的平均值(200),但它们具有非常不同的标准差。第一个数据集的标准差很小(s=1),而与第二个数据集(s=200)相比。

随着越来越多的人(比如你)发现标准差可以告诉他们有关一组结果的信息并开始要求它,对标准差的引用可能会在媒体中变得更加普遍。在你的职业生涯中,你可能会看到报告和使用标准差。

超出范围

范围是一项一些人用来衡量数据集多样性的统计量。范围是数据集中的最大值减去最小值。它很容易找到;你只需按顺序排列数字(从小到大)并进行快速减法。也许这就是为什么范围经常被使用的原因;当然不是因为它的解释价值。

数据集的范围几乎是没有意义的。它仅取决于数据集中的两个数字,两者都可能反映极端值(异常值)。我的建议是忽略范围,找到标准差,因为它是数据集变异性的更具信息性的度量,因为它涉及所有值。或者你还可以计算另一种称为四分位距的统计量,它类似于范围,但有一个重要的区别——通过仅查看数据的中间50%,并找到这些值的范围,它消除了异常值和偏斜问题。本章末尾的“探索四分位距”部分会给你更多细节。

考察经验法则(68-95-99.7)

将中心测量(如均值或中位数)与变异测量(如标准差或四分位距)结合起来是描述总体中的值的一种良好方式。在数据呈钟形曲线的情况下(即它们具有正态分布;请参阅第9章),总体均值和标准差是首选的组合,而一条特殊的规则将它们结合起来,以获取关于整体总体的一些相当详细的信息。

经验法则表明,如果一个总体呈正态分布,总体均值为μ,标准差为σ,则:

✓ 约有68%的值位于均值的1个标准差内(或位于均值减去1倍标准差和均值加上1倍标准差之间)。在统计符号中,这表示为μ ± 1σ。

✓ 约有95%的值位于均值的2个标准差内(或位于均值减去2倍标准差和均值加上2倍标准差之间)。这的统计符号为μ ± 2σ。

✓ 约有99.7%的值位于均值的3个标准差内(或位于均值减去3倍标准差和均值加上3倍标准差之间)。统计学家使用以下符号来表示:μ ± 3σ。

经验法则也被称为68-95-99.7法则,与这三个特性相对应。它用于描述总体而不是样本,但您还可以使用它来帮助您确定数据样本是否来自正态分布。如果样本足够大,并且您可以看到其直方图看起来接近钟形曲线,您可以检查数据是否符合68-95-99.7百分比的规定。如果是,合理地得出数据来自正态分布的结论。这是巨大的,因为正态分布具有许多优势,正如您在第9章中所见。

图5-2说明了经验法则的所有三个组成部分。在经验法则中,约有68%的值位于均值的1个标准差内的原因是,当数据呈钟形时,大多数值都堆积在中间,靠近均值(如图5-2所示)。

在均值两侧再增加一个标准差,将百分比从68增加到95,这是一个很大的跃升,给出了“大多数”数据所在位置的良好概念。大多数研究人员选择使用95%的范围(而不是99.7%)来报告他们的结果,因为将范围增加到均值两侧的3个标准差(而不仅仅是2个)似乎不值得,仅仅为了捕捉最后4.7%的值。

经验法则告诉您在均值附近的某个范围内有多少百分比的值,我需要强调“大约”这个词。这些结果仅为近似值,仅在数据遵循正态分布时才适用。然而,经验法则在统计学中是一个重要的结果,因为“大约在两个标准差范围内获取大约95%的值”的概念经常在置信区间和假设检验中提到(参见第13章和第14章)。

这里举一个使用经验法则更好地描述具有正态分布值的总体的示例:在一项研究中,人们如何在网络空间使用新闻组结交朋友,一个互联网新闻组的用户年龄平均为31.65岁,标准差为8.61岁。假设数据通过直方图绘制,并且发现其形状类似于图5-2所示的钟形曲线。

根据经验法则,约68%的新闻组用户的年龄在均值(8.61岁)的1个标准差内(31.65岁)。因此,约68%的用户年龄在31.65 - 8.61岁和31.65 + 8.61岁之间,即在23.04岁和40.26岁之间。约95%的新闻组用户年龄在31.65 - 2(8.61)和31.65 + 2(8.61)之间,即在14.43岁和48.87岁之间。最后,约99.7%的新闻组用户年龄在31.65 - 3(8.61)和31.65 + 3(8.61)之间,即在5.82岁和57.48岁之间。

这种规则的应用使您对这个数据集中发生的事情有了更好的了解,而不仅仅是查看均值,不是吗?正如您所看到的,均值和标准差共同使用为您的结果增添了价值;将这些值代入经验法则中,使您能够自己报告“大多数”数据的范围。

请记住,使用经验法则的条件是数据具有正态分布。如果不是这种情况(或者您不知道实际的形状是什么),则无法使用它。在这些情况下描述数据,您可以使用百分位数,表示数据中的某些截断点(请参见后面的“收集五数总结”部分)。

使用百分位数测量相对位置

有时候,均值、中位数和标准差的精确值并不重要,你只关心自己在群体中的位置。在这种情况下,你需要一种报告相对位置的统计量,这个统计量被称为百分位数。第k个百分位数是数据集中将数据分为两部分的一个数:较低部分包含k%的数据,而较高部分包含其余的数据(相当于[100-k]%,因为总数据量为100%)。注意:k是介于1和100之间的任何数。

中位数是第50个百分位数:数据中有50%的数据在该点以下,50%在该点以上。

在本节中,您将了解如何计算、解释和组合百分位数,以帮助您揭示数据集背后的故事。

计算百分位数

要计算第k个百分位数(其中k是介于1和100之间的任何数),请执行以下步骤:

将数据集中的所有数字按从小到大的顺序排列。将k%乘以总数字数n。3a. 如果步骤2的结果是整数,请转到步骤4。如果步骤2的结果不是整数,请将其四舍五入到最接近的整数,然后转到步骤3b。3b. 从左到右(从最小到最大的数字)计算数据集中的数字,直到达到步骤3a指示的值。数据集中对应的值就是第k个百分位数。从左到右计算数据集中的数字,直到达到步骤2指示的值。第k个百分位数是数据集中对应值和直接后续值的平均值。例如,假设您有25个测试分数,按从最低到最高的顺序如下:43, 54, 56, 61, 62, 66, 68, 69, 69, 70, 71, 72, 77, 78, 79, 85, 87, 88, 89, 93, 95, 96, 98, 99, 99。要找到这些(有序的)分数的第90个百分位数,首先将90%乘以总分数,得到90% ∗ 25 = 0.90 ∗ 25 = 22.5。四舍五入到最接近的整数,得到23。从左到右数(从数据集中的最小数到最大数),一直数到找到数据集中的第23个数。这个数字是98,它是这个数据集的第90个百分位数。现在假设您想找到第20个百分位数。首先取0.20 ∗ 25 = 5;这是一个整数,所以从步骤3a到步骤4,告诉我们第20个百分位数是有序数据集中第5和第6个数字的平均值(62和66)。然后第20个百分位数为(62 + 66)÷ 2 = 64。测试分数的中位数(第50个百分位数)是第13个分数:77。计算百分位数没有单一确定的公式。这里的公式旨在使查找百分位数更容易和更直观,特别是当您手工完成工作时;然而,在使用技术时,还会使用其他公式。使用各种方法得到的结果可能会有所不同,但差异不大。解读百分位数

百分位数报告了数据集中特定值的相对位置。如果这是您最感兴趣的信息,那么数据集的实际均值和标准差就不重要,实际数据值也不重要。重要的是您的位置——不是相对于均值的位置,而是相对于其他所有值的位置:这就是百分位数给您的信息。

例如,在考试成绩的情况下,只要您的分数高于大多数班级,均值是多少并不重要。谁知道呢,也许那是一场不可能的考试,而在100分中得到40分是一个很好的成绩(我曾经在一门高等数学课上经历过这种情况;愿这种情况永远不会发生在您身上!)。在这种情况下,您的分数本身毫无意义,但您的百分位数告诉了您一切。

假设您的考试分数优于其他班级的90%,这意味着您的考试分数处于第90个百分位数(因此k = 90),这很可能给您一个A。相反,如果您的分数处于第10个百分位数,那么k = 10;这意味着只有其他分数的10%低于您的分数,而90%高于您的分数;在这种情况下,A并不在您的未来之内。

百分位数的一个好处是它们有一个通用的解释:处于第95个百分位数意味着无论您是在查看考试成绩还是通过邮政寄送的包裹重量,第95个百分位数始终表示其他值的95%在您的分数之下,而5%在您的分数之上。这也使您能够公平比较两个具有不同均值和标准差的数据集(例如阅读和数学的ACT分数)。这使比较变得公平,使您能够适度地将苹果和橙子进行比较,可以这么说。

百分位数不是百分数;百分位数是数据集中标记某个百分比的一个数字(或两个数字的平均值)。假设您的GRE考试分数报告为第80个百分位数。这并不意味着您回答了80%的问题。它意味着有80%的学生得分低于您,而有20%的学生得分高于您。

高百分位数并不总是好事。例如,如果您所在的城市在与同等规模的城市相比的犯罪率方面处于第90个百分位数,这意味着与您相似的90%的城市犯罪率低于您的城市,这对您来说并不好。另一个例子是高尔夫得分;在高尔夫中,低分是好事,因此在80个百分位数上,您的得分不能让您进入PGA巡回赛,就这么说吧。

比较家庭收入

美国政府在其数据摘要中经常报告百分位数。例如,美国人口调查局报告称,2001年的家庭收入中位数(第50个百分位数)为42,228美元,而在2007年报告的中位数为50,233美元。该局还报告了每年家庭收入的各种百分位数,包括第10、20、50、80、90和95个百分位数。表5-3显示了这些百分位数在2001年和2007年的值。

从表5-3中可以看出,2001年的百分位数,底层收入的差距比顶层收入的差距小。第20个百分位数和第50个百分位数之间的差距约为24,000美元,而第50个百分位数和第80个百分位数之间的差距则约为41,000美元。第10和50个百分位数之间的差距仅约为31,000美元,而第50和90个百分位数之间的差距则高达74,000美元。

2007年的百分位数都高于2001年的百分位数(这是好事!),而且它们也更为分散。对于2007年,第20个百分位数和第50个百分位数之间的差距约为30,000美元,而从第50个到第80个百分位数则约为50,000美元;这两个差距均大于2001年。同样,在2007年,第10个百分位数与第50个百分位数之间的差距比2001年更远(约为38,000美元),而第50个百分位数与第90个百分位数之间的差距在2007年比2001年更大(约为86,000美元)。这些结果告诉我们,在2001年和2007年之间,总体上各个层次的收入都在增加,但这些层次之间的差距正在拉大。例如,2001年第10个百分位数的收入是10,913美元(见表5-3),而在2007年是12,162美元;这表示大约有11%的增长(两者相减并除以10,913)。现在比较一下2007年与2001年的第95个百分位数;增长几乎达到18%。现在,从技术上讲,您可能需要调整2001年的值以考虑通货膨胀,但您已经得到了基本的概念。

百分比变化会影响数据集的变异性。例如,当薪水涨幅以百分比方式给出时,薪水的多样性也会增加;这就是“富者更富”的想法。挣30000美元的人得到10%的涨幅,薪水涨到33000美元(增加3000美元);但挣300000美元的人得到10%的涨幅,现在挣到330000美元(差额为30000美元)。因此,当您刚开始一份新工作时,请尽可能地谈判最高的薪水,因为随后的涨幅也将带来更高的金额。

审视ACT成绩

每年,数百万美国高中学生参加由全国性机构管理的ACT考试,作为申请大学的过程的一部分。该考试旨在评估学生在英语、数学、阅读和科学领域的大学准备情况。每个考试的最高分为36分。

ACT不公布特定考试的平均分或标准偏差。(如果公布了这些统计数据,会很麻烦,因为这些统计数据可能会因考试而异,人们会抱怨这次考试比那次考试难,而实际分数并不相关。)为了避免这些问题,以及出于其他原因,ACT使用百分位数报告测试结果。

百分位数通常以预定的列表形式报告。例如,美国人口调查局报告了家庭收入的第10、20、50、80、90和95个百分位数(如表5-3所示)。然而,ACT以一种不同的方式使用百分位数。他们不是报告与预先制定的百分位数列表相对应的考试分数,而是列出每个可能的考试分数并报告其相应的百分位数,无论它是什么。这样,要了解自己的排名,只需查找您的分数,您就可以找出您的百分位数。

表5-4显示了2009年数学和阅读ACT考试分数的百分位数。要解释考试分数,找到与分数对应的行和考试区域的列(例如,阅读)。相交的行和列将告诉您您的分数代表的百分位数;换句话说,您可以看到比您得分低的同学的百分比。

例如,假设您在数学考试中得了30分;在表5-4中,您查看数学一列中30分所在的行,您会发现您的分数位于95百分位数。换句话说,有95%的学生得分低于您,只有5%的学生得分高于您。

现在假设您在阅读考试中也得了30分。仅仅因为数学考试中的30分代表了95百分位数,并不一定意味着在阅读考试中30分也处于95百分位数。

为了测试我的理论,请看表5-4中得分为30的第3列。您会发现,在阅读考试中得到30分将您置于91百分位数 - 虽然不如您在数学考试中的位置那么好,但绝对算是一个不错的分数。

汇总五数概括

除了报告单个集中趋势和/或单个离散度的度量之外,您可以创建一组统计数据并将它们组合在一起,以更详细地描述数据集。经验法则(正如在本章前面的“检验经验法则(68-95-99.7)”中所见)使用均值和标准差结合在一起描述钟形数据集。

在您的数据不是钟形的情况下,您可以使用一组不同的统计数据(基于百分位数)来描述数据的整体情况。此方法涉及将数据分为四个部分(每个部分中的数据量相等),并报告将这些部分分开的五个截断点。这些截断点由一组五个描述性统计数据表示,描述数据的布局方式。

五数概括是一组将数据集分为四个相等部分的五个描述性统计数据。五数概括中的五个数字分别是:

数据集中的最小(最小)数字25百分位数(也称为第一四分位数,或Q1)中位数(50百分位数)75百分位数(也称为第三四分位数,或Q3)数据集中的最大(最大)数字

例如,假设您想找到以下25个(有序的)考试分数的五数概括:43, 54, 56, 61, 62, 66, 68, 69, 69, 70, 71, 72, 77, 78, 79, 85, 87, 88, 89, 93, 95, 96, 98, 99, 99。最小值是43,最大值是99,中位数是直接在中间的数字77。

要找到Q1和Q3,您使用“计算百分位数”部分中显示的步骤,其中n = 25。第1步已完成,因为数据已排序。对于第2步,由于Q1是第25百分位数,将0.25 * 25 = 6.25相乘。这不是整数,因此第3a步表示将其四舍五入到7并继续执行第3b步。

按照第3b步,您从数据集中从左到右计数,直到达到第7个数字,即68;这是Q1。对于Q3(第75百分位数),将0.75 * 25 = 18.75相乘,四舍五入为19。列表中的第19个数字是89,因此这是Q3。将所有这些放在一起,这25个考试分数的五数概括是43, 68, 77, 89和99。为了最好地解释五数概括,您可以使用箱线图;有关详细信息,请参见第7章。

探索四分位距

五数概括的目的是一次性提供有关中心、变异性和相对位置的描述性统计数据。五数概括中的中心度量是中位数,而第一四分位数、中位数和第三四分位数是相对位置的度量。

为了获得基于五数概括的变异度量,您可以找到称为四分位距(或IQR)的内容。IQR等于Q3 - Q1(即第75百分位数减去第25百分位数),反映了数据内部50%占据的距离。如果IQR很小,您知道很多数据接近中位数。如果IQR很大,您知道数据离中位数更分散。考试分数数据集的IQR是89 - 68 = 21,这相当大,因为考试分数只从0到100。

四分位距比常规范围(最大值减去最小值;请参见本章前面的“超出范围”部分)更能反映变异度。这是因为四分位距不考虑离群值;它通过仅关注数据中间50%的距离(即在第25百分位数和第75百分位数之间)将其从数据集中剔除。

选择得当并正确使用的描述性统计可以告诉您有关数据集的很多信息,例如中心的位置在哪里,数据有多么多样化以及数据的大部分位于何处。但是,描述性统计不能告诉您关于数据的一切,在某些情况下可能会误导。请留意可能更适合的其他统计量的情况(例如,当数据偏斜时,中位数比平均值更公正地描述中心),并注意缺少关键统计量的情况(例如,在报告均值时没有相应的标准差)。

标签: #如何确定中位数所在组成的数据