龙空技术网

统计学入门 - 18 寻找关联:相关和回归

Engineer Fu 119

前言:

现在各位老铁们对“怎么c语言拟合斜率不一致的函数”都比较关切,我们都想要剖析一些“怎么c语言拟合斜率不一致的函数”的相关文章。那么小编同时在网摘上搜集了一些对于“怎么c语言拟合斜率不一致的函数””的相关文章,希望朋友们能喜欢,各位老铁们快快来学习一下吧!

第18章 寻找关联:相关和回归

当今媒体提供了大量信息,其中包括研究人员发现的所有最新关联的报告。听说增加视频游戏使用会对儿童的注意力产生负面影响,女性体内某种激素的水平可以预测她何时进入更年期,以及你变得越沮丧,就会吃更多巧克力,而你吃的巧克力越多,你就会变得更加沮丧(多么令人沮丧的消息!)。

有些研究确实是正当的,有助于提高我们生活的质量和长寿。其他一些研究则不太清晰。例如,有一项研究称,每周运动20分钟三次比每周运动60分钟一次更好;另一项研究却得出相反的结果,还有一项研究则表示没有区别。

如果对于关联和相关性感到困惑,不知道该如何选择,别担心;本章可以帮助你。你将学会分析和评估研究的声明,并对你每天听到的关于最新关联的标题和声明做出自己的决策。你将了解两个变量之间关联的真正含义,何时可以得出因果关系,以及如何基于一个变量来预测另一个变量。

通过散点图描绘关系

《园艺之门》杂志上的一篇文章:“通过计算蟋蟀的叫声来测量温度。”根据这篇文章,你只需要找到一只蟋蟀,计算它在15秒内鸣叫的次数,再加上40,你就估算出华氏温度了。

美国国家气象局甚至推出了他们自己的“蟋蟀叫声转换器”。你输入在15秒内记录的蟋蟀鸣叫次数,转换器就会给出用四种不同单位估算的温度,包括华氏度和摄氏度。

有相当多的研究支持蟋蟀鸣叫频率与温度之间的关系。为了举例说明,我只选取了一些数据的子集(见表18-1)。

请注意,每个观测都由两个相互关联的变量组成:在15秒内蟋蟀鸣叫的次数(X变量)和数据收集时的温度(Y变量)。统计学家将这种二维数据称为双变量数据。每个观测包含同时收集的一对数据。例如,表18-1的第一行描绘了一对数据(18,57)。

双变量数据通常以统计学家称为散点图的形式组织在一张图表中。散点图有两个维度,一个是水平维度(X轴),一个是垂直维度(Y轴)。两个轴都是数值轴,每个轴都包含一个数线。在接下来的部分,我将解释如何制作和解读散点图。

制作散点图

制作散点图就像玩“战舰”游戏一样。每个观测都有两个坐标;第一个坐标对应于第一个数据(这是X坐标;向左或向右移动的量)。第二个坐标对应于第二个数据(这是Y坐标;向上或向下移动的量)。您将表示该观测的点放置在这两个坐标的交点处。

图18-1显示了表18-1中列出的蟋蟀鸣叫和温度数据的散点图。因为我根据它们的X值对数据进行了排序,所以散点图上的点从左到右对应于表18-1中以列出的顺序的观测。

解释散点图

通过从左到右查看数据的趋势来解释散点图:

✓ 如果数据显示从左到右呈上升趋势,表示X和Y之间存在正向关系。随着X值的增加(向右移动),Y值会以一定量增加(向上移动)。

✓ 如果数据显示从左到右呈下降趋势,表示X和Y之间存在负向关系。随着X值的增加(向右移动),Y值会以一定量减少(向下移动)。

✓ 如果数据似乎没有任何形式的模式(甚至是模糊的模式),则X和Y之间不存在关系。

一个特别关注的模式是线性模式,其中数据呈上升或下降的线性外观。从图18-1可以看出,蟋蟀鸣叫次数和温度之间确实存在正线性关系。也就是说,随着蟋蟀鸣叫次数的增加,温度也会增加。

在本章中,我仅探讨线性关系。只有当X和Y值的模式类似于一条线(具有正斜率或负斜率)时,X和Y之间存在线性关系。除了上升/下降线性趋势之外,还可能存在其他类型的趋势(例如曲线或指数函数)。

散点图显示了两个变量之间可能的关联或关系。然而,仅因为您的图表显示出某种情况,并不意味着存在因果关系。

例如,一位医生观察到每天服用维生素C的人似乎感冒较少。这是否意味着维生素C可以预防感冒?未必。这可能是因为更注重健康的人每天都服用维生素C,但他们也吃得更健康,不超重,每天锻炼,而且更经常洗手。如果这位医生真的想知道是不是维生素C起作用,她需要进行一项设计良好的实验,排除这些其他因素。(有关更多信息,请参见后面的“解释关系:相关与因果关系”部分。)

利用相关性量化线性关系

在双变量数据通过散点图(参见前面的部分)进行图形化组织之后,如果你看到某种线性模式,下一步就是进行一些可以量化或测量关系程度和性质的统计分析。在接下来的部分中,我将讨论相关性,这是一种衡量两个变量之间线性关系强度和方向的统计量;具体而言,如何计算和解释相关性以及了解其最重要的属性。

计算相关性

在前面的部分“解释散点图”中,提到类似上升线的数据具有正线性关系,而类似下降线的数据具有负线性关系。然而,没有解决线性关系是强还是弱的问题。线性关系的强度取决于数据与线的相似程度,当然存在不同程度的“接近一条线”。

是否有一种统计量可以同时衡量线性关系的强度和方向呢?当然有!统计学家使用相关系数来衡量两个数值变量X和Y之间线性关系的强度和方向。数据样本的相关系数用r表示。

尽管相关性的街头定义适用于任何相关的两个项目(例如性别和政治派别),但统计学家只在涉及两个数值变量的情境中使用这个术语。相关性的正式术语是相关系数。目前已有许多不同的相关性度量;在这里使用的称为皮尔逊相关系数(但从现在开始我将简称其为相关系数)。

相关性(r)的公式为

其中,n是数据对的数量;x̅ 和 ȳ 分别是所有x值和y值的样本均值;sx 和 sy 分别是所有x值和y值的样本标准差。

使用以下步骤从数据集中计算相关性r:

找到所有x值的均值 x̅ 和所有y值的均值 ȳ 。有关计算均值的更多信息,请参见第5章。找到所有x值的标准差 sx 和所有y值的标准差 sy。有关如何计算标准差的信息,请参见第5章。对数据集中的每个(x,y)对,计算 (x-x̅) 和 (y-ȳ),并将它们相乘得到 (x-x̅)(y-ȳ)。将步骤3的所有结果相加。将总和除以 sx * sy。将结果除以 n - 1,其中n是(x,y)对的数量。

这就是相关性r。

举例说明,假设你有数据集 (3, 2), (3, 3) 和 (6, 4)。通过以下步骤计算相关系数 r。 (注意,对于这组数据,x值是3、3、6,y值是2、3、4。)

计算得到 x̅ 为 12 ÷ 3 = 4, ȳ 为 9 ÷ 3 = 3。标准差为 sx = 1.73 和 sy = 1.00 。详细计算步骤请参见第5章。在步骤3中找到的差异相乘为:(3 – 4)(2 – 3) = (-1)(-1) = +1;(3 – 4)(3 – 3) = (-1)(0) = 0;(6 – 4)(4 – 3) = (2)(1) = +2。将步骤3的结果相加,得到 1 + 0 + 2 = 3。除以 sx * sy 得到 3/(1.73 * 1.00) = 3\1.73 = 1.73。现在将步骤5的结果除以 3 - 1(即2),得到相关系数 r = 0.87。解释相关性

相关系数 r 始终在 +1 到 -1 之间。为了解释 r 的不同值(这里没有硬性规则,只是Rumsey的经验法则),请查看你的相关性最接近以下哪个值:

✓ 恰好是 -1:完美的下坡(负)线性关系

✓ -0.70:强烈的下坡(负)线性关系

✓ -0.50:适度的下坡(负)线性关系

✓ -0.30:弱的下坡(负)线性关系

✓ 0:没有线性关系

✓ +0.30:弱的上坡(正)线性关系

✓ +0.50:适度的上坡(正)线性关系

✓ +0.70:强烈的上坡(正)线性关系

✓ 恰好是 +1:完美的上坡(正)线性关系

如果散点图不能表明至少存在某种线性关系,相关性就没有太大意义。如果没有足够的线性关系可以谈论,为什么要测量线性关系的程度呢?然而,你可以从两个方面理解没有线性关系的概念:1)如果根本没有关系,计算相关性是没有意义的,因为相关性仅适用于线性关系;2)如果存在强关系但不是线性的,相关性可能是误导性的,因为在某些情况下,存在强烈的曲线关系,但相关性却被认为很强。这就是为什么首先要检查散点图至关重要的原因。

图18-2显示了各种相关性在关系的强度和方向方面的示例。图18-2a显示了一个 +1 的相关性,图18-2b显示了 -0.50 的相关性,图18-2c显示了 +0.85 的相关性,图18-2d显示了 +0.15 的相关性。将图18-2a和c进行比较,你会看到图18-2a是一个完美的上坡直线,而图18-2c显示了一个非常强烈的上坡线性模式。图18-2b是下坡的,但点分散在一个较宽的带状区域,显示出有线性关系存在,但不如图18-2a和18-2c中的强。图18-2d没有显示出任何变化(也不应该显示出任何变化,因为它的相关性非常接近0)。

许多人犯了一个错误,认为相关性为 -1 是一件坏事,表明没有关系。实际上恰恰相反!相关性为 -1 意味着数据排列成一条完美的直线,这是你能得到的最强线性关系。负号“-”只是恰好表示负相关,即下坡线。

在接近 -1 或 +1 时,表明有足够强的线性关系吗?大多数统计学家喜欢在兴奋之前看到相关性至少超过 +0.5 或 -0.5。然而,不要期望相关性总是0.99;请记住,这是真实的数据,真实的数据并不完美。

对于从之前的“用散点图描绘关系”部分中提取的蟋蟀鸣叫与温度数据的子集,计算出了0.98的相关性,这在现实世界中几乎是闻所未闻的。

审查相关性的性质

以下是相关系数的一些重要性质:

✓ 相关性始终在 -1 和 +1 之间,正如在前面的部分中所解释的那样。

✓ 相关性是一个无单位的度量,这意味着如果你改变X或Y的单位,相关性不会改变。例如,将温度从华氏度更改为摄氏度不会影响蟋蟀鸣叫频率(X)和外部温度(Y)之间的相关性。

✓ 在数据集中,变量X和Y可以互换而不改变相关性。例如,如果身高和体重的相关性为0.53,体重和身高也有相同的相关性。

使用线性回归

在两个数值变量X和Y的情况下,当通过相关性和散点图都建立了至少适度的相关性时,你就知道它们有某种线性关系。研究人员经常利用这种关系使用一条直线来预测给定X值的Y(平均)值。统计学家称这条线为回归线。

如果你知道回归线的斜率和y轴截距,那么你可以插入X的值并预测Y的平均值。换句话说,你可以从X预测(平均的)Y。在接下来的部分中,我将提供理解和使用线性回归方程的基础知识(我将在本章后面解释如何使用线性回归进行预测)。

除非你已经发现两个变量之间至少有适度强的相关性,否则永远不要进行回归分析。(我个人的经验法则是它应该至少达到正或负0.50,但其他统计学家可能有不同的标准。)我曾见过研究人员在相关性只有0.20的情况下就继续进行预测的情况!从任何人的标准来看,这是没有意义的。如果数据一开始就不像一条直线,你就不应该尝试使用一条直线来拟合数据和进行预测(但人们仍然尝试)。

确定哪个变量是X,哪个是Y

在继续找到回归线方程之前,你必须确定你的两个变量中哪个是X,哪个是Y。在进行相关性分析时(正如我在本章前面所解释的那样),选择哪个变量是X,哪个是Y并不重要,只要你对所有数据都保持一致。但在拟合直线和进行预测时,X和Y的选择确实会有影响。

那么,你如何确定哪个变量是X呢?一般来说,Y是你想要预测的变量,而X是你用来进行预测的变量。在之前的蟋蟀鸣叫的例子中,你是用鸣叫次数来预测温度。因此,在这种情况下,变量Y是温度,变量X是鸣叫次数。因此,如果存在足够强的线性关系,可以使用直线方程来预测Y。

统计学家将X变量(在我之前的例子中是蟋蟀鸣叫)称为解释变量,因为如果X变化,斜率告诉你(或解释)预期Y将如何改变。因此,Y变量被称为响应变量。X和Y的其他名称包括自变量和因变量。

检查条件

在两个数值变量的情况下,只有当满足前面章节提到的以下两个条件时,你才能得出一条使你能够从X预测Y的线:

✓ 散点图必须呈线性模式。

✓ 相关系数r适度到强(通常超过0.50或-0.50)。

一些研究人员实际上在进行预测之前并没有检查这些条件。除非满足这两个条件,否则他们的论断是无效的。

但是假设相关性很高,你是否仍然需要查看散点图呢?是的。在某些情况下,数据具有某种程度的曲线形状,然而相关性仍然很强;在这些情况下,使用一条直线进行预测仍然是无效的。预测需要基于曲线进行。 (这个主题超出了本书的范围;如果你感兴趣,请参见《统计学入门 II》,其中我解释了非线性关系。)

计算回归线

对于蟋蟀和温度的数据,你可以看到图18-1中的散点图呈线性模式。本章前面已经发现蟋蟀鸣叫次数和温度之间的相关性非常强(r = 0.98)。现在,你可以找到一条最能拟合数据的线(即具有点到线的最小总距离)。统计学家将用于找到最佳拟合线的技术称为使用最小二乘法进行简单线性回归分析。

最佳拟合线(或回归线)的公式是 y = mx + b,其中 m 是线的斜率,b 是y轴截距。这个方程本身与代数中找到直线的方程相同;但请记住,在统计学中,数据点并不完美地落在一条直线上 —— 这条线是数据围绕其周围的模型,如果存在强烈的线性模式的话。

✓ 一条线的斜率是Y变化与X变化的比率。例如,斜率为10⁄3表示x值增加(向右移动)3个单位时,y值平均上升10个单位。

✓ y轴截距是x值为零时在y轴上的位置。例如,在方程2x – 6中,该线在点 –6 处穿过y轴。这个点的坐标是(0,–6);当一条线穿过y轴时,x值总是为0。

要得出最佳拟合线,你需要找到适合你给定标准的斜率m和截距b的值,以最好地符合数据的模式。存在不同的标准,可能会生成其他线,但我在本书中使用的标准(以及一般的所有初级统计课程中使用的标准)是找到最小化统计学家称为误差平方和(SSE)的线。 SSE是拟议直线上的所有点与数据集中实际点之间的所有差值的平方和。具有最小可能SSE的线获胜,并且其方程被用作最佳拟合线。这个过程就是“最小二乘法”这个名字的由来。

你可能会认为你必须尝试很多不同的线来看哪一条最适合。幸运的是,你有一个更为直接的选择(尽管在散点图上用眼睛观察一条线确实有助于你思考你期望得到的答案)。最佳拟合线具有明确的斜率和y轴截距,可以使用公式计算(而且我可以补充一下,这些公式并不难计算)。

为了节省大量计算最佳拟合线的时间,首先找到“五个要素”,这是你计算中需要的五个摘要统计数据:

x值的均值(表示为x̅ )y值的均值(表示为ȳ )x值的标准偏差(表示为 sx)y值的标准偏差(表示为 sy)X和Y之间的相关性(表示为 r)计算斜率

最佳拟合线斜率 m 的公式为:

其中 r 是 X 和 Y 之间的相关性,sx 和 sy 分别是 x 值和 y 值的标准偏差。简单来说,你只需要将 sy 除以 sx,并将结果乘以 r。

请注意,最佳拟合线的斜率可以是负数,因为相关性可以是负数。负斜率表示该线呈下坡趋势。例如,增加警察人数与犯罪数量呈线性关系,相关性和因此最佳拟合线的斜率在这种情况下是负数。

相关性和最佳拟合线的斜率并不相同。斜率的公式将相关性(一个无单位的度量)与其相应的单位联系起来。可以将 sy ÷ sx 视为 Y 在 X 单位变化中的变化(类似于变化),单位是 X 和 Y。例如,温度(华氏度)变化在蟋蟀鸣叫次数(15秒内)变化中的比例。

计算y轴截距

最佳拟合线的y轴截距 b 的公式为 b = ȳ - mx̅,其中 x̅ 和 ȳ 分别是 x 值和 y 值的均值,m 是斜率(其公式在前面的部分中已给出)。

因此,要计算最佳拟合线的y轴截距 b,你首先通过按照前面部分列出的步骤找到最佳拟合线的斜率 m。然后,将 m 乘以 x̅ 并从 ȳ 中减去你的结果。

在计算y轴截距之前,始终要先计算斜率。y轴截距的公式中包含了斜率!

解释回归线

比起能够计算斜率和y轴截距以形成最佳拟合的回归线,更为重要的是能够解释它们的值;我将在接下来的部分中解释如何做到这一点。

解释斜率

在代数中,斜率的解释是上升与前行。例如,如果斜率为2,你可以将其写为2⁄1,并说当你在直线上从一个点移动到另一个点时,随着X变量的值增加1,Y变量的值增加2。在回归的背景下,斜率是方程的核心,因为它告诉你在X增加时可以期望Y变化多少。

一般来说,斜率的单位是Y变量的单位除以每X变量的单位。这是每变动X而Y变动的比率。假设在研究剂量水平(毫克)对收缩压(mmHg)的影响时,研究人员发现回归线的斜率是-2.5。你可以写成-2.5⁄1,并说收缩压预计每1毫克药物剂量的增加平均下降2.5 mmHg。

解释斜率时,请务必使用适当的单位。如果不考虑单位,你就无法真正看到手头两个变量之间的联系。例如,如果Y是考试分数,X = 学习时间,而你发现方程的斜率是5,这意味着什么呢?如果没有任何单位可供参考,这并不是很有意义。包括单位,你会发现每增加1小时的学习时间(X变化),得分(Y变化)增加5分。还要注意,变量可能有不止一种常见单位,比如温度可以用华氏度或摄氏度表示;要知道使用的是哪个单位。

如果在斜率的分母中使用1对你来说意义不大,你可以用任何数字(只要是相同的数字)将分子和分母相乘,然后以这种方式进行解释。在收缩压的例子中,你可以将斜率写为-2.5⁄1,并解释为每增加10毫克剂量,收缩压下降25 mmHg。

解释y轴截距

y轴截距是回归线 y = mx + b 与y轴相交的地方,其中x = 0,用 b 表示(参见前面的“计算y轴截距”部分)。有时y轴截距可以有意义地解释,有时则不能。这种不确定性与斜率不同,斜率总是可以解释的。实际上,在斜率和y轴截距这两个元素之间,斜率是主角,而y轴截距是不那么出名但仍然显眼的配角。

有时y轴截距是没有意义的。例如,假设你使用降雨量来预测每英亩玉米的产量。你知道如果数据集包含一个降雨量为0的点,每英亩的产量也必须为0。因此,如果回归线在y轴上的交点不是在0处(并不能保证会在0处交叉,这取决于数据),那么y轴截距将没有意义。同样,在这个背景下,y(玉米产量)的负值也无法解释。

另一种情况下,你无法解释y轴截距是当数据在x = 0附近不存在时。例如,假设你想要使用学生在第一次期中考试的成绩来预测他们在第二次期中考试的成绩。y轴截距表示第一次期中考试分数为0时第二次期中考试的预测值。你不期望期中考试的分数接近或等于0,除非有人没有参加考试,那么她的分数本来就不会被包括在内。

然而,很多时候,y轴截距对你来说是感兴趣的,它是有意义的,并且你在x = 0附近收集了数据。例如,如果你想使用温度来预测威斯康辛州格林贝的橄榄球比赛中的咖啡销量,一些比赛的温度可能降到甚至低于0华氏度,因此在这些温度下预测咖啡销量是有意义的(你可能会猜到,随着温度的下降,他们卖更多的咖啡)。

将所有内容结合在一起,通过一个例子:蟋蟀的回归线

在前面的部分“用散点图描绘关系”中,介绍了蟋蟀鸣叫与温度相关的例子。在“计算回归线”中解释的“五要素”统计数据,对于蟋蟀数据的子集,如表18-2所示。(注意:我只是为了方便解释而四舍五入。)

在蟋蟀鸣叫与温度数据子集的最佳拟合线中,斜率m为

。因此,随着每15秒鸣叫次数增加1次,温度预计平均增加0.90华氏度。为了得到更有意义的解释,您可以将斜率的分子和分母都乘以10,表示随着每10次(每15秒)鸣叫次数的增加,温度将增加9华氏度。

现在,为了找到y截距b,您取 ȳ - mx̅ ,即 67 -(0.90)*(26.5)= 43.15。因此,根据数据预测温度的最佳拟合线是y = 0.90x + 43.15,或温度(以华氏度表示)= 0.90 *(每15秒的鸣叫次数)+ 43.2。现在,您能够使用y截距来预测在没有任何鸣叫的情况下的温度吗?由于在这一点附近没有收集到数据,因此您无法对这一区域的温度进行预测。如果蟋蟀静默,就无法使用蟋蟀来预测温度。

进行正确的预测

在确定了强烈的线性关系并找到了最佳拟合线的方程y = mx + b之后,您可以使用该线来预测(平均)y的给定x值。为了进行预测,您将x值代入方程中并解出y。例如,如果您的方程是y = 2x + 1,您想要预测x = 1时的y,那么将1代入方程中得到 y = 2(1) + 1 = 3。

请记住,您选择要代入的X值(解释变量),您预测的是Y值(响应变量),这完全取决于X。通过这样做,您使用一个可以轻松收集数据的变量来预测很难或不可能测量的Y变量。只要X和Y有关联,这个过程就能够很好地工作。这个概念是回归的重要思想。

使用前面部分的例子,蟋蟀的最佳拟合线是y = 0.90x + 43.2。假设您正在户外露营,倾听蟋蟀,并记得您可以通过计算蟋蟀的鸣叫次数来预测温度。您数了35次鸣叫在15秒内,将35代入x,发现y = 0.9(35) + 43.2 = 74.7。(是的,在露营前您记住了这个公式,以防您需要它。)因此,由于蟋蟀在15秒内鸣叫了35次,您认为温度可能在75华氏度左右。

仅仅因为您有了回归线并不意味着您可以为X的任何值进行预测Y的良好工作。在数据范围之外使用x值进行预测是不可取的。统计学家称之为外推;注意那些试图在其数据范围之外提出断言的研究人员。

例如,在蟋蟀鸣叫的数据中,没有收集少于18次或多于39次每15秒的数据(参见表18-1)。如果尝试在这个范围之外进行预测,就好像进入了未知的领域;你的x值越远离这个范围,对y的预测就越不可靠。谁能说这条线在数据收集区域之外仍然有效呢?你真的认为蟋蟀会不停地鸣叫吗?在某一点上,它们要么会昏过去,要么会烧坏!而负数的鸣叫次数到底意味着什么呢?

请注意,即使相关性很高,也并非每个数据点都一定很好地适应回归线。一两个数据点可能会落在其他数据整体模式之外;这些点被称为异常值。一两个异常值可能不会对回归线的整体拟合产生太大影响,但最终你会发现在那些特定点上,线的拟合效果不佳。

从线的预测值和从数据中得到的实际y值之间的数值差异被称为残差。与其余点相比,异常值的残差较大;值得调查,以查看在这些点的数据中是否存在错误,或者是否有一些特别有趣的数据需要跟进。

解释关系:相关性与因果关系

散点图和相关性可以识别和量化两个变量之间的关系。然而,如果散点图显示明确的模式,并且数据显示出强相关性,并不一定意味着这两个变量之间存在因果关系。因果关系是指一个变量的变化(在这种情况下是X)引起另一个变量的变化(在这种情况下是Y)。换句话说,Y的变化不仅与X的变化相关,而且直接由X引起。

例如,假设进行了一项经过良好控制的医学实验,以确定某种药物剂量对血压的影响(请参阅第17章中对实验的全面分析)。研究人员查看他们的散点图,看到了明显的下坡线性模式;他们计算了相关性,而且很强。他们得出结论:增加这种药物的剂量导致血压下降。这种因果关系的结论是可以接受的,因为他们在实验中控制了可能影响血压的其他变量,如其他药物的使用、年龄、总体健康状况等。

然而,如果你制作了一个关于纽约市冰淇淋消费与谋杀率之间的散点图,并检查了它们之间的相关性,你也会看到一个明显的线性关系(这个是上坡的)。然而,没有人会声称更多的冰淇淋消费导致更多的谋杀发生。

这里发生了什么?在第一种情况下,数据是通过一项经过良好控制的医学实验收集的,这可以最小化其他可能影响血压的因素的影响。在第二个例子中,数据仅基于观察,没有检查其他因素。研究人员随后发现,这种强烈的关系存在,是因为谋杀率的增加和冰淇淋销售量的增加都与温度的升高有关。在这种情况下,温度被称为混杂变量;它影响X和Y,但未纳入研究中(参见第17章)。

两个变量是否被发现具有因果关系取决于研究的进行方式。我见过许多情况,人们试图通过查看散点图或相关性来声称因果关系。为什么他们会这样做?因为他们想要相信它(换句话说,对他们来说是“先信后见”,而不是反过来)。警惕这种策略。为了建立因果关系,你需要进行一项设计良好的实验或进行大量的观察性研究。如果有人试图通过展示图表或图形来建立因果关系,请深入了解研究的设计方式和数据的收集方式,并使用第17章中概述的标准进行适当评估。

一些研究人员和媒体成员经常忽视声称需要进行设计良好的实验才能宣称因果关系的需求,他们给我们带来了诸如“医生通过花更多时间与患者交往可以降低医疗事故诉讼”的标题。实际上,发现那些被起诉较少的医生是那些花很多时间与患者交往的医生。但这并不意味着把一位不称职的医生花更多时间与患者交往就能减少他的医疗事故诉讼;事实上,花更多时间可能会导致更多问题。

标签: #怎么c语言拟合斜率不一致的函数