前言:
今天你们对“回归方程拟合度r平方”都比较看重,各位老铁们都需要分析一些“回归方程拟合度r平方”的相关内容。那么小编同时在网摘上收集了一些对于“回归方程拟合度r平方””的相关内容,希望大家能喜欢,大家快快来了解一下吧!什么是R平方,它有什么作用?
R平方是用于评估我们的回归模型的拟合优度的统计度量。
在R平方中,我们有一个基线模型,它是最差的模型。该基线模型没有使用任何独立变量来预测因变量Y的值。相反,它使用因变量Y的观测响应的平均值,并始终将该平均值预测为Y的值。
我们适合的任何回归模型都与该基线模型进行比较,以了解它是否合适。
换句话说,R-squared简单地解释了与基线模型相比,您的模型有多好
上图中的红线是基线模型,它总是预测因变量Y的观测响应的均值作为Y的值,而不考虑自变量的值。
绿线是我们的拟合模型,它利用自变量来预测因变量Y的值。
R平方的数学表示
R平方由下式给出
其中SSE是我们的回归模型的误差平方的总和
而SST是我们的基础模型的误差平方的总和。
R平方值可以取的范围是多少?
我们最糟糕的回归模型可能是基线模型本身。
因此,在这种情况下,SSE将等于SST。
所以R平方将等于
R平方= 1-1 = 0
我们最好的模型将是完美适合所有数据点的模型,所以在这种情况下SSE将为0。
所以,R平方= 1-0 = 1表示一个完美的模型。
所以R平方可以取0到1之间的值,其中接近于0的值表示不合适,而接近1的值表示完美契合。
如何解释R平方?
如果R平方= 0.93,则意味着因变量Y的93%变化由我们模型中存在的自变量解释。
使用R平方的缺陷
R-squared可以被人为地提高。也就是说,我们可以通过简单地向模型添加越来越多的自变量来增加R平方的值。
换句话说,在添加更多独立变量时,R平方不会减少。
有时候,这些变量中的一些可能非常微不足道,对我们的模型来说可能是无用的。
为什么会发生?
当SSE / SST最小时,R平方最大。
为了SSE / SST最低,SSE应该是最小的。
现在,随着我们向模型添加更多解释变量,SSE将会减少。这是因为我们在回归模型中添加了更多的解释变量,所以我们的回归模型会更好地拟合数据点,因此平方误差的总和会减少。因此即使变量对我们的模型不重要,R平方也会增加。
为了避免由R平方引起的这个问题,我们使用调整的R平方
调整R平方
调整后的R平方简单地惩罚了添加更多无用变量的模型。
调整的R平方由下式 给出
n =没有数据点
p =模型中不使用的独立变量
调整的R平方是如何工作的?
随着我们模型中增加自变量的 数量 ,n-p-1减少,所以如果我们除以
通过越来越小的数字,结果值将越来越大,并且当从1减去该值时,调整的R平方 将减小。
所以通过增加更多无用的变量,调整的R平方的值减小。
例
考虑以下数据
考虑使用x1和x2作为独立变量的模型1来预测变量y的值
这个模型的R平方= 0.909。调整的R平方为此计算为
现在,如果我们选择将另一个变量x3添加到我们以前的模型中
这个模型的R平方= 0.912,比我们以前的模型略高。调整的R平方为此计算为
注意在这个例子中,当我们将变量x3添加到我们的模型中时,R平方的值的增加(与之前的模型相比)非常小(0.003),除此之外分母的值已经从10降到9。因此调整R平方的结果值下降,表明x3对我们的模型不重要。
这很好解释了当我们向模型中添加越来越多的无用变量时,R值的平方值不会显着增加,调整的R值的平方值就会下降。
R平方与调整的R平方有什么不同?
R平方告诉你模型如何适合数据点,而调整的R平方告诉你模型的特定特征有多重要。
标签: #回归方程拟合度r平方