龙空技术网

决定系数(R平方)解释

林小婵的店 1618

前言:

今天你们对“回归方程拟合度r平方”都比较看重,各位老铁们都需要分析一些“回归方程拟合度r平方”的相关内容。那么小编同时在网摘上收集了一些对于“回归方程拟合度r平方””的相关内容,希望大家能喜欢,大家快快来了解一下吧!

什么是R平方,它有什么作用?

R平方是用于评估我们的回归模型的拟合优度的统计度量。

在R平方中,我们有一个基线模型,它是最差的模型。该基线模型没有使用任何独立变量来预测因变量Y的值。相反,它使用因变量Y的观测响应的平均值,并始终将该平均值预测为Y的值。

我们适合的任何回归模型都与该基线模型进行比较,以了解它是否合适。

换句话说,R-squared简单地解释了与基线模型相比,您的模型有多好

上图中的红线是基线模型,它总是预测因变量Y的观测响应的均值作为Y的值,而不考虑自变量的值。

绿线是我们的拟合模型,它利用自变量来预测因变量Y的值。

R平方的数学表示

R平方由下式给出

其中SSE是我们的回归模型的误差平方的总和

而SST是我们的基础模型的误差平方的总和。

R平方值可以取的范围是多少?

我们最糟糕的回归模型可能是基线模型本身。

因此,在这种情况下,SSE将等于SST。

所以R平方将等于

R平方= 1-1 = 0

这就是R平方= 0的模型的样子

我们最好的模型将是完美适合所有数据点的模型,所以在这种情况下SSE将为0。

所以,R平方= 1-0 = 1表示一个完美的模型。

与模型R平方接近1

所以R平方可以取0到1之间的值,其中接近于0的值表示不合适,而接近1的值表示完美契合。

如何解释R平方?

如果R平方= 0.93,则意味着因变量Y的93%变化由我们模型中存在的自变量解释。

使用R平方的缺陷

R-squared可以被人为地提高。也就是说,我们可以通过简单地向模型添加越来越多的自变量来增加R平方的值。

换句话说,在添加更多独立变量时,R平方不会减少。

有时候,这些变量中的一些可能非常微不足道,对我们的模型来说可能是无用的。

为什么会发生?

当SSE / SST最小时,R平方最大。

为了SSE / SST最低,SSE应该是最小的。

现在,随着我们向模型添加更多解释变量,SSE将会减少。这是因为我们在回归模型中添加了更多的解释变量,所以我们的回归模型会更好地拟合数据点,因此平方误差的总和会减少。因此即使变量对我们的模型不重要,R平方也会增加。

为了避免由R平方引起的这个问题,我们使用调整的R平方

调整R平方

调整后的R平方简单地惩罚了添加更多无用变量的模型。

调整的R平方由下式 给出

n =没有数据点

p =模型中不使用的独立变量

调整的R平方是如何工作的?

随着我们模型中增加自变量的 数量 ,n-p-1减少,所以如果我们除以

通过越来越小的数字,结果值将越来越大,并且当从1减去该值时,调整的R平方 将减小。

所以通过增加更多无用的变量,调整的R平方的值减小。

考虑以下数据

考虑使用x1和x2作为独立变量的模型1来预测变量y的值

这个模型的R平方= 0.909。调整的R平方为此计算为

现在,如果我们选择将另一个变量x3添加到我们以前的模型中

这个模型的R平方= 0.912,比我们以前的模型略高。调整的R平方为此计算为

注意在这个例子中,当我们将变量x3添加到我们的模型中时,R平方的值的增加(与之前的模型相比)非常小(0.003),除此之外分母的值已经从10降到9。因此调整R平方的结果值下降,表明x3对我们的模型不重要。

这很好解释了当我们向模型中添加越来越多的无用变量时,R值的平方值不会显着增加,调整的R值的平方值就会下降。

R平方与调整的R平方有什么不同?

R平方告诉你模型如何适合数据点,而调整的R平方告诉你模型的特定特征有多重要。

标签: #回归方程拟合度r平方