龙空技术网

对新教材中线性回归方程的三个误差值的理解

曹老师的高中数学课 649

前言:

现时看官们对“对小样本回归系数进行检验用的统计量”大致比较着重,看官们都想要分析一些“对小样本回归系数进行检验用的统计量”的相关文章。那么小编同时在网络上收集了一些对于“对小样本回归系数进行检验用的统计量””的相关内容,希望各位老铁们能喜欢,各位老铁们快快来学习一下吧!

从近期考到的一道题入手:

新教材中对回归方程的内容重新做了修订,相比于老教材,新教材对内容和概念的要求更高一些,在理解的要求上有些许的提高,今天把新教材中有关线性回归模型的内容做一次解释。

先说上题,决定系数又称判定系数,R²的作用是对回归直线方程拟合程度的分析,R²越大,拟合度越好,其中决定变量R²=r²,即决定变量等于样本的相关系数,本题中去掉B点后样本的相关性变强,R²也越大;对于C选项,去掉B点后样本被解释变量的残差变小,残差平方和也变小。

研究两个变量之间的相关关系主要从两个方向进行,一是进行相关分析,即量化变量之间相关的程度,学习时用样本的相关系数r来进行量化:

另外一个方向就是回归分析,以广告投入费用和销售额为例,随着广告投入费用的增加,销售额也呈上升趋势,销售额的观察结果y是由两部分叠加成的,一部分是由广告投入的线性函数引起的,记作a+bx,另一部分是由随机因素引起的,记作e,所以y=a+bx+e

若两个变量呈现线性关系,则可用最小二乘法求解回归直线方程,书上有证明的过程,利用残差平方和最小求解a,b的值。

这里要区分开观测值和预测值,通过回归方程求得的都是预测值,观察值与预测值的差即为残差,接下来分析三个常见的误差平方和。

依旧以上述广告投入和销售额的关系解释,若没有广告投入这一项,只有销售额,如果按照月份作出销售额的散点图,若想找出一条拟合直线,即让这条直线满足观测值和预测值差e最小,因为没有其他变量,此时的预测值只能是一个常数,即^y=y的平均值,此时观测值与平均值差的平方和记作总平方差。

若引入一个参数,例如广告投入量x,就可以用x的变化来模拟y的变化,原本的预测值就不再是y的平均值,此时^y≠y的平均值,同理若要满足观测值和预测值差e最小,则y-^y最小,而这个平方和叫做残差平方和。

总平方和是什么意思?即没有引入变量时但从销售额角度分析得到的误差平方和;残差平方和是什么意思?即引入变量x后在使用最小二乘法优化之后残留的误差平方和,所以误差平方和减去残差平方和即表示引入变量x之后可以消除的误差,这个差值叫作回归平方和,从上述理解能看到回归平方和的意义是引入x变量消除误差之后剩余的能对自变量解释的部分,即被回归方程解释的部分,因此又叫做解释平方差。

高中阶段的考题更多与残差平方和有关,理解残差平方和与回归平方和的关系即可,深层次内容无需深究。

所以SST-SSE这部分占SST越大,说明引入新变量x之后对误差的减少效应越强,即回归方程的拟合度越好,当这个比值接近1时,说明新加入的x会大大减少预测值的误差,当比值接近于零的时候,说明新加入的x对误差的消除效应几乎为零,可看做回归方程的拟合程度非常差。

因此书上用这个比值变量x对变量y的解释能力,将这个比值命名为判定系数,新课本上改名为可决系数或决定系数,即R²=SSR/SST

因此可知,R²越大,残差平方和越小,被回归方程解释的部分越大,拟合度越好

最后可决系数和相关系数的关系:R²=r²,即可决系数等于相关系数的平方

考试的时候不会让求可决系数,但有可能求相关系数,通过两者的关系即可通过r求可决系数了。

书本上除了一元线性回归方程,还有一元非线性回归方程的求法,其实就多了一步换元,有关一元非线性回归方程的求解可参考链接:统计与概率大题中的回归方程问题

标签: #对小样本回归系数进行检验用的统计量 #误差的求法 #拟合公式中的e是什么意思 #线性拟合斜率计算例题 #线性拟合斜率计算例题解析