龙空技术网

概率论笔记——线性代数解读协方差和相关系数

程琰657 597

前言:

当前大家对“协方差多大算大”大概比较关心,姐妹们都需要分析一些“协方差多大算大”的相关资讯。那么小编同时在网络上网罗了一些有关“协方差多大算大””的相关文章,希望同学们能喜欢,朋友们一起来了解一下吧!

本篇讨论一个有趣的话题,我们将概率论和线性代数结合起来,看看协方差和相关系数在线性代数中如何解释。

本篇较为硬核。原因是一般对协方差和相关系数,特别是相关系数,的讨论,都给人感觉云里雾里。我估计原因可能是身在此山中。所以我们需要跳出概率论看着两个概念,由于相关系数的推导过程涉及了线性代数中的最小二乘,所以非常自然地,我们可以从线性代数入手,考察协方差和相关系数的意义。毕竟,线性代数中的概念有非常直观的几何意义。曲线救国,从线性代数入手,将概率论数形结合。

柯西——施瓦茨不等式

首先回顾一下线性代数中的内积和夹角。

内积空间V中两个向量x,y比满足

于是可以用柯西——施瓦茨不等式定义夹角

对比观察相关系数的定义

于是我们好像发现了

随机变量的内积空间

于是我们可以大胆猜测。

一维随机变量连同协方差运算构成了内积空间,常数分布是零向量,相关系数表示了两个向量的夹角的余弦。

但还是需要谨慎证明。

将一维随机变量的分布视为向量,则所有分布的集合可以视作向量空间V,任取两种分布X,Y用向量记号记作x,y,我们采用协方差作为操作,即<,>=Cov(,) ,看看这样的定义能否满足内积的4个要求:

1,2,3条是很显然的,关键在第4条的证明。

我们发现,所有的一维随机变量的分布(注意,这里是分布!分布!分布!)的集合连同协方差确实可以视为内积空间,内积操作为协方差,如此,非常自然地,相关系数在线性代数看来就是度量两个随机分布的余弦。cos这个东西天然有[-1,1],所以相关系数自然可以表述两个分布之间的关系。

正相关和负相关

相关系数在教材中是从Y=aX+b引出,用最小二乘法。其实采用最小二乘法就隐含了和线性代数的关系。但是教材中

相关系数表示两个变量之间的相关程度。

这个说法至少看起来不是那么明显,改成相关系数表示两个分布之间的相关程度,会更好。至于网上流传甚广的解释

相关系数为正,表示Y随着X的增大而增大,相关系数为负,表示Y随着X的增大而减小。

这种gp不通的说法,还是要丢弃糟粕的。

方差与范数

于是,方差的线性代数意义也随之而出,对比两者性质:

非常显然了,方差作为自己跟自己的协方差,就是一个范数!一种度量!是分布的一种特征属性,一个具体的分布就对应了一个特征。延申到物理上,就是

单位质量的物体在质心点的转动惯量。

由于单位质量,所以方差可以认为有量纲[m^2]。这点可以放到下篇详细展开。

总结

微积分、线性代数、概率论作为数学这个大学科下的3个基础,它们自然有非常多的内在联系。概率论教材中讲到连续变量,基本都是用到微积分的内容,但是和线性代数关系很少,这里算作抛砖引玉。

其实,作为描述一个系统内部各个成员之间相互关系的线性代数,任何学科只要涉及两个变量相互作用f(x,y)的(线性!),都可以用线性代数的内容加以理解和诠释。切不可把学科分隔开看问题。

标签: #协方差多大算大