龙空技术网

经验分布函数的收敛及其核密度估计——R实现

甲亥13 297

前言:

如今大家对“密度算法代入方法”可能比较珍视,大家都需要了解一些“密度算法代入方法”的相关内容。那么小编也在网摘上网罗了一些关于“密度算法代入方法””的相关内容,希望大家能喜欢,大家一起来了解一下吧!

什么是经验分布函数?

经验分布函数(EDF, empirical distribution function)是与样本经验测度相关的分布函数,该分布函数是在n个数据点中的每一个上都跳跃1 / n的阶梯函数;经验分布函数Fn(x)是一个阶梯形函数

经验分布函数是对样本中生成点的累积分布函数的估计;根据Glivenko-Cantelli定理,它以概率1收敛到该基础分布。同时也存在一些结果来量化经验分布函数与潜在的累积分布函数的收敛速度。

经验分布函数Fn(x)就是在n次重复独立实验中事件出现的频率{X<=x}。

令(x1,x2......xn)是独立的、相同分布的且具有共同的累积分布函数F(t)的实随机变量。然后将它们按从小到大的顺序重新排列为(x1*,x2*......xn*),对于任意实数x,定义函数

经验分布函数的特点

当样本容量增大时, 相邻两阶梯的跃度变低, 阶梯宽度变窄,这样的阶梯形折线几乎就是一条曲线。如果设总体x的分布函数为F(x), 则Fn(x)非常接近于 F(x)。

Fn(x)单调,非降,左连续,在每个点的跳跃值都是 1/n;经验分布函数与总体分布函数还有更进一步的收敛关系。

由于n变为无穷大时,n+12趋近于1,所以上面给出的两个定义的渐近性是相同的。

根据大定律,对于t的每个值,估计Fn(t)收敛于F(t), Fn(t) ——> F(t)

弱大数定律和强大数定律有相同的条件,区别在于结论;弱大数指依概率收敛,强大数指以概率1收敛(或者说几乎处处收敛)。依概率收敛的意思是,任意指定一个正数ε,无论n取多大,Xbar与μ的差大于ε的可能次数是无限的,但只要n足够大(比如满足切比雪夫不等式),差大于ε的次数占比趋于0。

容量为10实例的EDF分解过程

数据源——容量为10的样本X,其值为3.2, 2.5, -2, 2.5, 0, 3, 2, 2.5, 2, 4

排序:把样本值按从小到大的顺序排列为:

极差: 最大观察值与最小观察值的差,R=max(cc)-min(cc)=6

组数:这个区间分成多少个组,一般

组距:将区间[-2:4]分成m个小区间,每个小区间的距离叫做组距;

组距=(max(cc)-min(cc))/m=2.2

样本X经验分布函数Fn(x)为:

经验分布函数EDF是依据样本以频率估计概率的方式,得到的实际分布函数的一个逼近数,具体的构造思想就是频率估计概率;本实例得到的EDF就是频率估计概率的体系,其最大值为1,最小值为0。

直方图显示该EDF如下:

hist(cc,breaks=c(-2,-0.1,1.9,2.4,2.9,3.2,4),freq=T,col.axis='red')

lines(density(cc),lwd=3,lty=3,col='lightblue')

软件R的实现

经验分布函数图的绘制

par(las=1,col.axis='green',col='red',cex=1.4)

plot(ecdf(cc),do.p=T,verticals=T)

mtext(side=3,'样本容量10',line=0)

函数density计算核密度估计

核密度估计的默认方法是使用给定的内核和带宽来进行单变量观察。

使用的算法density.default将经验分布函数的质量分散在至少 512 个点的规则网格上,然后使用快速傅里叶变换将此近似与核的离散版本进行卷积,然后使用线性近似来评估密度指定点。

ccx<-density(cc);ccx

ccxx<-ccx$x;ccxy<-ccx$y

dx<-diff(ccxx)

plot(ccxx,cumsum(ccxy*dx),col=rainbow(512),tck=0.01)

mtext(side=3,'样本容量10',line=-1)

标签: #密度算法代入方法