龙空技术网

简单直觉的贝叶斯定理

布谷AI 1886

前言:

如今各位老铁们对“贝叶斯估计实例”都比较关注,大家都需要剖析一些“贝叶斯估计实例”的相关知识。那么小编同时在网上收集了一些关于“贝叶斯估计实例””的相关内容,希望你们能喜欢,我们快快来了解一下吧!

定义

贝叶斯定理/规则/法则:

一般应用于生成式模型分类、贝叶斯估计等场景。

朴素贝叶斯

经常应用在新闻文章分类上,给定一篇文档,推测其类别标签。

对文档的建模如上,所有文档,根据词典长度统一向量化,文档中出现某个词,则在响应位置置1,否则为0,一个词只有两个取值,所以朴素贝叶斯也称为多元伯努利模型(multi-variate Bernoulli event model)。

朴素贝叶斯假设:在给定文档类别情况下,每个单词出现的概率相互独立。

结合文档建模、NB假设,朴素贝叶斯的最优化过程如下:

由统计量的结果可知,各参数非常符合直觉,符合大数定律。

同时分类本身对类别数量没有要求,类似的方法直接应用于多分类。

根据贝叶斯定理,预测过程如下:

注意这里有一处异常,就是当某个单词在所有类中都没有出现过的情形:

可以采取拉普拉斯平滑(Laplace smoothing),p(y)一般都是有取值的,主要针对单词的条件概率即可。

分子加1、分母加k,其实是引入一种均匀先验1/k,当样本量足够大时,结果与平滑之前的最大似然估计一致。

多项式事件模型

多项式事件模型(multinomial event model)与朴素贝叶斯分类差异在于对文档的建模上。

多项式事件模型将一篇文档看作一个随机生成过程:

根据p(y)选择分类;从p(X|y)分布中,采样单词,逐词生成文档。

假设词典长度为|V|,那么每次采样,都有|V|种可能性,所以称为multinomial,区别于朴素贝叶斯的Bernoulli{0, 1}。

注意每一个文档的长度就不一定一样了,取决于文档包含的单词个数n。

从最大化似然的结果来看,模型不仅仅考查文档是否包含某单词,还统计单词的频率,单词出现次数不同,概率不同。

以上贝叶斯分类相关的文献,取自Andrew Ng CS229讲义。

贝叶斯估计

贝叶斯估计与最大似然估计的不同在于参数θ也是随机变量。

最大似然估计通过最优化方法最后要学习的是一个固定的参数θ或一组向量θ,参数θ是确定的,只是不知道。贝叶斯估计的假设是参数θ本身是个随机变量,通过分布描述。

在似然的基础上,引入了先验,当样本数据量不充足时,先验就会变得比较重要,能够引导模型更好的估计。

在已有观察基础上,预测事件x的贝叶斯估计方法为对参数θ求积分:

实际应用中,会对积分进行近似,使问题可求同时提高推理速度。

由于逻辑回归、朴素贝叶斯分类等都出现过似然之类的符号,由贝叶斯估计直接类比不同模型,符号很容易混淆,但明晰两点,问题能清晰不少:

采用贝叶斯估计之前,确定随机变量θ和x。X为观察集,对应到监督学习,应该是(X, y),一般把y当作随机变量,X当作固定的数据集。贝叶斯线性回归

线性回归的概率视角是残差ϵ服从高斯分布。

下图能感受到贝叶斯估计是在已有数据或经验基础上,逐步学习,重新衡量,优化目标分布。

贝叶斯估计学习的是分布,不仅能推测而且还能说明推测的有对准。

这很符合人的学习认知,但是求积分是很耗时而且有的分布积分不易求,当样本数据量不足的时候,贝叶斯估计能更好地发挥先验认知。

本节相关文献来自The Machine Learning: A Probabilistic Perspective by Kevin P. Murphy。

总结

贝叶斯公式/定理/规则/法则本身很简单,表达结合先验和新数据,预测后验的自然法则。

机器学习中很多模型都可以从概率视角重新审视,也就可以采用贝叶斯定理分析。

如果不考虑时间复杂度,如果任意分布都能有效表达,基于贝叶斯定理的方法还是很有用武之地,这可能是人工智能最外层的最终的自然推理形式。

标签: #贝叶斯估计实例