极具震撼力的贝叶斯定理，作为数据科学人的您咋能错过？

CDA数据分析师 06-01 1921

前言：

眼前你们对“贝叶斯的基本原理”都比较关切，小伙伴们都想要剖析一些“贝叶斯的基本原理”的相关内容。那么小编也在网摘上收集了一些对于“贝叶斯的基本原理””的相关知识，希望兄弟们能喜欢，咱们快快来了解一下吧！

作者 | KHYATI MAHENDRU

编译 | CDA数据分析师

原文 | An Introduction to the Powerful Bayes' Theorem for Data Science Professionals

概述贝叶斯定理是统计学中最强大的概念之一，而贝叶斯定理也是数据科学专业人员必须知道的定理熟悉贝叶斯定理，其工作原理及其多种多样的应用本文中有许多直观的例子来理解贝叶斯定理背后的思想介绍

概率是许多数据科学算法的核心。实际上，解决这么多数据科学问题的方法本质上都是概率性的-因此，我始终建议在着手研究算法之前，着重学习一下统计数据和概率。

但我看到很多有能力的数据科学家都在回避统计这一方面的知识，尤其是贝叶斯统计。许多分析师和数据科学家仍然无法理解这一点。我相信你们很多人都对此点头赞同吧!

贝叶斯定理是贝叶斯统计的一个主要方面，是由生活在18世纪的僧侣托马斯·贝叶斯（Thomas Bayes）提出的。我们仍在学习贝叶斯统计的这一事实，表明他的作品在多个世纪以来都具有巨大的影响力！贝叶斯定理使我们能够解决复杂的数据科学问题，并且仍然领先在世界领先的大学教授。

在本文中，我们将详细探讨贝叶斯定理及其应用，包括朴素贝叶斯分类器和判别函数等。本文有很多要解压的内容，让我们开始吧！

目录贝叶斯定理的前提条件贝叶斯定理是什么？贝叶斯定理的一个例证贝叶斯定理的应用朴素贝叶斯分类器判别函数和决策面贝叶斯参数估计贝叶斯参数估计的演示贝叶斯定理的前提条件

在进入贝叶斯定理的世界之前，我们需要了解一些概念。这些概念本质上是理解贝叶斯定理的前提条件。

1.实验

当您听到“实验”一词时，您想到的第一张图片是什么？包括我在内的大多数人都想象有一个充满试管和烧杯的化学实验室。概率论中的实验概念实际上非常相似：

实验是在受控条件下执行的有计划的操作。

实验的例子包括抛硬币，掷骰子和从洗好的牌中抽出一张。

2.样本空间

实验的结果称为实验结果。事件的所有可能结果的集合称为样本空间。例如，如果我们的实验是掷骰子并记录其结果，则样本空间将为：

S1 = {1,2,3,4,5,6}

当我们扔硬币时，样本将是什么？在看到下面的答案之前，请仔细的想一想：

S2 = {H，T}

3.事件

事件是实验结果的集合（即样本空间的子集）。

让我们回到掷骰子的实验中并将事件E和F定义为：

E =获得偶数= {2，4，6}F =获得大于3的数字= {4，5，6}

这些事件发生的可能性：

P（E）=有利结果数/可能结果总数= 3/6 = 0.5 P（F）= 3/6 = 0.5

集合论中的基本运算，也就是事件的并集和交集是可能的，因为一个事件就是一个集合。

E∪F= {2，4，5，6}和E∩F= {4，6}

现在考虑一个事件G =获得一个奇数：

那么E∩G=空集=Φ

这种事件称为不相交事件。这些也称为互斥事件，因为一次实验只能在两个事件中发生一个：

4.随机变量

随机变量的确切含义就像它听起来的那样—一个具有随机值的变量，每个值都有一定的概率（可能为零）。它是在实验的样本空间上定义的实值函数：

让我们来看一个简单的示例（请参考上面的图片）。在抛硬币实验的样本空间上定义一个随机变量X。如果获得“ Heads”（正面），则值为+1；如果获得“ Tails”（反面），则值为-1。然后，X取值为+1和-1，概率为1/2。

假设Y是某一天某一地点的观察温度(摄氏温度)。因此，我们可以说Y是一个连续的随机变量，定义在相同的空间上，S =[0,100](摄氏温标定义在0摄氏度到100摄氏度之间)。

5.详尽的事件

如果必须在任何时间发生至少一个事件，则认为一组事件是详尽的。因此，如果A∪B = S，即在样本空间内两个事件A和B被认为是穷举性的。

例如，假设A是从包装中抽出的纸牌是红色的事件，B是抽出的纸牌是黑的事件。这里，A和B是穷举性的，因为样本空间S = {red，black}。很简单的东西，对不对？

6.独立事件

如果一个事件的发生对另一事件的发生没有任何影响，则可以说这两个事件是独立的。从数学上讲，如果满足以下条件，则两个事件A和B被认为是独立的：

例如，如果A在掷骰子时获得5，而B从一副洗的特别好的一堆纸牌中抽出了红桃K，那么A和B就其定义而言来说就是独立的。识别独立事件通常不那么容易，因此我们使用上面提到的公式。

7.条件概率

假设我们从给定的牌堆中抽出一张牌。是黑牌的概率是多少?很简单- 1/2，对吧?然而，如果我们知道它是一张黑牌，那么它是一张国王牌的概率是多少?

解决这个问题的方法并不那么简单。

这就是条件概率概念起作用的地方。条件概率被定义为一个事件A发生的概率，前提是另一个事件B已经发生(即A条件B)。这由P（A | B）表示，我们可以将其定义为：

P（A | B）= P（A∩B）/ P（B）

让事件A代表选择国王，事件B代表黑牌。然后，使用上述公式找到P（A | B）：

P（A∩B）= P（获得一张国王黑卡）= 2/52 P（B）= P（捡黑卡）= 1/2

因此，P（A | B）= 4/52。根据您选择的示例进行尝试。这将帮助您很好地掌握整个概念。

8.边际概率

它是一个事件A发生的概率，独立于任何其他事件B，即边缘化事件B。

边际概率P（A）= P（A | B）* P（B）+ P（A |〜B）* P（〜B）

这只是一种奇特的说法：

P（A）= P（A∩B）+ P（A∩〜B）＃根据我们对条件概率的了解

其中〜B表示未发生B的事件。

让我们来验证一下边际概率的概念是否成立。这里，我们需要计算抽到的随机纸牌是红色(事件a)的概率，答案显然是1/2。。让我们通过事件B的边际概率计算得出国王的概率。

P（A∩B）= 2/52（因为有两个是红色的国王，一个是红心，另一个是方块）

并且P（A∩〜B）= 24/52（红色的剩余的牌）因此，P（A）= 2/52 + 24/52 = 26/52 = 1/2

完美！因此，这足以涵盖我们贝叶斯定理的基础知识。现在让我们花一些时间来了解贝叶斯定理的确切含义以及其工作原理。

贝叶斯定理是什么？

你看过热门电视剧《神探夏洛克》(或任何犯罪惊悚剧)吗?想想看，我们对罪魁祸首的看法在整集里都在改变。我们处理新的证据，并在每一步完善我们的假设。这就是现实生活中的贝叶斯定理!

现在，让我们从数学上理解它。这将是相当简单的，因为我们的基础是清楚的。

假设A和B是样本空间S中P(B)≠0的任意两个事件。利用我们对条件概率的理解，我们有:

这就是贝叶斯定理。

这里，P(A)和P(B)是独立观察A和B的概率。这就是为什么我们说它们是边际概率。P(B|A)和P(A|B)是条件概率。

P（A）称为先验概率，P（B）称为证据。

P（B）= P（B | A）* P（A）+ P（B |〜A）* P（〜A）

P（B | A）称为可能性，P（A | B）称为后验概率。

等价地，贝叶斯定理可以写成:

后验=可能性*先验/证据

这些词听起来可能很花哨，但它们背后的基本思想其实很简单。当你有任何疑问的时候，你可以回到这个部分进行查看。

贝叶斯定理的一个例证

我们用贝叶斯定理来解决一个问题。这将帮助你理解和想象你可以在哪里应用它。我们举一个例子，我相信几乎所有人都在学校里见过。

有3个分别标记为A，B和C的盒子：

盒子A包含2个红色和3个黑色的球盒子B包含3个红色和1个黑色的球盒子C包含1个红球和4个黑球

这三个盒子是一样的，被选中的概率是一样的。假设选择了一个红色的球。那么这个红球从框A中取出的概率是多少?

设E表示一个红色球被选中的事件，A、B、C表示各自的盒子被选中。我们需要计算条件概率P(A|E)。

贝叶斯定理的应用

贝叶斯定理在现实世界中有很多应用。如果你不能马上理解所有涉及的数学，也不要担心。只要了解它是如何工作的就足够了。

贝叶斯决策理论是解决模式分类问题的一种统计方法。根据这一理论，假定类别的潜在概率分布是已知的。因此，我们得到了一个理想的贝叶斯分类器，所有其他分类器都根据它来判断性能。

我们将讨论贝叶斯定理的三个主要应用：

朴素贝叶斯分类器判别函数和决策面贝叶斯参数估计

让我们详细查看每个应用。

朴素贝叶斯分类器

这可能是贝叶斯定理最著名的应用，甚至可能是最强大的。在机器学习中你会经常遇到朴素贝叶斯算法。

朴素贝叶斯分类器是基于贝叶斯定理的一组概率分类器。这些分类器的基本假设是，用于分类的所有功能都彼此独立。那就是“朴素”这个名字的来历，因为很少有我们获得一套完全独立的功能。

这些分类器的工作方式与我们在插图中解决的方法完全相同，只是假设了更多相互独立的特性。

这里，我们需要找到概率P(Y|X)其中X是一个n维随机变量，其组成随机变量X1, X2，…， X_n相互独立:

类似的，因为条件独立

代入(1)，得到

最后，P（Y | X）最大的Y是我们的预测类。

判别函数和曲面

这个名字很不言自明。判别函数用于将其参数“区分”到其相关类中。想要一个例子吗？那就来一个！

如果你研究过机器学习中的分类问题，你可能会遇到支持向量机(SVM)。支持向量机算法通过寻找最佳分离训练样本的微分超平面来对向量进行分类。这个超平面可以是线性的，也可以是非线性的:

这些超平面是我们的决策平面，这个超平面的方程是我们的判别函数。

好了-现在让我们正式讨论这个话题。

w1，w2，…..，w_c表示我们的数据向量X可以分类的c个类。然后，决策规则变为：

对于所有j≠i，如果g_i（X）> g_j（X），则确定w_i

这些函数gi(X) i = 1,2，…，称为判别函数。这些函数将向量空间分割成c决策区域——R1, R2，…， Rc对应于每个c类。这些区域的边界称为决策面或边界。

如果gi(X) = gj(X)是c判别函数中最大的值，那么将向量X划分为wi类和wj类是不明确的。因此，X位于一个判定边界或曲面上。

查看下图：

这是个很酷的概念，对吧?将二维向量空间分成R1和R2两个决策区域，用两个双曲线将两个决策区域分隔开。

注意，如果f(.)是一个单调递增的函数，那么任何函数f(g_i(X))也可以用作判别函数。对数函数是f(.)的常用选择。

现在，考虑两个类别的情况下使用类w ^ _1和W_2。“ 最小错误率分类 ”决策规则变为：

如果P(w_1|X) > P(w_2|X)，则判定w_1，否则判定w_2 P(error|X) = min{P(w_1|X)，P(w_2|X)}

P(w_i|X)是一个条件概率，可以用贝叶斯定理来计算。因此，我们可以根据可能性和先验来重申决策规则:

如果P(X|w_1)*P(w_1) > P(X|w_2)*P(w_2)，则判定w_1，否则判定w_2

请注意，分母上的“证据”只是用于缩放，因此我们可以从决策规则中消除它。

因此，判别函数的一个明显选择是：

g_i(X) = P(X|w_i)*P(w_i) 或 g_i(X) = ln(P(X|w_i)) + ln(P(w_i))

两类情况一般可用一个判别函数进行分类。

g(X) = g_1(X) - g_2(X) = ln(P(X|w_1) / P(X|w_2)) + ln(P(w_1) / P(w_2)) 判断w_1，如果g(X) >为0 判断w_2，如果g(X) < 0 如果g(X) = 0，则X位于决策面。

在上图中，g(X)是二维向量X中的一个线性函数。然而，更复杂的决策边界也是有可能的:

贝叶斯参数估计

这是贝叶斯定理的第三个应用。我们将使用单变量高斯分布和一些数学知识来理解它。不要担心它看起来很复杂——我已经把它分解成容易理解的术语。

你一定听说过超级流行的IMDb Top 250。这是250部有史以来最受欢迎的电影。《肖申克的救赎》在榜单上排名第一，评分9.2/10。

你认为这些评级是如何计算的?IMDb使用的原始公式声称使用“真正的贝叶斯估计”。此后，这个公式发生了变化，没有公开披露。下面是之前的公式:

W=加权评级

R=从1到10的电影平均(平均值)=(评级)

v=电影的投票数=(投票)

m=进入前250名所需的最低票数(目前为25,000)

C= 整个报告的平均投票数(目前为7.0)

最终评级W是R和C的加权平均值，分别用权重v和m表示。m是先验估计。

当票数v增加并超过m时，所需的最小票数W接近电影的平均票数R当v接近于0(投给电影的投票数更少)，W接近所有电影的平均评级，C

我们通常没有关于分类问题的概率性质的完整信息。相反，我们对情况有一个模糊的概念，以及一些训练的例子。然后我们使用这些信息来设计一个分类器。

基本思想是潜在的概率分布具有一个已知形式。因此，我们可以使用参数向量Θ对其进行描述。例如，可以用Θ= [μ，σ²]描述高斯分布。

然后，我们需要估计这个向量。这通常通过两种方式实现:

最大似然估计（MLE）：假设是底层的概率分布p(Θ)未知但固定参数向量。最佳估计最大化似然函数:

p (D |θ)= p (x1 |θ)* p (x2 |θ)* ....* p (xn |θ)=相对于样本D集合的θ似然

贝叶斯参数估计 –在贝叶斯学习中，Θ是一个随机变量，而不是MLE中的“未知但固定”值。我们使用训练的例子将此变量的分布转换为后验概率密度。

我们可以将其非正式地写为：

P（Θ|数据）= P（数据|Θ）* P（Θ）/ P（数据），其中数据表示训练示例集

你需要知道的关键点：我们假设概率密度p(X)是未知的，但具有已知的参数形式。因此,可以说,p (X |Θ)完全是已知的我们可能拥有的关于Θ的任何先验信息都包含在已知的先验概率密度p（Θ）中我们使用训练样本来找到后验密度p（Θ| data）。这应该在Θ的真实值处急剧达到峰值贝叶斯参数估计的证明–单变量高斯案例

让我来演示一下贝叶斯参数估计是如何工作的。这将进一步明确我们刚才提到的理论。

首先,让p (X)是正态分布的均值μ和方差σ²,μ是唯一我们希望估计未知参数。然后:

p(X|Θ) = p(X|μ) ~ N(μ, σ²)

我们将在这里简化数学。因此，让先验概率密度p(μ)也是正态分布与平均µ和方差σ²(这都是已知的)。

在此，将p（Θ| data）= p（μ| data）称为繁殖密度，将p（Θ）= p（μ）称为共轭先验。

a是归一化常数

由于样本是相互独立的，

带入（2）

现在，我们把概率密度替换成我们一开始描述的那样

由于exp（）中的此参数是μ的二次方，因此它表示一个正常的密度。因此，如果我们有n个训练示例，我们可以说p（μ| data）正态分布为均值μn和方差σn²，其中

以下是我的观察：

随着n的增加，σ_n²减小。因此，我们估计中的不确定性降低由于不确定性降低，因此密度曲线在其平均值μ_n处急剧上升：尾注