贝叶斯定理可以准确地量化所观察到的数据改变我们信念的概率。简单来说,我们想量化的是:在所观察到的数据下,自己对信念的坚信程度。在贝叶斯公式中,这个要素的术语是后验概率(posterior probability,简称为“后验”),也就是将通过贝叶斯定理所求出的解。
为了得到后验概率,还需要用到下一个要素:似然(likelihood)。它表示在给定信念的情况下,观察到某一数据的概率,也就是 (数据 | 信念)。
最后,需要量化初始信念的概率,即 (信念)。这一要素在贝叶斯定理中被称为先验概率(prior probability,简称为“先验”),它表示我们在看到数据之前的信念强度。似然和先验结合在一起就会形成后验。通常情况下,我们需要使用数据的概率 (数据) 对后验归一化,从而使其值介于 0 和 1 之间。
你已经知道,我们将信念称为假设,并用变量来表示数据。图 8-1 展示了贝叶斯定理的各个要素。
本文中,我们将调查一起犯罪案件,并结合这些要素进行推理。
调查犯罪现场
假设,一天你下班回家后,发现家里的窗户玻璃碎了,前门开着,你的笔记本计算机也不见了。你的第一反应可能是:“家里被盗了!”但你是如何得出这个结论的?更重要的是,你如何量化这个信念呢?
你的第一反应是家里被盗了,所以这里被盗。我们需要一个概率来描述家里被盗的可能性有多大,所以根据现有的数据,想要求解的后验是:(被盗 | 窗户玻璃碎了, 前门开着, 笔记本计算机不见了)
为了解决这个问题,我们需要补充贝叶斯定理中缺失的部分。
1. 求解似然
首先,需要求解似然,具体到这个例子也就是,如果家里真的被盗了,同样的数据会被观察到的概率。换句话说,也就是数据与假设的吻合程度:(窗户玻璃碎了, 前门开着, 笔记本计算机不见了 | 被盗)
这里,我们问的是:“如果发生了盗窃,那么你看到当前这些数据的概率有多大?”
2. 计算先验概率
接下来,我们需要确定家里被盗的概率。这也是本例的先验概率。先验概率非常重要,因为它允许我们使用背景信息对似然进行调整。
3. 归一化数据
我们的公式中还缺少所观察到的这些数据发生的概率,无论家里是否被盗。在这个例子中,这是指无论出于什么原因,同时观察到“家里窗户玻璃碎了,前门开着,并且笔记本计算机不见了”的概率。
考虑备择假设
现在提出另外一个假设,并将它与原来的假设进行比较。新假设包括以下 3 个事件。
(1) 邻居家孩子把棒球打到了窗户上。
(2) 你离开家时忘了锁门。
(3) 你忘了自己带笔记本计算机去上班并把它落在了办公室。
我们用事件前面的编号来指代这些事件,并将它们统称为,所以。现在求解这些数据的似然和先验概率。
1. 备择假设的似然
对似然,我们想计算的是在给定假设下所观察到的事件的概率,或者说是。有趣的是,这个假设的似然是 1:。
2. 备择假设的先验概率
先验概率表示的是这 3 个事件都发生的可能性,这也意味着需要先计算出其中每个事件的概率,然后通过乘法法则来确定先验概率。
3. 备择假设的后验概率
我们知道似然等于 1,所以如果第二个假设是真的,那么我们就一定会看到这些数据。
4. 比较非归一化的后验概率
首先,我们需要求出两个后验概率的比值。比值能够告诉我们一个假设的可能性是另一个假设的多少倍。
虽然这无法单独得出一个有意义的假设概率值,但我们仍然能够使用贝叶斯定理的这一形式来比较假设。