人们热衷于找到与事实相符的解释,而且越符合越好。但这对于我们了解周围的世界来说,往往是种糟糕的方式。想象一下,年轻健康的你正在医院接受定期体检。医生为你做了一项排查罕见疾病的新检查。患此病的人很少,只有约2.5%,但最好还是通过检查来确保自己没事。这个检查本身也有高达80%的准确率。但就是那么不幸,你的检查结果呈阳性。对此你会作何感想?大部分人都会对此感到忧心忡忡。
因为最符合对这一事实(阳性结果)的解释显而易见——你得了这种病。阳性的检测结果表明,你患有此病的可能性(80%)比没有患此病的概率(20%)要大得多。但这种担心并非是全然合理的。假设图中的200个点代表200个人,你是其中之一,但不确定你是哪一个。5个红点代表着2.5%的患者。让我们对每个人都进行检测,并用圈圈出检测结果为阳性的人。
因为这项检测的准确率为80%,因此我们从5例阳性结果中圈出4例(80%),再从195例阴性结果中圈出39例(20%)。这时,你会发现在这个圈中的43人里,像你一样患有此病的人只有4人(约9%);其余的都是假阳性。贝叶斯概率考虑的是能够造成你眼前的证据的不同可能性。就你的情况而言,可以是你患有此病,经正确检测后结果呈阳性。这种情况发生的概率是2.5% x 80% = 2%,即概率为1/50。
你没有患病,检测错误报告了阳性结果。发生这种情况的概率是(1-2.5%)x 20% = 19.5%,约为1/5。贝叶斯推断会比较这些事件的概率,看看哪种情况更有可能。在这种情况下,你没有患病的可能性是你患病可能性的10倍。在犯罪学、产品推荐、人工智能,以及最近在搜寻失踪的马航MH370航班时,都会用到贝叶斯定理。对于马航事件,被考虑的不同可能性的数量是非常巨大的,它涉及到无限个潜在的坠机点范围。
虽然数量巨大,但计算原理是完全相同的。假设有一个巨大的搜索位置网格,每个位置都有一个先验概率。这些概率可以是基于飞机的燃料水平和最后的已知方向而计算得出的。MH370也曾与一颗卫星进行过通信,国际海事卫星组织的人员也利用这些数据来缩小搜索范围。
对于搜索空间中的每个区域,我们根据“如果飞机在那个地方坠毁,会有多大的可能性能看到卫星数据”,来将每个搜索区域与一个数字联系起来:这个数字就是似然(likelihood)。贝叶斯推断告诉我们,将似然乘以先验值,就能得到后验值。后验值告诉了我们搜索空间中每块格子的相对重要性:搜索人员可以从后验值最高的区域开始搜索。如果没有在这片区域找到飞机,那么这就可以作为证据用来更新与每个搜索区域相关的概率。
这是一个非常简单,但却异常强大的方法。而且如果有天当你的医生告诉你一些坏消息后,想想贝叶斯推断,或许能让你感到安心一些。