一天我偶然刷知乎刷到这样一个问题,细想之后,觉得值得和大家分享我的理解:假设某市流行一种病,发病率是0.1%。在某地的医院中有一个神医,特别擅长诊断该病。神医做出正确判断的概率是99%。(神医并不清楚发病率,做出正确判断的概率实在实验室得出来的。对于检查是否患病的人,他的正确率不变。)有一次你去看病,神医诊断说你有这个病。请问你真正有这个病的概率是多少?
问题作者借此题说了他的贝叶斯模型的思路,并认为这样想理所当然。我看了以后,觉得贝叶斯确实是一个流行的好想法,但是却并不是唯一想法,联想到一些其他思路和对模糊的题意理解方式,我认为有三种学派和理解以及四个不同答案,而且,不仅答案值不一样,他们相互之间并没有可比性,因为他们对题中要求的答案的定义都完全不同。
频率学派认为,自然界的某些性质会保持不变,这些性质被叫作“参数”的东西记录下来,这个玩意的变量特性是常数,往往是未知而不变的。而这些性质唯一的观测方式就是由带有这个性质的系统产生的变量。比如人群的身高期望,硬币正面向上的概率等,通过抽一群人测身高,扔一堆硬币,我们可以就可以比较准确的计算人群身高和硬币正面向上概率这两个性质。
贝叶斯学派清晰地意识到了客观世界之复杂,变量直接的影响关系往往顺序地有好几个层次,并不像一般地参数-随机变量这样单一。而他们的具体建模方式是:一个对象既可以作为某个分布的随机变量结果,也可以作为下一个分布的参数或到此终止。至于有多少层次和相互的因果关系法则,这要看具体的实际问题假设来构建,频率学派的一层模型仅仅是最简单的特例。
香农信息学派泛指熵的引入,以及无向图模型的系统描述方法等一系列成果。香农同学在他的硕士研究论文中奠定了直到今天还在沿用的信息论基础,在统计学中的意义即是,统一了市面上给出的几乎所有的分布表达式的共同源头:最大熵模型,并且逐渐总结出了指数分布族这样的工具方便地对任意分布形式进行建模。