根据古犹太律法,如果受审嫌疑人被所有法官一致判为有罪,那么该嫌疑人会被无罪释放。这一推论听起来违反直觉,但当时的立法者已察觉到了一致性同意通常意味着审判程序中存在系统误差,哪怕他们还不知道是什么误差。他们以直觉推断到,如果什么事情好得简直不真实,其中多半有误。
在一篇发表在《英国皇家学会学报A》上的文章中,来自澳大利亚和法国、由拉克伦·J·冈等人组成的研究团队深入研究了这一概念,他们将其称为“一致性悖论”。全体一致性通常被认为是可靠的。但其实让数量庞大的人群都达成一致的概率很小,所以我们对一致性的信念站不住脚。‘一致性悖论’表明,我们通常远远不如自己以为的那样确定。
研究者以现代警察局的“证人辨认”环节为例展示了这一悖论,目击者要尝试在站成一排的几个人里指证出嫌疑人。研究者证明,当意见完全一致的目击者数量增加时,他们正确的几率会降低,直到与随机猜测的正确率相差无几。在警察局的辨认里,系统偏差可能是任何一种偏向,比如队列被呈现给目击人的方式,或者目击者自有的个人偏见。重要的是,研究者展示了甚至是极其微小的偏差也会为整体结果带来巨大影响。
这一现象发生的数学原因可以在贝叶斯分析中找到解释,只需一枚两面重量有偏差的硬币就能用最简单的方式理解。如果一枚有偏硬币被设计成投掷时55%的时候正面朝上,那么当记录了足够的硬币投掷结果后,你就能看出正面朝上的次数大于背面朝上。这一结果不代表概率定律在二元系统中发生改变,而是这一系统自己失效了。同理,根据概率定律,让数量庞大的目击者群达成一致意见的可能性太小,所以更有可能是系统本身不可靠。
研究者说,这一悖论意外出现的次数比我们所想的更频繁。人数众多的一致性同意在某些特定情境中仍是好事,但只在零偏差或近零偏差的前提下。阿伯特举例,让目击者们从一排香蕉中指出苹果——此任务简单到几乎不可能出错,因此众多人一致同意的情况就变得十分有可能。
除了在法律领域,一致性悖论还有其他许多应用,研究者在论文中讨论的一项重要用途是密码学。数据加密经常通过辨认对方提供的一些天文数字是合数还是质数来进行。
其中一种实现方法即重复名为拉宾-米勒检测的概率检测,直到合数被误认为质数的概率变得极低。这种情况下发生的系统失误则是计算机故障。大多数人从未考虑过这种可能性:一束外来的宇宙射线可能会翻转一个比特位,转而导致计算机检测将一个合数误作质数。毕竟此事件发生的概率极小,每月约为。但重要的是它比大,所以就算失误率如此微小,它仍对所期望的安全水平有决定性影响。
因此,加密协议可能不如看起来那么安全——毕竟,那些显示高安全水平的检测结果实际上更有可能代表着计算机故障。为了真正达到所需安全水平,研究者建议这类“隐藏”错误一定要尽可能减少到向零靠拢。
一致性悖论或许违反直觉,但研究者解释说一旦我们拥有了完整信息,一切就变得合理起来。“同大多数‘悖论’一样,并不一定是我们的直觉糟糕,而是我们的直觉被灌输了不良信息,”阿伯特说。“在这些例子中,让我们吃惊的是我们普遍没意识到目击者的指证正确率实际上如此之低,也没有意识到在密码学中,计算机微小的错误率会如此意义重大。”
研究者注意到,一致性悖论和迪昂-奎因假说有所关联。后者表述为,科学假说不可能被独立检验,而总是被成组检验。比方说,一项实验不仅检验了某特定现象,还检验了实验仪器的校正功能。在一致性悖论中,失效的是方法(即“辅助假设”),而后削弱了主要结论的可信度。
其他领域中一致性悖论的出现不计其数且千差万别。下面是阿伯特原话讲述的一些例子:1)最近的大众丑闻是个绝佳例子。
大众公司偷偷设计了一种计算机芯片,让引擎在检测时以排放最低尾气的模式运行,但在现实中,汽车开上路时排放的尾气并不达标。尾气的低排放太一致,“好得不真实”。曝光大众的尾气检测小组首次产生怀疑,就是因为他们发现新车和车龄五年的汽车有着同样的排放水平!正是前后一致性暴露了不法芯片带来的系统偏差。2)在1933-2008年间,发生了一件其压倒性证据“好得不真实”的著名案例。
欧洲的警察在分布于法国、德国和奥地利的15处犯罪现场都采集到了同样的女性DNA。这名神秘杀手被称作海尔布隆魅影,警方从未能找到她。这些DNA证据长年一致且具有压倒性,可它们是错的。这最终被发现是一个系统误差。用来采集DNA样本的棉签被同一位女士意外污染——当她在工厂制造这些棉签时。3)当一届政府赢得了选举,有人不满自己支持的党派只以微小的优势险胜。我们总希望自己钟爱的政治党派以全票支持取胜。
然而,如果这一情况真的出现,我们就应当怀疑是操纵选票导致了系统偏差。一则都市传奇坚信普京曾赢得140%(!)的选票。如果确有其事,那么民主制度在此处明显失效。实用建议是,在健全的民主制度中,当一方政党并非靠中伤“愚蠢”的对方选民,而是以微小优势获胜时,我们应当为双方选民保有了民主的正直性而欢呼。4)在科学中,理论和实验紧密相连,一定得相互支持。在每个实验中总有“杂音”,因而我们必须期待误差的出现。
科学史中有不少著名实验,其结果“好得不真实”。有许多历年来一直处于争议的例子,最著名的当属密立根确定电子电荷的油滴实验,和孟德尔的植物育种实验。如果实验结果太过干净,不包含预料中的杂音和异常值,那么我们就有理由推测发生了确信偏误,由实验者择优挑选数据而引起。5)当今大型机构的许多委员会会议中,人们越来越倾向于认为决议必须全体通过。
比如说,一个为应聘者评级或评估关键绩效指标的委员会通常争论不休,直到房间里的所有人都达成一致。如果其中一两位成员不赞同,其余委员会成员往往要先说服他们,再进入下一项事宜。根据我们研究分析所给出的实用建议是,应该欢迎不同意见。一个明智的委员会应接受异议,如实记录分歧。分歧纪录不是负面而是正面的,它证明了出现系统偏差的可能性比较低。
6)尤金·维格纳曾经构造出短语“数学不合情理的有效性”来形容自己有些古怪的感受,认为数学用以描述物理定律时似乎匹配得太过完美。某种程度上,维格纳就是在表达数学“好得不真实”。现实是,现代装置和仪器不再靠简洁的解析数学方程式,而是由嵌入模拟软件工具的经验式来分析。对一些未来的重大科学问题而言,尤其是在复杂系统领域,我们更多依靠大数据和机器学习,而非数学。
既然我们所知的解析数学并不是解决每种问题都适用的万能钥匙,那我们又是为什么会一度认为数学拥有“不合情理的有效性”呢?这是由于我们阅读的每篇优秀科学论文都有着优美的数学公式,造成了系统性的确信偏误。其实还有更多被拒的公式从未被发表,我们也从未得见。我们今日所有的数学已经经历了择优挑选。