在每届世界杯⾜球赛开幕之际,都会有各路⼤咖为⼤⼒神杯的最终归属“算上⼀卦”,其中也少不了科学家⼿中的数学模型。⼗个不同模型就可能预测出⼗个不同冠军,像巴⻄队,阿根廷队,法国队都是被预测的夺冠热⻔。对于即将到来的2022年卡塔尔世界杯,英国⼀位流⾏病学统计研究者Matthew Penn却更看好⽐利时队,要知道⽐利时队在世界
杯历史上还从来没进过决赛。但这哥们绝不是在“瞎说”,⼀来⼈家有⾃⼰基于数据的概率模型,⼆来这个模型曾经在2020年欧洲杯的预测中⼤放异彩,当时准确地预测了意⼤利和英格兰会分别是冠亚军,并且预测对了⼋强球队中的六个。
在11⽉15⽇,Nature杂志慕名采访了这位预测⼤神,并公布了他使⽤同⼀模型预测的本届世界杯结果,各队夺冠的可能性⼤⼩如下:
球队
夺冠概率 (%)
1. ⽐利时
13.88
2. 巴⻄
13.51
3. 法国
12.11
4. 阿根廷
11.52
5. 荷兰
9.65
6. 德国
7.24
7. ⻄班⽛
6.37
8. 瑞⼠
5.29
9. 葡萄⽛
3.78
10. 乌拉圭
3.36
11. 丹⻨
3.17
12. 英格兰
2.56
13. 波兰
2.33
14. 克罗地亚
1.46
15. 墨⻄哥
0.67那么这些欧洲杯和世界杯的预测结果是怎么获得的呢?
简单说是来⾃于每场⽐赛的掷骰⼦,却⼜不是简单的掷骰⼦,⽽是⼀种泊松概率分布。我们投掷⼀枚普通骰⼦,会得到1点到6点中的任意⼀个,并且六种结果的可能性是相等的,称为均匀概率分布。
⽽对于泊松概率分布,我们考虑这样⼀种情况:假设街边有⼀家⽣意并不怎么好的⼩店,每天经营10个⼩时,平均每天可以来30个顾客,那么平均每⼩时就只有3个顾客,还假设顾客都是随机选时间来的,并没有“客流⾼峰”,如果任意挑选其中营业的⼀个⼩时,来的顾客⼈数⼀定是3个吗?显然也不⼀定,这次碰巧可能⼀个⼈也没来,下次碰巧可能⼀下⼦来了⼗⼏个⼈。
⽽法国数学家泊松给出了下⾯这⼀公式:λ=3表示了平均值,P则表示了这⼀⼩时的时间段来了k个⼈的概率⼤⼩,e是⾃然常数。在泊松眼中,这家⼩店⼀⼩时内恰好来了3位顾客(平均⽔平)可能性是22.4%,⽽⼀个⼈没来的概率是4.98%,来了很多⼈的概率同样存在,但可能性很⼩,⽐如来了10个⼈的概率是0.08%,其它⼈数的概率也可以⼀⼀算出,像下图中所显示的那样。
在现实中,泊松概率分布其实⽆处不在,很多真实数据都和这⼀分布惊⼈的相似。其中包括了核物质每秒放射性衰变的次数,地震等⾃然灾害发⽣的次数,公共场所排队的⼈数,机器出现的故障数,每年⻜机坠毁次数,某地区患病的⼈数,城市各区域犯罪案件发⽣数量,甚⾄是普法战争期间普鲁⼠⼠兵被⻢踢死的⼈数等等。⽽在Matthew Penn的模型中,泊松概率分布⽤来表示了每场⾜球⽐赛中某⼀⽅的进球个数。
⼀场⽐赛的胜负和⽐分⾃然同时取决于双⽅的实⼒和运⽓,确定性之中⼜充满了不确定性。为了衡量各球队实⼒,模型中给每⼀⽀球队分别设置了“攻击⼒”和“防守脆弱性”指数,前者数值越⾼越容易进球,后者数值越⾼表示越容易丢球,防守⼒越弱。对此,各种⽹游桌游的玩家⼀定不会陌⽣,⽽在更遥远的时代,⽅便⾯⾥赠送的《⽔浒传》英雄卡上也
也都标记了每位好汉的攻击⼒和防御⼒。很显然,⼀等球队攻击⼒强,防守脆弱性低,⼆等球队攻击⼒弱,防守脆弱性低,或者反之,最差的⼀类球队攻击⼒弱,防守脆弱性⾼。如果球队A和球队B⽐赛,按照“最合理最应该”的发挥,A队期待的进球数是A的攻击⼒乘以B的防守脆弱性,B队期待的进球数是B的攻击⼒乘以A的防守脆弱性。
假设说A队攻击⼒是12,防守脆弱性是0.1,B队攻击⼒是6,防守脆弱性是0.2,两队的“正常”⽐分是2.4:0.6, 也就是约为2:1。但⾜球是圆的,我们只能认为2:1是最有可能⽐分,还有其它各种可能性,于是就将A队的进球数的不确定性看作⼀个以2.4为平均值的泊松概率分布,B队的看作是⼀个以0.6为平均值的泊松概率分布,各种可能⽐分的概率⼤⼩取决于两个进球数概率值的乘积。
当然⼀个最关键的问题还没有说,每个球队的攻击⼒和防守脆弱性的值⼤⼩到底怎么确定呢?答案是根据最近⼏年来各队之间的历史战绩,不断调整两个数值,使得预测的⽐分概率分布与实际记录的统计分布尽可能吻合。这样,在世界杯上任何两⽀球队之间交⼿时,各种⽐分出现的可能性都已经事先可以⼤致预测出来,模拟整个赛程,最后确定世界杯各队的夺冠概率也就成为了可能。
泊松概率分布在光学领域也是个“常客”,不过更是个经常制造麻烦的“刺头”。概率的不确定性给⾜球⽐赛带来的是惊喜,悬念和刺激,给光学成像带来的更多是带来难以忍受的捣乱噪声信号。⼀束光可以看作是由很多个微⼩光⼦组成的,均匀照亮⼀张⽩纸后,看似纸上各处强度都很⼀致,但实际上纸的每个位置反射的光⼦数量会各不相同,⽽光⼦数量的多少也对应着光照明暗的差异。
即使同⼀位置,不同时刻反射的光⼦数量也会不断有涨落起伏,都遵循着泊松概率分布。对于相机来说,每次落到传感器上的光⼦数分布同样具有泊松概率的不确定性,不可避免引⼊了散粒噪声,并且⼏乎⽆论怎样完善地设计⼀款相机,都⽆法直接去除这种噪声。
根据泊松概率分布公式,光⼦数相⽐于平均数量上下起伏的波动程度⼤⼩会随着光⼦数平均值的平⽅根增⼤⽽增⼤,但光⼦数平均值正⽐于想要接收信号的⼤⼩,所以当光强度变⼤(光⼦数增加)时,虽然散粒噪声在变⼤,信号与噪声的⽐例却也会变⼤,最后看到的图像整体还是会更清晰。
然⽽在很多应⽤中,增加信号光的光⼦数或者强度是徒劳的,⽐如在户外使⽤⽆⼈⾃动驾驶汽⻋的激光雷达时,有时⽆论怎样增加激光雷达的光信号强度,⽐起太阳光都是“⼩巫⻅⼤巫”,此时去除噪声的⼀个办法是对没有任何⽬标物体的空⽩场景记录⼀次信号,作为背景噪声,之后每次记录时,都去掉这⼀静⽌不变的背景噪声。可是⾯对太阳光这⼀本身强度很⼤,⼜在以泊松概率分布不断动态变化的⼲扰信号,这⼀招也不灵验了。
⽽在使⽤X光的CT医学成像中,为了提升信噪⽐,加强X光照射强度也不可⾏,因为过量的X光剂量对⼈体是有害的。⽽即使在可⻅光的情况下,⼀些活细胞显微镜观测中,过亮的光照也⾜以杀死细胞,或者使细胞功能失常。
2022年的诺⻉尔物理学奖使得量⼦信息领域再次备受全球关注,其中相关的技术之⼀的量⼦保密通信可以提供理论上⾮常强的密钥安全性,但实际中需要满⾜的条件是拥有每次只⽣成单个光⼦的光源,“⼀个也不能多,⼀个也不能少”,可实际中往往发射的⼀个激光脉冲中包含的光⼦数量本身也是泊松概率分布的,如果将平均值设为0.1个,有不少时候光源并没有发出光⼦,还会有少量时候发出两个或者更多个光⼦,这会使得量⼦通信系统没有理想中的那么⾼效和安全。
不过办法总⽐困难多,就像从混乱的进球数可能性中寻找到冠军球队的蛛丝⻢迹⼀样,⾯对神出⻤没的泊松概率分布噪声,研究者通过深度学习⼈⼯智能算法可以将拍到的照⽚中噪声完美去除,做到完好⽆缺的修复。⽆论预测⽐赛⽐分,还是去除图⽚噪声,都离不开⼤数据作为参考,随机性的迷雾被异曲同⼯地层层拨开。