阿根廷输球了,别急,有人说他们能夺冠!

作者: 柚子

来源: 果壳

发布日期: 2022-11-23 16:34:01

本文讨论了阿根廷在2022年卡塔尔世界杯的表现,以及通过FIFA 23游戏模拟出的比赛结果。文章详细介绍了预测足球比赛结果的方法,包括使用机器学习算法如随机森林和泊松分布,以及考虑社会经济因素和天气条件等。同时,文章也提到了预测的不确定性和体育赛事中的偶然性,强调了体育竞技的乐趣在于其不可预测性。

阿根廷在2022年卡塔尔世界杯决赛以1-0击败巴西,梅西打进唯一进球,帮助阿根廷队获得1986年以来的首个世界杯冠军。整个世界杯期间,梅西在7场比赛中踢进8个进球,荣获金靴奖(进球最多),金球奖(最佳球员)称号。巴西队、法国队分别获得亚军和季军。以上结果是由足球游戏FIFA 23模拟出来的。不过不少球迷买账。FIFA游戏曾成功预测过往三届世界杯的冠军。

也不怪其制作商EA扬言:大家可以不用看世界杯了,因为它已经“剧透”过了。你会发现,每逢世界杯这样的大赛,各种“预测”就成精了,什么AI啊,大模型啊,又高科技啦(也有低科技的,还记得章鱼保罗么?)……这些“先知”凭啥那么“自信”?近年来,包括足球在内的体育比赛大都通过传统统计学、机器学习方法来预测结果。预测机构会收集球队过往比赛的数据,将能够影响比赛的因素数据结构化。

结合博彩公司的盘口和赔率,利用机器学习算法进行建模,最后跑出结果。常用的算法有“随机森林(Random Forests)”,平时常用于市场营销和医疗保险领域的计算。简单来说,这套系统要建立一个“森林”,里面种很多棵“树”(通过子样本集合训练出的),当有一个新的输入样本进入,每一棵树分别进行预测,给出自己的答案。再通过“民主投票机制”(比如取平均数等)得出结果。

另一种常用的办法是“泊松分布(Poisson Distribution)”,用来模拟一个离散事件在连续时间内发生次数的概率分布。真实生活中,很多场景与“泊松分布”相关,比如电商网站在某段时间内的点击率;放射性元素每秒内衰变的粒子个数;工厂机器人出现故障频率等等。应用在球赛中,能根据历史数据推演出的每个球队的攻击力和防守力,预测出一个球队的进球概率。

机器学习,就是一个从已有数据中发现和学习潜在规律的过程。一个复杂的机器学习模型,会根据纳入的数据特征采用多种算法。有一个国际研究团队在今年世界杯看好阿根廷的死对头——巴西,首先他们做了一个球队的实力统计模型,利用泊松分布算法基于过去八年的国际赛事数据,预估团队当前的能力。但并不是一个过往“战绩”的平均值计算,越近的比赛结果被赋予越多权重。“未来实力”的预估还包括28家国际博彩公司的赔率。

结合更多数据维度,球队市场价值,国际足联排名,球队结构所代表的球队特征,以及人口和人均GDP所代表的国家特征,构建一个随机森林模型。这个团队给出的最终结果是,巴西有15%的胜率夺冠,其次为阿根廷、荷兰、德国和法国。数据维度的选择很重要。数据量和数据维度会造成预测结果的大相径庭。国际足联排名这样的数据维度很好理解。但为什么很多预测模型中还要加入社会经济因素?

英国投行Liberum Capital的分析师Joachim Klement曾经成功预测2014年和2018年的世界杯冠军,他拿“人均GDP”举例:国家不能太穷,想要培养足球人才,基础设施和足球场必不可少;但国家太富裕的话,孩子们又有足球以外太多的运动选择了。“人口”这一因素只有在足球是主流文化的地区才会起作用,比如拉丁美洲。

2018年的世界杯亚军克罗地亚,其总人口只有400万,是欧洲的一个小国家,但整个国家的足球系统对青训的投入极大。社会经济因素也会影响足球赛事结果。(国家所在)天气也是一个重要因素。太冷太热都不被看好(看看东道主卡塔尔队),理想温度是14℃,或大致相当于欧洲南部和南美大部分地区的年平均温度。这么一说,除了英格兰(1966)和德国(1964、1974、1990、2014),历届世界杯冠军都符合这一点。

而最难衡量的,是“主场优势”。可能是更熟悉的场地,本国粉丝们的打气,甚至是“主场哨”。至今只有卡塔尔作为东道主输了揭幕战——可见主场优势虽然解释不清楚,但影响却真实存在。一场比赛结果的判断依据,确实与历史表现有很大关系。但所有预测模型都会加上那样一句提示:“不保准儿哦~”足球比赛中,决定结果的意外因素实在太多。

因为卡塔尔夏季的高温,此次世界杯不得不推迟到冬季,这一下子打乱了各国足球联赛的日程,令球员们也难以适应。“各个国家队备战的时间更少,压缩球员在世界杯前的恢复时间,再加上卡塔尔的气候条件,增加了球员受伤的风险。”之前看好巴西夺冠的那个研究机构说。大多数预测机构的看法类似。由于备战、磨合时间更少,以打配合取胜,队员实力均衡的队伍,比如西班牙和德国,优势就小了。

而对于像C罗、梅西这样个人能力出众的运动员,影响相对小些。但是另一面,对于他们的年龄来说,身体的疲劳将成为一个左右比赛结果的重要变量。体育数据提供商Opta看好巴西,给出15.8%的夺冠概率,高于阿根廷(12.6%),法国(12.2%)。可就在今年6月,他们还一口咬定法国是夺冠热门。他们给出的“改口”理由是:法国队的士气和团队合作出现周期性下滑,这显然来自于最近的观察。

所以预测这种事,还是时间离得越近,准确性越高。甚至直到比赛开始,预测依然在变。大数据公司FiveThirtyEight有一个“SPI指数”(足球强度指数),对每一赛事做提前预测。但是赛场实时动态,也会被他们考虑进去,实时计算出剩余时间内两队可能的比分情况——如果你平时关注现在的一些欧洲联赛,转播画面上已经出现了实时预测比赛结果的信息。他们举了一个例子。2014年,巴西对克罗地亚。

比赛之前,根据过往SPI,模型给了巴西队86%的获胜几率。比赛开始的11分钟,巴西队后卫不幸上演乌龙,将对手原本射偏的射门踢入自家球门,巴西队以0-1落后。随即,模型调整比分预测,算出巴西仍有机会扳回来,以58%的几率获胜。根据以往的观察,他们得出一个结论:优秀的球队在开局短暂地落后,往往能被激发潜力,以更大比分优势获胜。球队越优秀,“戏剧性”就越强。

所以他们再次调整了实时比分预测,认为巴西将有66%的机会赢得比赛。最终的战绩是3-1,很准。这类加入“实时计算”的模型,比单纯的“AI找规律”,更准了一些。但足球比赛是否真的能够“预测”?AI依托于大数据,搭建机器学习模型给出一个看似最有可能的结果,给了一个让人们“买单”的理由——用数据说话。“即使采用最先进的统计技术,预测仍然非常不确定,因为足球是一场难以预测的比赛。

”高盛撰写其2018年世界杯预测报告时,就是这样说的。也就是说,分析师绞尽脑汁算出的预测和赔率,最后一瞧,还不如“章鱼保罗”靠谱。一半科学,一半玄学。“保罗”预测胜负的方法,是选择印有代表不同球队国旗的玻璃缸,取出预先放入玻璃缸内的贝壳。在2010年的南非世界杯,保罗8次猜测全中,包括决赛西班牙击败荷兰夺得冠军。相比之下,知名“乌鸦嘴”球王贝利,屡战屡败。科学还是玄学?哪有什么道理可言。

卡塔尔当地的一名训鹰师,用猎鹰对卡塔尔与厄瓜多尔的世界杯揭幕战进行了预测。他将卡塔尔和厄瓜多尔两国国旗分别绑在两架无人机上,再给国旗绑上食物。然后放飞猎鹰,看它会挑选哪国国旗。结果只见猎鹰展翅飞翔,但与卡塔尔国旗擦身而过,最终选择了厄瓜多尔国旗。偶然性大的体育赛事中,向来没有什么“一定准确”的预测方法。当比赛结果与权威,甚至大多数人判断相左,我们也只能愤慨一句:“这不科学!

”而这,也是体育竞技的乐趣之一了。

UUID: a5bf4410-09ba-4f19-b22e-52ef5245153f

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2022/果壳_2022-11-23_阿根廷输球了,别急,有人说他们能夺冠!.txt

是否为广告: 否

处理费用: 0.0080 元