近日,科学家用统计学中常用的“双泊松”统计模子评估卡塔尔世界杯中球队的进攻和防卫实力。根据模子统计成果,巴西队与比利时队最有看夺冠。
因为,巴西队曾在 1958 年、1962 年、1970 年、1994 年、2002 年五次夺得冠军。不只如斯,在曾经的角逐中,巴西队无论是进攻指数仍是防备指数都首屈一指。
动图 | 球赛中球员的现实跑动道路与模子揣测的镜头之外的球员跑动道路(来源:DeepMind)
高科技不只改动了足球队员们比照赛的认知,也改动了球员阐发敌手与锻练培育提拔球员的体例。在此过程中,揣测足球角逐成果也成为球迷们热衷的工作。为此,统计学家不断勤奋地觅觅差别的体例对进球和失球数停止建模。
据领会,该模子由英国牛津大学数学与统计学博士生马修·佩恩(Matthew Penn)开发,通过火析队员过往的进球数和失球数等表示,准确地揣测出角逐成果。它曾在 2020 年欧洲足球锦标赛上准确揣测到意大利可以击败英格兰。
虽然科学家不断在不竭开发新的揣测办法,但因为该模子聚集了所有其它模子的优势,并能够产生高量量的成果。因而,它不断是揣测足球比分的热门抉择之一。
图 | 利用“双泊松”模子揣测卡塔尔世界杯各队夺冠的可能性大小(数据来源:Nature,造图:DeepTech)
展开全文
进攻与防卫指数确定泊松概率
2022 年 5 月 19 日,颁发在 PLoS One 上的一篇论文,曾对“双柏松”统计模子做出过详尽的阐发,论文题为《揣测 2020 年欧洲杯角逐成果的双泊松模子阐发》(Analysis of a double Poisson model for predicting football results in Euro 2020)为题。
(来源:PLoS One)
论文中指出,在该模子中,每个球队的进球数都能够被换算成泊松概率散布。而且,通过该模子能够统计出球队在比胜过程中的进球个数,其均值取决于球队的进攻和防卫才能。
现实角逐的过程中,除了两边的综合实力,还受命运等外在因素影响,因而成果具有不确定性。考虑到那点,在用“双泊松”模子描述球队程度时,会提早设置“进攻”与“防卫懦弱性”指数。
此中,“进攻”指数越高表达球队进球越随便,“防卫懦弱性”指数则相反,越高表达进球越难。
在获得“进攻”与“防备懦弱性”指数后就能算出“泊松概率散布”均匀值。“双泊松”模子中设定差别的球队能够根据各自差别的“双泊松”过程得分,并将 A 和 B 球队的预期进球得分设定为 μ(A,B)。
需要重视的是,统计模子在计算的过程中会将进球速度看做是恒定的,也不考虑进球的详细时间,只需要考虑进球数。
此外,“泊松概率散布”的计算过程利用了“无记忆”假设,即一个进球不会影响角逐其余的进球数。那些凡是是模子的潜在错误来源。
图 | 列国赢球概率揣测(来源:Matthew Penn)
同样值得重视的是,在那个模子中,没有对主客场角逐停止区分。也就是说,无论角逐在哪里停止,A 队对 B 队的预期进球数都将等于 μ(A,B)。那是一个简化的假设,不只削减了参数的数量,并且制止了小数据集的过度拟合。
事实上,因为差别球队之间的相联系关系成果数量很少(此中许多球队底子没有停止过角逐),会根据情状削减模子中的参数数量。
预估球队分数
接下来,在计算差别球队估量进球数的过程中,模子默认球员都根据最抱负的情状发扬。“估量进球数”等于 A 球队的进攻指数乘以 B 球队的防卫懦弱性指数,在计算 B 球队的进球数过程中也是如斯。
例如,A 球队的进攻指数是 8,防卫懦弱性指数是 0.4;B 球队进攻指数是 10,防卫懦弱性指数是 0.6,两边的得分为 4.8:4(模子默认为 5:4)。
但是,因为比胜过程中充满不确定因素,A 队 4.8 的进球数与 B 队 0.6 的进球数都被当做均匀泊松概率散布。所有比分的概率大小取决于两个进球数概率值的乘积。
A 和 B 球队进攻力和防卫懦弱性指数都是根据球队过往的表示与分数综合地确定,需要不竭更新与调整,将揣测的柏松概率散布数值与角逐中现实获得的分数婚配。
(来源:Pixabay)
因而,在现实揣测过程中,球队可能呈现的分数城市被揣测出来,最初能够预估出夺冠的球队。
马修·佩恩在牛津大学官网上表达:“双柏松统计模子揣测了一百万次球赛,得出生避世界杯十六强晋级走势及冠军回属。
根据揣测成果,荷兰、伊朗、阿根廷、丹麦、西班牙、克罗地亚、巴西等球队会进进十六强。阿根廷进进四强,巴西将在四分之一决赛时裁减西班牙。”
参考材料:
1.Penn, Matthew J., and Christl A. Donnelly. Analysis of a double Poisson model for predicting football results in Euro 2020. PLoS One,17.5:e0268511(2022).