世界杯决赛,胜负已定!AI说冠军是……
没有“算命大师”,世界杯就像少了点什么。
2010南非世界杯,章鱼保罗八场比赛预测全中,正确率百分之百,上了《时代周刊》封面。
2018俄罗斯世界杯有三只神兽“执行任务”:迪拜骆驼沙信(Shaheen),俄罗斯猫阿喀琉斯(Achilles)以及英国猪马库斯(Marcus)。反正一场比赛就两个结果,三只动物总有一只满足你。
牲畜都上阵了,数据科学家颜面何存?
大数据、人工智能、机器学习的浪潮,一轮又一轮。科学的统计方法,难道不比四脚或八足动物来得准?之前瑞银、高盛、麦格理等投资银行,都用自己的商业模型预测过2014、2018两届世界杯。
尴尬的是,他们都错了。
本届冠军是……
之前的错误,并不能阻挡数据科学家预测2022卡塔尔世界杯的热情。
几年前,英国艾伦图灵研究所的三位研究员开发了一个统计模型,上个月刚算出了2022世界杯冠军的结果。
该模型是在游戏《梦幻英超》(Fantasy Premier League)里搭建的,因为《梦幻英超》和现实联系紧密:每位玩家都要充当经理人,从英超联赛里选择一支15人的队伍,根据这15人在英超的真实表现获得积分。
每个星期,经理人都可以操作转会、替换球员;也可以提名队长,总积分在一周内翻番的球员就有资格。另外,不同位置的球员因“作用”不同,获得积分的形式也不同。前锋进球或助攻都有积分,后卫和守门员零封才能拿积分。
和大多数运动一样,足球也是随机性和可预测性的趣味组合。依赖历史数据、定义明确的评分系统和人员组合的可能性,《梦幻英超》很适合机器学习。
于是,艾伦图灵的三位研究员,搞了个队伍叫阿森纳AI(AIrsenal),让它先学了1997年的足球预测经典模型——从球队攻击强度、防守强度和主场优势出发,使用贝叶斯算法来计算获胜球队。
光搞英超不太够,研究人员又引入了不同大洲的球队的相对实力参数,好预测国际比赛。
2022卡塔尔世界杯之前,阿森纳AI还学了GitHub用户martj42编制的数据库。该数据库记录了自1872年以来每场足球比赛的详细结果,还把比赛权重做了排序,像2002年之后的世界杯正赛、近期比赛的结果,重要性大于洲际锦标赛、预选赛和友谊赛。
最后,FIFA的官方排名也被导入模型。
十万次模拟之后,AI给出了答案,本届世界杯冠军是巴西!其在两万五千次的预测中都捧起大力神杯,夺冠率高达25%!其次是比利时和阿根廷,夺冠率达到18%和13.5%。
众所周知,巴西已经在八强赛里出局,比利时小组赛就已打包回家。
算得明明白白
预测准不准,只是茶余饭后的笑料。但数据确确实实改变了体育运动,当然也改变了足球。
本届世界杯前三场小组赛,葡萄牙队名宿C罗均不到终场就被换下,脸色不佳。而教练完全不需有换下巨星的压力。因为,终场哨声响起后的几分钟之内,球队就能收到官方发来的详细数据——锋线球员跑动距离和被围堵的频率,防守球员的控球时间和拦截强度。
巨星有没有发挥作用,数据自己就能“回答”。
这是数据分析引导一切的年代:球员布阵,训练强度,击败对手的策略……
和卡塔尔赛场上植入芯片的足球类似,足球运动员早就“全副武装”,可穿戴的背心、腰带配有传感器和GPS,能够感知球员的全身动作乃至每只脚的频率。身体之外,多角度摄像机捕捉球员场上的所有举动。
如今大多数不差钱的球队都雇佣数据分析师,后者来自大公司、实验室,比如微软、欧洲粒子物理实验室或欧洲原子能研究中心。
数据分析师的辛勤工作,改变了传统的比赛方式。现在,几乎没有哪位前锋像马拉多纳或者罗纳尔多那样,独自长途奔袭,晃过五六人,一脚射门——多人控传后近距离射门成功率更高;边锋多传球而不是自己抢着进球;教练喜欢用高个子球员占据“制空权”……这些战术转变,都来自确凿的证据——大数据。
谷歌的DeepMind为利物浦创建了一位AI助理教练,它可以使用实时数据来指导训练。比如“看”完上半场比赛,AI助理教练就能给出下半场的阵型和球员布局的建议。
最重大的改变,主要体现在球员招募和定位球策略上。
球员踢什么位置,有多少成果,值多少钱,AI都能算得明明白白。《梦幻英超》这种经营游戏,就是让玩家过一把“会计师”的瘾。如果你是巴黎圣日耳曼的“话事人”,给姆巴佩砸下1.25亿美元的奖金,会不会“闭着眼睛”发?
定位球玩得最好的,当属克罗地亚。他们最喜欢把对手拉进加时赛乃至点球大战,八强赛5:3战胜巴西,正是定位球策略的高明之处。2018年世界杯,他们也是靠点球大战,赢得了前两轮淘汰赛。
小组赛期间,日本被克罗地亚点球淘汰,教练森保一赛后不无悔恨地表示,自己从来没研究过点球策略。
真正的冠军竟是他们!
输赢不重要,但我们还是想提前知道结局。这是人类自古以来改不了的“爱好”。
像《史记·高祖本纪》,刘邦命运被提前预告,传奇色彩十足。先是准岳父吕公称“相人多矣,无如季相”;又有山野老父,看了其妻子儿女一圈,都说“天下贵人”,见到刘邦本人,“君相贵不可言”。果然,刘邦47岁揭竿抗秦,54岁就成为开国之君。
1951年,雷明顿兰德公司发售的UNIVAC I(通用自动计算机一号),是世界第一台商用电子计算机,占地26.7平方米,重7.2吨,卖给了美国人口普查局。
只卖一台要亏本。公司与哥伦比亚广播公司合作,预测1952年总统大选。它以仅5.5%的投票率为样本,预测了艾森豪威尔的压倒性胜利。最后,该计算机共售出46台。
想知道本届世界杯冠军花落谁家,就不能吊死在一个AI上。
“TGM研究”包含三个算法,一个叫Logistic Regression,是一种对数几率模型;一个叫Random Forest,能获取多个“决策树”的平均值,最后创建“森林”预测结果;一个叫SVM,是最流行的监督机器学习算法,用Kernel Method转换数据,在可能的结果之间“找”到最佳解。
总之这三个算法都由一大堆复杂的函数构成,以此来显示其计算的“专业性”。
用Logistic Regression预测,法国队赢。
用Random Forest预测,阿根廷赢。
用SVM预测,没有结果。
现在大家可以放心看球了。
Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!
- Author
- More