本文转载自硅星人(微信号:guixingren123)
2018 年俄罗斯世界杯马上就要开幕了!
作为惯例式的娱乐节目,从电视台到营销机构,从博彩公司到普通球迷,都开始了四年一度的冠军预测……
预测这种事儿吧,一半靠分析,另一半基本靠运气。这也是为什么博彩业成百上千名分析师拿着各种数据绞尽脑汁最后得来的赔率和预测结果,还不如章鱼保罗准……
当一个行业没什么进步的时候,总会有人来颠覆它。
近年来人工智能技术发展迅猛,在统治了图像识别、语音分析、自动驾驶等热门领域之后,也开始挑战世界杯比赛结果预测这门行当了。
在 2018 年世界杯开幕之际,全球多家权威机构都发布了他们的预测结果。一个很大的亮点是,有不少机构都采用了机器学习的途径来进行预测。
然而更有趣之处在于:不同机构的预测结果竟然完全不同……
1)德国人:西班牙是冠军
严谨诚实的德国人,今年做出了一个非常诚实的判断……
具体来说,按照今年抽签的分组结果,从小组赛的阶段开始预测,在所有的三十二支球队中,西班牙最终夺得冠军的胜算最大,约为 17.8%,高于德国的 17.1% 和巴西的 12.3%,如下图。
做出这个预测的是德国多特蒙德工业大学统计学系的助理教授,Anreas Groll 所带领的团队。他们是怎么算出这个结果的呢?
其实他们采用的是一种近几年来在机器学习领域开始受欢迎的统计方法:随机决策森林 (random decision forests),简称随机森林。
Groll 教授介绍,随机森林是一种融合了统计学和机器学习的方法。它常被人拿来和决策树,另一种更为人所熟知的统计方法比较。
(以下进入不那么枯燥的教学时间:)
决策树和随机森林的区别很好理解。就拿世界杯正赛来说,一支球队最终夺冠的几率并不是瞎猜出来的。大家都知道,球队夺冠的路径是从每组四支球队的小组赛前两名出线,然后经历八分之一决赛、四分之一决赛、半决赛、总决赛才能夺冠。
如果你找一个常见的决策树系统来判断,它在 32 进 16、16 进 8、8 进 4、4 进 2 和决赛的每个阶段都进行大量的计算,最后可能得到一个十分怪异的结果,比如中国队夺冠之类的……
因为它在当前阶段做出的决策,都高度依赖上一阶段的决策。这就好比一棵树,如果从根部就长歪了,再怎么往上长,也只能是在歪的上面不断进行修正,还有可能更歪,最后长成一棵扭曲的,现实中根本不可能存在的树……
至于随机森林,名字已经很直白了:简单来说,随机森林就是一座由很多决策树所聚集而成的森林,然后用所有决策树的结果进行投票,得出一个多数的、近似于平均的结果。
要构建这个森林,首先 Groll 教授团队需要训练决策树,修剪好“枝杈”,不让没用的枝杈影响树的生长。这些枝杈就是参数,大量的经济、体育、地缘参数,比如国家人均 GDP、国际足联排名、国家来自哪个大洲、博彩公司给出的赔率,甚至精细到球员人数、平均年龄、顶级联赛球员比例和教练的工龄等等……
在不断训练的过程中,没用的参数就被排除出去了,就像被剪掉的枝杈。这个过程培育出了一座有很多树,每棵树都不是太枝繁叶茂的森林。团队认为,这样得到的结果应该是比较准确的。最后,这个森林根据模拟出每场比赛的进球数来判定球队输赢。
采用随机森林的方法,还有另外一个效果,那就是在不同阶段,根据不同的结果重新预测和修改结果。前面提到,“西班牙是冠军”的预测是在小组赛还未开始阶段得到的。团队进行了十万次模拟,发现如果德国队和西班牙队都能突围四分之一决赛,之后的预测显示双方胜率基本相等了。
你可以在这个链接看到 Groll 教授团队的论文。如果仔细读了,你会发现预测结果有很多矛盾冲突的地方,比如前面说德国卫冕概率仅次于西班牙夺冠,后面又说德国突围四分之一决赛的概率是十万分之一;再比如西班牙和德国的胜率都 >17%,而总决赛阵容概率最高的却是巴西对德国,而且居然是德国高。
论文也没有解释这些矛盾都是怎么来的(也可能是硅星人读的不够仔细?)不过球迷大可不必懊恼,因为预测本身就是概率的游戏,真实情况在一定程度上体现概率的作用,同时总会有概率无法涉及到的情况出现(比如西班牙昨天突然换帅开掉了洛佩特吉,而这又会怎样影响胜率呢?)
对于 Groll 老师的预测,就跟博彩公司和体育台的预测一样,大家看一看,乐一乐,骂一骂就行了,大可不必当真。
2)高盛:西班牙阿根廷低迷,巴西将夺冠雪耻
世界顶尖的投行高盛 (Goldman Sachs) 的经济学家其实很无聊,所以他们每届世界杯都会出来发布一份《世界杯和经济报告》,顺便预测一下今年夺冠形势。
高盛在小组赛阶段预测的结果显示:巴西最终夺冠的几率为 18.5%,高于法国 11.3% 和德国 10.7%;西班牙和阿根廷表现低迷在四分之一决赛被淘汰;德国和巴西将分别在半决赛中击败葡萄牙和法国晋级;
你可能会记得加里·莱因克尔的语录“足球就是一种由英国人发明,经过场上22个人激烈拼抢,苦战90分钟后,最后由德国人获胜的运动!”然而这次它将无法应验:高盛预测巴西将在决赛击败德国一雪前耻,勇夺大力神杯:
高盛用的同样是随机森林模型,只是用了更少的参数,严格限制在球队和个人级别的指标上,基本上做了一个高级版的《足球经理》游戏系统。
最后只有五个主要指标或者变量,相关性从高到低:球队评级、球员评级、球队近期表现、对手近期表现和球队近期进球势头。
凭什么说西班牙和阿根廷表现低迷?做了 20 万次模拟(比多特蒙德工业大学多了一倍)之后,高盛经济学家认为抽签导致西班牙和阿根廷在小组赛、淘汰赛就被迫面对强敌,而前面提到的五个指标打分,这两队在面对巴西和法国时表现不会太好。
下图为 2014 和 2018 年高盛给各队的打分:
今年,高盛认为得分最高的和去年一样,是巴西队。
然而高盛过去几年的预测其实都挺歪的:比如 2010 年预测总决赛巴西对德国,结果夺冠的是西班牙;2014 年又说巴西会夺冠,而且概率高达 48.5%——哪想到巴西在半决赛被德国 7:1 血洗……
不知道今年的预测,会不会又是一口毒奶啊。
3)艺电:德国卫冕失败,点球大战法国一球险胜
艺电 (Electronic Arts) 旗下拥有运动类游戏大厂 EA Sports。你可能不知道的是,这家备受游戏迷喜爱的厂牌,同时也是顶级比赛结果预测最准的机构……
在过去的 14 场美国职业橄榄球“超级碗”比赛里,EA Sports 正确预测了 9 场的结果;说回世界杯,四年前,在一大票看好巴西队的预测结果里,EA Sports 特立独行地选择了德国。
上个月,EA Sports 宣布了 2018 年世界杯的预测结果。今年,它选择了法国作为冠军,并且解释了每一阶段的预测过程,你可以通过这个链接详细查看。
EA Sports 估计,巴西将在四分之一阶段被比利时送回老家,无缘复仇雪耻;法国和德国将分别击败乌拉圭和哥伦比亚;西班牙也将以 1:0 击败克罗地亚晋级四强;到了全欧洲阵容的半决赛阶段,法国将 2:1 击败比利时,德国 3:1 击败西班牙。
最后的决赛,EA Sports 预测,德国和法国的对决将会十分精彩:高卢雄鸡拖住了德国战车的节奏,双方在 90 分钟内战得难解难分,1:1 的比分将一直延续到加时赛结束,直到运气将取代实力的地位,决定这场大战的结果。最终,法国点球大战 4:3 终结德国的卫冕之旅。
EA Sports 的预测机制跟前面两家还是很不同的:它就是把最新的 2018 年世界杯各队数据资料更新到了《FIFA 18》游戏里,然后跑了一个结果出来。
这个预测机制到底是什么样的,EA Sports 并没有公开。上个月,《FIFA 18》游戏加入了 2018 年世界杯模块,有游戏的玩家可以自己更新一下数据,看看会出什么结果;没有游戏的朋友,可以去 EA Sports 的网站,上面有一个预测模拟器,可以查看官方在小组赛、淘汰赛等每一个阶段的预测结果。
4)其他预测
看完了 AI 预测,也来看看电视台、投行和博彩公司等传统机构的预测结果吧。
ESPN 多数专家(下同):巴西
FOX Sports:巴西
BBC:德国
央视体育:巴西
瑞银 UBS:德国
大部分博彩公司:巴西