大数据预测2016欧洲杯 德国夺冠

1467822889-6852-euro2016

业界对大数据概念始终饶有兴趣,现在又轮到雅虎用大数据来预测2016欧洲杯冠军了。

雅虎与社交网站Tumblr及知名足球数据网站OPTA合作预测欧洲杯战况。研究员们分析了过去四年所有参赛球队的数据,并把平均得失球数作为最重要的参考指标。然后,研究员根据球队的表现为其设置虚拟能力值。

接下来,研究员建立了一个包括五项统计要素的复杂模型。这些要素除了跟场上数据有关之外,还和球队的“人气”有关,例如某支球队或其当家球星在Tumblr上被提及多少次。研究者认为,这些“人气”也是球队实力的某种反映。

模型中用到的五项关键数据:

  1. 过去四年,一支球队的平均失球数;
  2. 一支球队被Tumblr用户提及了多少次,该提及必须与欧洲杯相关;
  3. 在Tumblr的欧洲杯相关帖子中,一支球队的某名球员平均每帖被提及多少次;
  4. 标准差(这个统计学术语笔者在高中学过,然而多年之后已经惭愧地忘记是什么意思了,这里直接抄网上的定义:在概率统计中用于测量一组数值的离散程度的值);
  5. 过去四年,一支球队的平均进球数。

经过这些复杂的方法后,雅虎6月7日就已经发布了完整的欧洲杯大数据预测。德国最终1:0战胜卫冕冠军西班牙捧起德劳内杯。东道主法国队四强被德国淘汰出局,比分与两年前世界杯输球时一样——2:0。

1467822886-3467-eur16b

假如分析成真的话,这大概是一届非常沉闷的欧洲杯。除了16强德国4:0狂胜威尔士外,所有淘汰赛赛事没有一场在90分钟内出现超过三个进球。不过“幸运”的是,球迷不用忍受太多120分钟的闷战,15场淘汰赛中,只有三分之一的赛事被迫踢加时,当中又仅出现一次点球大战。

1467822889-3998-EURO2016-Group

雅虎的小组赛比分预测令人悲观,进球寥寥可数。

研究员们同时“分析”出最具人气球队。他们抓取了今年Tumblr前五个月的数据,主力挑选带有“欧洲杯”“足球”等标签的内容。得出180万条足球相关内容后,研究员再从中研究哪个国家、哪位球员被提及最多。葡萄牙成为最终大热。

1467822889-6555-URO2016-TeamMentions1024x551

雅虎发现,Tumblr上被提及最多的欧洲杯参赛队伍是葡萄牙。

究竟雅虎的预测命中率有多高呢?体育大生意手动统计,发现截至6月16日比赛日结束,一共有八场赛事命中胜平负战果,其中六场给出正确比分。雅虎大数据的比分预测正确率刚好为三分之一。

Via 体育大生意

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部