点球成金——运动中的大数据分析

迈克尔·刘易斯(Michael Lewis)的畅销书《点球成金》(Moneyball)改变了人们思考运动的方式,特别是对那些有最大既得利益的产业所有者、管理者和运动员来说。他的书掀起了一场革命,人们从此可以以事实为依据去评价一名运动员的表现,而不是像以前那样只是凭借传闻或者感觉。

1459347843-6325-OqDqmGxAHJM5VicSQYHUAerHyEhw

从那时起,运动科学家开始尝试在篮球、足球和橄榄球等运动中复制这种方法。现在科学家有能力在比赛进行过程中收集关于运动员和比赛本身的海量数据,这也促进了这门科学的发展。

然而,对很多运动来说,收集数据的能力和处理分析数据的能力并不匹配。由此就带来一个有趣的问题:运动科学在有效地处理数据方面面临着哪些挑战?在这个快速发展的领域内还有哪些有待解决的问题呢?

如今,多亏了澳大利亚悉尼大学的乔基姆·古德蒙德森(Joachim Gudmundsson)和迈克尔·霍顿(Michael Horton),我们有了答案。他们回顾了这个领域的发展,同时列出了研究者们在有效分析数据方面所面临的挑战。

他们所考虑的比赛被称作“侵略游戏”(invasion game)。这些比赛共同的特点是,两支队伍在比赛场地内争夺一个球的的控制权。每支队伍的目标都是通过把球送进对方的球门来得分,同时要阻止对方得分。比赛最后得分最多的球队就是胜利者。

具有这种特点的运动包括足球、篮球、冰球、曲棍球、英式橄榄球、澳式橄榄球和美式橄榄球等。然而,绝大部分的比赛数据都来自职业的足球和篮球比赛。这是因为研究人员有资源去收集这些比赛的数据。

这个数据通常包括整个比赛过程当中的运动员和球的运行轨迹,以及对传球、射门和铲球等特定数据的记录。古德蒙德森和霍顿表示:“现在的追踪系统可以提供运动员时空轨迹的高分辨率、高频率的记录,这反过来也促进了横跨各领域的多样化研究,研究人员从这些轨迹中可以获得新的灵感。”

运动科学中最大的挑战就是运用这些数据来获得有竞争性的优势,无论是在比赛过程中,还是用来帮助提示训练水平、做好赛前准备或者完成更明智的签约。但是在研究人员已经取得重大进展的同时,这个领域内还是有很多重要的障碍需要去克服。

其中重要的一点涉及到理解运动员们如何止控制球场上自己周围的区域。在运动科学中,运动员的优势区域(dominant region)指的是他/她可以先于其他人到达的区域。计算优势区域的一种简单方法就是画一张沃罗诺伊图(Voronoi diagram),这个图可以把球场分成紧靠每个运动员的多个区域(如图所示)。

1459347842-5799-FRtZSsmsYKyNpIhdxl5xaO50gYJQ

这样一张图还可以借助其他信息来加以修正,比如我们观察到进攻一方的优势区域要比防守一方更大一些。

然而,计算球场上每名运动员的沃罗诺伊图却非常复杂。没有人在实际比赛中做到过这一点,即使是在机器人足球世界杯中。

 

研究人员取而代之的是去计算一个不同的性质——在一个给定时间每名运动员可以到达的区域——然后再去寻找重叠的部分。这样就使计算速度增加到原来的1000倍,不过在准确性上也会比原来降低10%。

但即使那样,这个过程还是忽视了很多关键的因素。也许其中最重要的一点就是没有将运动员们的动量(momentum)考虑在内。一个运动中的选手很明显会比一个静止的选手控制更大范围的区域。

这样会使球场变成复杂的细分网格。当运动员A向着静止的运动员B跑去的时候,每个人可能有不止一个优势区域,而这些优势区域可能又不是彼此相接。举个例子,动量使得B身后的部分区域成为A的优势区域,但却不是全部。

因此在运动科学中一个重要的有待解决的问题就是如何计算比赛过程中真实的优势区域。

另一个挑战是算出一名运动员是否可以接到传球。这就意味着要确定是否存在某一速度和角度使得一名特定的运动员比其他人先碰到球。

这个很明显与运动员的优势区域有关。考虑优势区域的精确定义,可以直接算出落在这个区域内的直线传球。目前的工具也确实是这样做的。

但问题是只有某些特定的轨迹符合直线传球的标准。例如,轨迹在空中的传球就不是直线传球。现在还没有可以处理这些轨迹的工具,包含球的自转的更加复杂的运动就更没办法处理。这也是运动科学中有待解决的一个问题。

当一名运动员减少其他运动员周围的活动空间时,他/她就会给他们施以压力。这个应该如何被测量并在模型中加以考虑呢?

运动分析中一个正在变得日益重要的领域包含了网络科学。这种方法把每一名运动员都当作一个节点,并且当球在两人之间传递的时候,就在两人之间画一条线。这是一个成果丰硕的研究领域,因为研究人员已经发展出很多种数学工具来分析网络。

 

例如,使用一种被称作“中心度”(centrality)的测量标准就可以直接算出网络中最重要的节点。在足球中,守门员和前锋的中心度最低,而后卫和中场球员的中心度最高。

网络科学还可以把网络分成不同的群(cluster)。这样我们发现一些队员也许只是相互传球,而另一些则可以更好地配合。

然而,网络科学的问题在于测量中心度和划分群有很多种方法,而且一种方法为什么比另一种方法更好的原因也往往并不清楚。因此另一个有待解决的问题就是系统地评价和比较这些不同的方法,以确定它们的效用和价值。

 

另一类问题来自对比赛玩法数据的分析。比如说,我们是否有可能根据对比赛过程中一段时间内运动员运动轨迹和特定事件的记录,来确定这支队伍的类型——例如足球比赛中的4-4-2阵型,或者是防守一方的策略——例如篮球比赛中的全场紧逼或者区域盯人?

在某些运动的一段时间里,这是可以做到的。但是达到或者超过解说员或者专家的分析水平仍然是前进的目标。

古德蒙德森和霍顿还描述了其他一些有待解决的问题,以及在足球和篮球这样的运动中发展起来的思想如何可以有效地应用到其他的运动中,比如曲棍球和手球。

但是完善可以解决这些问题的算法只是一方面,接下来研究人员需要考虑的是这些工具怎样帮助提升运动员在场上场下的表现。它们能被用来当作衡量运动员表现和价值的标尺吗?它们能确定一个在某支队伍取得成功的运动员也可以在另一支队伍同样取得成功吗?它们能够在真实的比赛过程中发挥作用以帮助教练决策和观众欣赏比赛吗?

在接下来的几年里这个领域很有可能会有显著的进展,运动中的数据分析也会有更加光明的前景。

来自:麻省理工科技评论

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部