Geek说球:门将扑救效率的复现性

Armour

门将的基础能力和扑救能力是两个非常重要的参考指标,它们能够有效的评估门将的门前能力。同时,门将对于高空球的处理也是非常重要的,除此之外,还有门将的沟通和组织能力,这也是非常重要的。虽然说这其中有一些能力可以通过量化来进行比较,但是还有一些能力是无法通过传统量化的方式来进行衡量的。

尽管我不认为扑救技能能够代表门将的全部,但我们还是能够通过扑救数据来客观评估一名门将的位置属性。我听说吃掉大象的最好办法就是一点一点的吃,所以我们也会采用相同的方式来评价门将。所以在这个复杂的评价过程中,我们首先来看看一下门将的扑救次数。

这一次,我们所选用的样本是2010/2011赛季到2013/2014赛季这四个完整赛季(英超、西甲、意甲、德甲和法甲)的OPTA数据。在这段时间里,一共有64000多次射门,考验了393位门将。

【最好的扑救成功率】

从下面这个列表中,我们就能够一目了然的看出在过去的四个赛季中,扑救成功率排在前12位的门将的详细数据(扑救成功率=扑救成功次数/打在门框范围之内的射门)。

这张列表看似是非常有道理的,布冯毫无悬念地排在了第一位,而在他之后还有阿比亚蒂、西里古、诺伊尔、切赫、德赫亚和哈特。可以说,除了巴尔德斯(他并没有能够排在前12位似乎有些出乎意料)之外,那些我们所耳熟能详的顶级门将都榜上有名。

如果这样一个简单的数字真的能够评判一位门将水平的话,那么事情也未免太过于简单了。球探们的工作也会容易很多,他们只需要将这些数字进行排序就能够筛选出最优秀的门将。当然,这个问题肯定没有这么简单,这些数据也仅仅只是我们评判一个门将的开始,它只是一个起点,并不能代表全部。

但是这个数据也有它值得分析的地方,我们必须要考虑这样一个问题,为什么那些最优秀的门将,几乎都有着比较高的扑救成功率呢?可能最优秀的门将未必只在这一个数据上占优,但是那些拥有超高扑救成功率的门将必然会是非常优秀的。

【复现性

在评价门将的扑救技巧之时,我们并不是要去寻找一个顶级门将和那些庸才之间的区别,因为这对于我们来说并不是最重要的问题。对于一个门将而言,最重要的是面对打在门框范围之内的射门之时,扑救成功的概率是否平均,换而言之就是门将的发挥是否稳定。通过这些方面的数据,我们才能够真正准确地评价一个门将的扑救技巧。

【为啥这一点很重要】

如果我们长期观察一名门将的表现,就会发现,其实他的扑救成功次数是存在复现性的,而且这样一个数据是能够对球队产生影响的。当球队在寻找门将的时候,他们应该如何了解潜在的引援对象将来表现如何?他们如何才能知道门将的糟糕水平并不是常态,而是一时的失误?

其实对于我来说,这并不是一个复杂的事情。我们只要能够找到这名门将在几个周期里的扑救复现性,那么我们就能够预测他的未来发展情况。这个判断必须是基于很多个周期才能确定,如果不是几个周期的话,就意味着我们的判断结果可能并不牢靠。

而这样一个观点也得到了其他志同道合的小伙伴们的支持,在与小伙伴们的一次交谈中,有人说道:“在足球这件事上,你没有办法花费更多的时间去证明这件事的正确性。但是,在你量化任何指标之前,你必须确保你已经仔细的检查了数据,并且确定了你在做什么,因为这本来就是一件风险很高的事情。”

【如何衡量扑救能力】

对于这个分析,我需要采用两种形式的测量来评价。第一种是简单的利用扑救成功率来评判,也就是本文中第一个表格所展现给大家看的东西。

第二种方案就是基于我们的专门建立的预期目标模型,或者专门的ExpG2模型,这个ExpG2的值是射门时的期望值。这也就意味着,在这个ExpG2模型中,我们需要考虑到所有射门时的因素(即射门以及运动类型),同时在这个模型中还包括射门位置,但是并不包括门将的站位。

正如我们所料,ExpG2值确实对门将能力的评估起到了很大的推动作用。在一个固定的位置上,射死角的ExpG2值要明显比直接推中路之时更高一些。

ExpG2值不仅能够用来衡量球员射门能力,同时这个数据还能够用来进行门将扑救技能的评估。同样是进入球门范围的射门,攻入球门死角的快速球和滚向球门正中的慢速球明显是有所不同的,扑救成功的概率无法体现这一点,而ExpG2值就可以更好阐述不同情况下,门将的防守技术水平。

这种分析方法将采用ExpG2比率来进行计算,计算公式为:ExpG2/实际被破门的次数

举一个例子:ExpG2值12.34,但是门将被攻入14粒进球。在这种情况之下,ExpG2比率的值是0.88。

当值为1.00的时候,表示这名门将的表现符合预期,而当这个值大于1.00的时候,说明门将的表现比其他门将的平均水平要更好一些,如果这个值域小于1.00的话,就意味着他比平均水平要丢更多球。

【复现性(没错,就是再说一次)

本文分析的重点不在于衡量门将的扑救表现,而是去看几个周期中,门将的扑救能力是否具有复现性。当然,一些环境、运气之类造成的干扰,我们也是没有办法避免的,同时一支球队也不会因为这些因素去决定一名球员的好坏,他们所考虑的必然是一名球员工作效率的复现性,而这样一条路不正是足球产业的发展趋势么?

【分析方法】

我整理出所有打在门框范围内的射门,并按照日期排序,并且将每一个门将所面对的射门都做上编号。我创建了一个变量n,然后根据每个门将面对的射门次数来确定n的大小。我计算了每组数据之间的线性相关性,并且我将第一组的数值标记为x轴,而第二组的数值标记为y轴。

现在我们来举个例子,假设n=50,这将有助于我们理解这个问题。

对于每一个门将,我统计了扑救成功的射门次数,并且标记为1-50、51-100、101-150、151-200等。然后我们再分析1-50与51-100这两组数据之间的关系。我这么做是希望能够找出门将的扑救成功率的复现性。同时我也将分析编号为51-100和101-150、101-150和151-200之间的关系。我将利用这种模式去为每一名门将确定相关值,一个相关值对应一个级别的n,直到剩下的样本不再支持我进行这样的比较。

n值被我设定成为一个变量,并且可以用于评估门将在不同n值之下的扑救水平到底如何。下表就是不同n值对扑救成功率的相关性程度。

表中左边两列表示出门将扑救性能在连续两个n值之间的相关性。左边第三列显示了扑救成功率相关性,而最后一列显示了ExpG2相关性比率。

在这里做一个简单的模型,当值为1的时候,表示扑救性能在连续两个n集中呈正相关,而值为0的时候则表示没有任何相关性存在。其实我并不想复杂化里面的相关性,但是我必须要说明一点,相关性系数之间也有着置信区间,这和所选择的样本是有关系的。

让我们再回到上面的图标中,这次我们将假设n=100。

在收集到的数据中,305名门将面临了超过200次打在门框范围之内的射门。这就可以分成两个比较组,如果我们仅考虑简单的扑救成功率,两组数据的相关性仅为0.127,然而当我们采用ExpG2来分析,相关性提升到了0.232,这意味着两组数据之间是存在一点相关性的,只是很微弱。而且这也意味着在第一组数据仅能够解释第二组5%(0.232 ^ 2)的数据。

当然,有一点还是值得我们关注的:

即便是我们采用ExpG2指标来评估一个门将的一系列表现,但是预测未来100次射门的扑救性能也只有5%的准确性。作为一名门将,在一场比赛中至少会面对4次打在门框范围之内的射门,这也就意味着我们需要评估一个门将在25场比赛中的表现,才能够得到5%的可能去预测接下来的25场比赛。

如果假设样本量n=250,再使用ExpG2指标,计算出来的结果有0.405的相关性,这也只能说明两者之间确实存在一般相关性,并且在相关值平方之后得到的一致性也为0.16。不过n大于250的相关性我是没有办法计算了,因为我没有足够的数据去做这件事情。

下面这个图表就是我对31组n=250的样本进行分析之后的示意图(这意味着门将不得不面临至少500次射门)。

【射门顺序真的重要吗】

丹尼尔-奥特曼在读过我这篇文章的草稿之后,他建议我介绍一些关于射门分组后的顺序和分析结果之间的问题

你一定记得,我在上面的分析中,是将射门按照时间顺序分组标号的,这确实会使得结果受到门将年龄因素的影响,使得我们在评价那些顶级门将的时候,会受到影响。但是最初我只想评估门将在特定时间点的表现,所以这些限制因素并不是非常重要。

为了能够解决这个问题,我随机排列了射门的顺序,并对连续n的相关性进行分析,结果如下:

正如我想象的那样,选择不同的n值,相关值自然会和此前我们所分析的有所出入。当n=250的时候,相关性指数为0.467,但是这也只不过意味着如果我们利用这组数据去预测接下来的250次射门,也只有22%的准确性,准确性仍然比较低。同时这也表明即便是我们去掉任何年龄限制和时间偏差的影响,似乎门将扑救水平也不存在复现性。

【结论】

这个世界上有这么多门将,总有一些门将的表现要比其他人好。并不是每一名门将都能够像德赫亚一样发挥出色(他的两组n=250的ExpG2比率值为1.23和1.21),或者能够像鲁菲耶一样发挥稳定(他的两组n=250的ExpG2比率值,得出的结果分别是1.15和0.98)。

在我们已经评估了这两名球员第一组250次射门的数据之后,他们都会被认定为是拥有高水平发挥的球员。然而,只要我们继续验证,评估他们第二组250次射门的数据,就能发现区别,前者能够被称之为发挥出色,而后者只能够说是发挥稳定。

如果球队分析师只观察250次射门或者60次射门,那么分析师一定会认为鲁菲耶是一名好门将,但是我必须要知道我们是在做什么,我们的分析会影响球队所作出的决策,所以我们必须要谨慎,这也就意味着我们必须要以大量的分析来支持。

再举个例子来说,当我们进行大量分析之后,我们就可以发现米尼奥莱在2012/2013赛季的英超联赛中ExpG2比率为1.25,确实表现不错。而在2013/2014赛季的时候ExpG2比率值为0.88,根本就算不上是一名优秀的门将。从中,我们很容易就能够明白,想要判断一名门将的好坏,如果只看一个赛季的情况,那么就和赌博一样,一不小心就掉入陷阱。

本赛季的表现最多只能作为下赛季11%的参考价值。在我看来,事实上一名球员是否足够好,是否能够在豪门球队的首发门将,并不完全是依靠数据分析来解决的,至少,在有足够规模的数据来进行分析之前,我们是很难做到的。当然,到底多大的数据量才是好的,我也不知道。

最后,记住我的忠告,在选择门将的时候不要只看中扑救数据,因为这是一个非常容易使我们产生错觉的东西。

【相关解释】

○ExpG2其实就可以看做是各种射门的难度系数。

○复现性:是指在不同测量条件下,如不同的方法,不同的观测者,在不同的检测环境对同一被检测的量进行检测时,其测量结果一致的程度(小编是文科学渣,如果疑问,请圈我)。

展开更多