Geek讲足球:什么是机会创造

白羽

在竞技体育里,我们经常可以看到一些关于某位球员或者某支球队的数据分析。而在足球比赛中,人们较为关注的,是一个球员对进球的贡献情况。不过,由于进球的基数小,并且不是按规律发生的,就导致了数据缺乏一定的准确性。

因此,我决定针对单一球员开发一种数据,它将具备对比球员“机会创造贡献值”或者“进球贡献值”的功能。受棒球运动的数据分析影响,我针对足球场上的进攻贡献值,开发出了一系列的对比数据,在这里称它为“机会创造数据"。

棒球模型

“棒球数据分析之父”比尔-詹姆斯(Bill James),曾经开发出一套名为“Runs Created”的数据(简称RC)。由于深受追捧的RBI数据歪解了球员对于球队进攻的真实贡献值,因此RC数据应运而生。

作为棒球界最具影响力的数据之一,RC在最基本的形式下,通过将单个球员的垒打数(total bases)与上垒率(on-base-percentage )相乘,得出这名球员的贡献值。判断RC是否科学很简单,如果一支球队的RC总值,在大概5%的误差范围内可以和全队得分总值大概相同的话,那么RC数据就是有说服力的。

RC数据诞生后,一共经历了2次重大改进。第一个改进是,设立“Runs Created Plus” 数据(简称RC+)——将一般球员的价值定为100,如果RC+是115的话,就说明这名球员的分值比一般球员多出了15%;第二个改进是,对一些其他可量化的因素进行了加权处理,比如“Weighted Runs Created Plus” (简称wRC+)。

根据以上方法,我开发出3类独立存在的数据:机会创造(Chances Created,简称CC),机会创造+(Chances Created Plus,简称CC+),以及加权机会创造+(Weighted Chances Created Plus,简称wCC+)。这套数据在足球中的作用与它在棒球中差不多,那就是,找到一种度量标准,在进球、助攻数据的基础上,进一步地阐明球员在进攻端的贡献情况。

机会创造数据(CC)

在足球比赛中,不管射正与否,一次机会都要对应一次射门,一次关键传球和一次射门都要算作是一个机会。CC数据的核心内容是,累计球员每90分钟的射门次数和关键传球次数。

下一步就是创造一个标准化的数据,使得平均数值达到100。问题是,在机会创造方面,什么样的足球运动员才是标准球员?

在棒球中,每一个球员都有同样的机会进行击打,但是在足球比赛中,不同位置的球员会有不同的进攻输出。因此,我将足球比赛中的球员分成了4个位置:守门员,防守队员,中场队员,以及前锋。显然,这会引起不少争论:“这些位置的具体职责是什么?”“如果一名球员一个赛季出现在了不同位置上该怎么计算?”为了尽可能的保持客观性,规定球员的位置与他们最初登记时的情况保持一致——我承认这不是一个完美的解决方案,但确实可以作为一个不错的基准点。

在定义“标准球员”的过程中,那些对于球队来说并不重要(出场次数极少)的球员被我排除在外,因此数据中只涵盖了代表俱乐部参加过至少一半赛程的球员(对于英超来说,一半赛程是19场)。

最后,我试图通过加权机会创造数据来解释射门质量问题。不论是射门还是射门机会,虽然在比赛中都不具有规律性,但是,机会创造数据可以反映这些机会(被创造出来的)的质量。另外,我对助攻率(助攻和关键传球的比)和进球率(进球和射门的比)进行了加权处理。由于我引用了整个赛季的数据,所有样本数量足够大,这使得误差进一步减小。举个例子,如果一名球员习惯性地浪射,那么他的CC+值就会很高,但是由于他的进球率非常低,他的wCC+值就会因此相应地降低。

检验数据

我的观点是,一组数据要想做到具有相关性和实用性,那么就必须具备以下3个要素:解释能力;可重复性;便于理解。

解释能力:如果一支球队中,拥有最高CC、CC+以及wCC+的球员,没有创造出最高的进球数量,那么这个数据便因为脱离实际情况而失去了参考价值。

事实证明,球队在一年内的进球数,与球员CC+、wCC+的平均值之间的相关系数较高。下表统计了2012-13赛季以及2013-14赛季英超联赛中,球员数据和球队进球数之间的相关系数。正如我们之前所预想的那样,wCC+要比CC+更具有解释能力。

有趣的是,如果我们将每支队伍中的防守球员,中场球员、前锋以及总平均数作为研究对象,再将球队的总进球数做回归分析,那么每个位置上的具体价值并没有显著地体现在数据上,因此可以看出,数据受到了全组平均的影响。简单地说,即使一支球队里前锋的wCC+值比中场高,也无法说明前锋可以有更多的进球,因为wCC+是全队所有位置取平均数的结果。

可重复性:数据必须具备可预测的价值。也就是说,这套数据必须涵盖每个赛季的的实际数值,形成走势图,只有这样我们才能通过球员CC,CC+或者wCC+的走势,预测球员下赛季的表现。

下图中,2012-13和2013-14赛季,英超联赛的wCC+值之间的相关系数为0.78。其中,散落的圆点显示了wCC+的走势。

便于理解:对比球员数据时,CC+和wCC+必须一目了然。如果将每个位置的基准点定为100,当我们观察一位球员在进攻端的贡献时,不论高于100还是低于100,球员的数据必须明确易懂。最好的情况是,即使没有任何足球知识背景,看到这套数据也能知道一个大概意思。

英超联赛wCC+排行榜

2012-13赛季 防守球员

2012-13赛季 中场球员

2012-13赛季 前锋球员

2013-14赛季 防守球员

2013-14赛季 中场球员

2013-14赛季 前锋球员

像科拉罗夫和许尔勒这样的球员,虽然在位置上分别定义为后卫和中场,但实际上他们经常扮演攻击手的角色。同时,这几个排行榜也显示出了这套数据的一个缺点:只能针对同位置的球员进行对比。

正如大家所想的那样,对防守球员位置的定义要比中场和前锋宽泛得多,这是因为,在比赛中握有主动权的球队通常站位比较靠前。同时这也反映出了一个事实,那就是,由于进攻意图的不同导致扮演角色的不同,防守队员的机会创造数据,比前锋的数据范围更广。比如,科拉罗夫尽管CC+较高,但是他在机会创造方面并没有苏亚雷斯优秀,只是说,在同位置的数据对比中,科拉罗夫的机会创造能力比苏亚雷斯更好一些。

这当然也说明了苏亚雷斯近两年的表现的确比其他英超前锋更好。还有库蒂尼奥,他在2013-14赛季的数据足以证明他在利物浦队的重要性。另外还有曼联队中的韦恩-鲁尼,他的wCC+值在过去两年分别为147和148,均维持在较高水准。

下一步计划

到目前为止,我仅仅使用了2012-13以及2013-14赛季英超联赛的球员数据。为了检验CC+和wCC+的广泛适用性,我们也会引进世界上其他联赛的数据。在我看来,数据分析过程中的加权处理方法还有待进一步改善,助攻率和进球率的分析方法也都略显简单。

不过,如果要加入“期望进球/每次关键传球”和“期望进球/每次射门”的话,我们则需要更为丰富的数据组的支持。希望在未来的日子里,数据的加权算法能够得到改善。

这是我第一次在这个领域做这方面的尝试,为了进一步检验CC+和wCC+的参考价值,欢迎大家提出意见、建议以及检验方法。

展开更多