拉开空间: 衡量职业足球中空间创造水平的统计技术

01 概述

足球分析长期以来一直集中在互不关联的足球运动本身的结果上。然而,这项运动的复杂性在很大程度上体现在非足球方面。用乔安·克鲁伊夫(JohanCruyff)的话 来说:“从统计数据来看,球员的平均控球时间是3分钟。因此,最重要的问题出现了: 在你无球的87分钟里,你在做什么? 它将最终决定你是否是一个好球员。” 在以观察为基础的战术分析里,空间的创造和控制是一个反复出现的问题。但从数量上看,它仍然是一个未经深入研究的课题。

在此,我们提出了一种比赛中占据与生成有价值空间的量化方法。这里所说的直接空间占据是指为自己创造空间,而空间生成是指通过吸引对手离开所在位置、为队友创造空间。首先,我们建立一个新的参数化球场控制模型。该模型结合了移动信息、离球的距离和球员的位置等数据,为潜在的控球扫清了障碍。通过对所有球员的控制曲面进行混合,我们得到一个在球队层面上的任意时刻的潜在控球 模糊度。根据球的位置,利用前馈神经网 络,我们建立了任意场地位置的相对价值模型。通过所有这些数据(球员在球场的有效活动区域、球队的场区控制以及每个区域的相对价值),我们对每个球员的全时空动力研究构建了两个新的空间价值创造水平指标,诠释空间占据和空间生成。

通过对西班牙甲级联赛的一场比赛进行分析,我们展现了一系列方法,以便更好地理解足球运动表现分析中一个缺失的关键因素: 无球进攻的动力学研究。空间占据和空间生成的量化使我们能够观察到塞尔吉奥·布斯克茨(SergioBusquets) 在使用中轴线技术的位置攻击中所表现出的高度相关性、路易斯·苏亚雷斯(Luis Suarez)为队友创造空间而吸引防守的能力、莱昂内尔·梅西(LionelMessi) 在场上流畅地移动而占据有价值空间的能力,这些只是很多特点中的一部分。

空间动力学自动量化分析所能达到的详细程度超出了通过观察分析的水平。对空间占据和生成的评估能力为进一步研究无球动力学开启了一扇大门。它可以应用于特定 的比赛和场境中,并直接融入教练员的分析之中。这些信息不仅可以用来更好地评估球员对球队的贡献,而且还可以通过教练指导来改善球员的占位和移动,为这项复杂而充满活力的运动提供一个关键的竞争优势。

02 空间的占据与生成

在过去的二十年里,成功的精英足球队越来越多地采用以控球为主的比赛风格,尤其体现在西班牙、英国和德国的联赛中。除了尽可能简单地控球的基本理念之外,还采用大量的有球和无球移动的战术打法,以创造更好的得分机会。其中包括创造优势(人数、位置或质量),通过移动和团队配合给对手的防守造成混乱,从守门员发起进攻,有进攻意图的传球等等。在所有上述行动中,有一个主要的基本概念: 空间生成和占据。瓜迪奥拉(Pep Guardiola)曾经说过:“ 我们必须传球,是的,但要有明确的意图。通过传球将对手吸引到场地一侧,在另一侧创造空当,然后把球转移到那里。这就是我们要的比赛。” 从根本上说,在球场上占据空间是球员不断为自己在高价值区域寻找位置的一 种行为。就一定区域内对手的分布密度而言,空间价值可以用球的相对位置、与对方球门的距离以及更具体的空间占有水平来定义。此外,我们还可以根据球员的速度将空间占据的类型进行分类。具体来说,我们确定了两种类型: 主动占据,即球员通过快速移动而获得空间; 被动占据,即球员通过低速移动(慢跑或行走) 而获得空间。例如,如果一名球员被对方紧紧盯防,他以比对手更快的速度跑向空当,通过主动占据获得一个属于自己的空间。另一个例子,如果球员正在走向某一区域,而附近的对手已经离开了该区域,那么球员将通过被动占据获得空间。

更为复杂的一个概念是空间生成。我们将空间生成定义为将对手带出某个区域以便在对手之前所在区域创造出新的可用空间的行动。具体来说,我们确定这样的场景: 一名球员将对手带离他附近的队友。简单地说,带离就是将队友的防守者带向自己,为队友创造出空间。注意,在将防守队员带离一个明确的区域时,相应地会留出一个拉开的空当。不过,在本研究中我们并没有考虑这种情况。在上述空间占据所得(SOG)概念相似,随后我们也会探讨概念空间生成所得(SGG)。如此这般,我们按主动和被动获得方式把为自己创造的空间和为队友创造的空间加以区分。

图1 展现空间占据和生成的一个比赛场景。从左到右: 在第一帧中,伊涅斯塔向后移动,有力的控制、占据一个有价值的空间; 第二帧中,伊涅斯塔观察到一个进攻空间,并向空间 移动,带离3名防守队员; 第三帧中,这三名被带离的后卫给梅西留下了一个空当,梅西现 在可以在没有人盯防的情况下接球,而苏亚雷斯为使自己能够接到传球,则向球门线方向跑。

图1显示了在西班牙官方第一级别比赛中,空间占据和空间生成的一个例子。三张图展示了安德烈斯·伊涅斯塔(Andrés Iniesta)移动的整个过程。在这个过程 中,他先移动离开球,拉出空当; 然后在禁区内拼出一个高价值区。当他移动到这个空间时,他把三个防守者吸引向自己,同时也接到了传球。这三名被吸引开的后卫给梅西留下了空当,梅西在这个新发现的空间里在没有人盯防的情况下接到传球,随后吊传球给苏亚雷斯,苏亚雷斯同时向球门线跑去,寻找有价值的得分空间。下面可以看到一个更详细的空间占据和空间生成的视频示例。

在提供关于如何计算空间占据和生成的明确细节之前,我们首先需要明确空间所有权和价值的概念,毕竟本方守门员在球后80米处创造出的空间比在球和球门附近的高威胁区域创造的空间价值低得多。接下来的两个部分展示了一种新的用于评价空间所有权的场区控制模型,以及一个根据球和球员的位置做的空间价值动态模型。 

03 模拟场地控制: 一种参数方法

场区控制是团队运动空间优势分析中的一个反复出现的概念。它可以定义为一个既定球员(或球队)在赛场活动区域内的任何一点上所具备的控制力或概率。球员跟踪数据的出现导致产生了不同的场区控制(或支配区域)模型。其中一种被广泛使用的模型是Voronoi多边形网格。它将所有球员在场上的位置统计在内,算出距离每个既定空间点最近的球员,并为每个球员寻找优势单元格。该模型已被用于量化在限定的场地中攻防双方的支配区域[1]、评估基于传球行为的空间优势[2]、改进传球概率模型[3]以及评估篮球运动员拼抢 篮板球的位置价值[4]等各类应用。由多 喜(Taki)和长谷川(Hasegawa)[5] 提出 的球队运动的原始模型[5],提供了可用于 更快运算的扩展以及包含运动和支配空间 的加权估值的扩展[3,6]。除了这些优势 之外,所有基于Voronoi多边形网格的不 同类型方法都是从寻找由特定球员独自支 配的区域这样的想法开始。这一概念忽视 了空间所有权是连续的,而不是分立的, 在两名球员中由谁控制区域方面存在不确 定性。此外,球员与球之间的距离也被认 为会影响相对位置和空间控制力的水平, 特别是对诸如足球等场地较宽的运动项目 而言。不过,上述方法并没有考虑到这一点。

我们提出了一种新的场区控制模型,该模型加入了所有球员的位置、速度和离 球的距离,为每支球队提供了一个便利的 控制平台。对于任何既定位置,每个球员 在该位置的影响力都会被计算和总结出 来,从而得出控制的概率。该方法的另一 个目标是提供一个模型,可应用于某个特 定数据框架,而且不需要大量数据来学习 其参数。这对于那些参加西班牙联赛等比 赛的俱乐部来说尤为重要,因为无法从西 班牙联赛中得到可直接使用的跟踪数据。此外,这样一个模型很容易进行再造。

根据他们在时间上的位置,球员对于附近的区域可能造成不同程度的影响。当一个球员离球很远时,他的影响力水平可以被理解为在一个更广泛的区域,这是基于这样的推理:如果球向球员转移,他需要更多的时间才能在更大的空间内接到球。相反,当球员靠近球的时候,如果球从现在的位置转移,那么球员触到球的可能性就会更小。此外,球员的速度在确定影响区域方面起着重要作用。与行走或慢跑相比,跑动起来的球员在速度方向上的区域影响力可能更大。此外,球员在近距离空间里的影响力水平可能比在更远的空间中要高。

基于此推理,我们提出通过二元正态分布来定义球员的影响力范围,其形状可以根据球员的位置、速度以及与球的相对距离进行调整。在任意既定位置,都可以通过分布的概率密度函数来查询影响力或控制力水平。

具体来说,球员i在时间t在既定位置p的影响力I是由一个二元正态分布所定义其均值为μi(t),协方差矩阵Σi(t),既定球员的速度s和角度θ。对于在时间t处于的既定位置p的球员i,影响区域的概率密度函数由标准多元正态分布定义。那么,将球员的影响力概率f定义为 在既定位置p处的归一化,由f在球员当前位置pi(t)的值表示,如方程式1所示。

对于场上任意一个既定位置,为在[0,1]范围内获得一定程度的影响,该公式提供了一个初始模型。平均值和协方差矩阵可以动态调整,以提供一个加入位置和速度数据的球员优势分布图。在附录A.1中,我们提供了这个方程式的具体细节。图2显示了球员在与球的距离和速度这两种不同情况下的影响区域。这里,我们可以观察到球员的影响力是如何根据离球距离的不同而发生变化。此外,球员的影响力分布按照移动方向以及与速度相关的延伸被加以重塑。如果球员处于运动之中,影响力分布根据球员的速度而转变,更高水平的影响力出现在球员移动更快的点上。该模型可以进行简单地扩展,用以处理球员的专项运动特征,如加速度跑和最大速度。

图2代表球员影响区域的两种情况

04 建模团队场区控制

在定义球队在球场任意一个位置的控制程度时,最好考虑两队的每个球员在这一点上的影响力水平。由于许多球员可以在一定时间内对某一特定地点产生影响,因此该模 型应该考虑到每个球员的综合影响力,并在一个连续的范围内提供一个控制值,而不是类似Voronoi多边形网格这样的严格区域。在此基础上,我们提出了一个场区控制模型。它总结了每个球员的影响程度,并得出球场任意一个位置的控制程度结果。方程式2表示在时间t位置p处的场区控制水平,其中i和j指的是双方球队中各自球员的指数。在这里,逻辑函数将过去每个球队个人影响程度由总数做减法计算转化为在 [0,1]范围内的控制程度。此外,由于我们定义的是一个以球队为主的场区控制模型,因此,如果一个球员在其当前位置不受任何其他球员的影响,则只能控制逻辑(1)=0.73的空间。这表明在某个既定区域附近只有密集聚集球员才能获得更高水平的区域控制。从统计学上讲,请注意,这个公式代表了一个既定球队的控制概率,其中每个球队的潜表面通过基于核心的非参数点过程获取。

其中σ是逻辑函数,由于球场控制模型遵循图2中球员影响区域的定义,该模型加入了球的位置、球员的速度和场上所有球员的位置。方程式2是基于球员影响区域的场区控制程度的简化版。注意,如果需要,我们可以在σ中包含一个常量以增加更多的灵活性。

图3 场区控制面显示红色球队的控制程度。箭头显示球员的速度,轮廓线使几何图形的表面可视化。白色数字表示其绘图位置的场区控制值,轴线维度以米为单位。

图3显示了比赛中既定情况下的场区控制面,在位置(82,8),距离球很近,可以清楚地观察到黄队的密集分布让位于球附近的红队控制力下降。另外,控球球员的速度(红队)在跑动方向上为红队提供了优势。在位置(80,25),红队球员正在创造一个位置优势。同时,在位置(50,30),黄队球员对空间控制的水平最小,因为在密集防守下,他周围有三名对方防守球员。相对于单个时间框架来说,该场区控制模型提供了在一个变量条件下球员位置、球员速度和相对于球的位置的综合情况。此外,通过研究场区控制时间的动力学特性,它成为评估比赛多种时空类型特征的通用工具,如创造位置优势、分布密度的影响水平、防 守状态下的速度以及空间的创造和生成。

05 量化场区和空间值

虽然对空间的控制是确定空间占据和生成的一个基本要素,但我们仍然需要在等式中增加一个成分: 空间值。移动唯一的目的是为同伴创造更好的传球机会,这本身就是一个优势。然而,容易产生争议的是并非每一个空间都有着相同的价值。确定空间价值的一个常见方法是与对方球门的距离。众所周知,距离球门越近的空间就具有更高的价值,前提是优点可以转化为优势。 但随着探讨足球运动的动力学的深入,根据巴塞罗那足球俱乐部专业分析人士的观点,空间价值的动态评估取决于多个位置因素,如球的位置和球员的位置。上述观点可能会引起大家的争议。为了详细量化生成或占据的空间价值,我们提出了一种新的模型,它可根据球的位置求出场上的每个位置的相对场区值。下面的视频可以观察到如何根据球的位置对场区值进行动态评估。

与其事先定义一个空间估值模型,我们更愿意从运动员多场比赛的时空行为中提取空间价值感。为此,我们提出了以下假设: 考虑到比赛场景极多,防守一方球队分布在球场各个有价值的空间。很显然,在任何特定的位置,防守者都会由于超负荷运转、进攻球员的特定位置和其他情况而出现位置偏差。总的来说,大多数球员将始终停留在高价值区域附近。这方面的一个极端例子就是进攻一方的球队把所有的球员都安排在中场区域。虽然这会影响防守方的位置,但他们很可能还会让球员留在罚球区和本方球门附近,这极具争议性。请注意,类似的想法被用于篮球项目中时,则根据防守队员的位置确定相应的防守站位[7]。

在此基础上,我们建议研究防守球队在既定的场区位置、既定的球的位置上的总影响。设VK, l(t)是球在时间t时的位置值pk,场区l在时间t; 再设pb(t)是球在时间t上的位置,我们想要研究函数fn以及它的参数θ,空间值作为球的函数。

乍一看,以球的位置与场地位置之间的关系来预测场区值似乎是复杂的、非线性的。在我们测试几个线性模型之后,我们观察到用非线性替代方案,绩效有了显著的改善。因此,可以继续使用此类模型。为了解决这一假设问题,我们使用一个浅层的前馈神经网络,来研究方程式3中定义的映射参数θ。对于研究过程,我们建立了一个数据集。其中目标值VK, l(t)是通过最小化耗损方程式4进行计算,对应着既定场景下每个防守球员d的影响力之和。

防守场景是指对手拥有控球权的比赛状 态。在21乘15的方格内,为每个防守球员i找出每个位置(k,l)的球员影响力之和。选中的不同场景在时间上至少间隔三秒钟。在这里,我们使用Metrica体育设备跟踪20场西甲第一级别和第二级别联赛的比赛数据,组成240万个例子。为了研究参数,我们使用了一个浅层的前馈神经网络,并使用亚当(adam)优化计算程序[8]。具体来说,我们的目标是寻找最优参数θ*,使方程式5中显示的耗损函数值L最小化。我们选取均方误差作为耗损函数值L,双弯曲函数作为激活函数f。

通过10次重叠的交叉验证过程,我们找到了最好的模型。为了获得既定球位置的场区位置估值,我们现在查看输入条件的模型。图4显示了三种不同的球的位置场景以及所获得的场区值。

(d)以球为垂直中心的场地第四节场区值

图4 预测既定的球的位置(白色圆圈)在[0,1]范围内的场区值

从该模型我们了解到,球附近的位置在一定范围内其价值不断增加,这样就可以有效地理解如何根据球的位置来转换场区值。此模型尚缺乏直觉推理。在第一个四分之一场区的位置值较高的位置的空间生成,不应与最后一个四分之一场区的有较高的位置值的位置有相同的估值。换句话说,当场区越往前,越接近对方的球门,空间的累积值就越高。为了适应这种直觉思维方式,我们将获得的场区值依据位置距球门的距离,在[0,1]范围内归一化。

图5 既定的球的位置在[0,1]范围内的预测场区值,根据离球门的距离的模型归一化

根据专业人士分析,图5显示了归一化表面和三种不同的场区值情况,所有结果仍适配 球的位置。但显示出更加一致的场区估值, 这应对了对球位置的作用。我们看到当本方守门员控球时,全部场区的空间值是有限的。但是如果在对手的禁区里,空间值则高很多,因为它可以带来有威胁的射门。

06 空间占据与生成

在此之前,我们将空间的占据和生成作为以提高球队选位质量为重点的行动,目的是获得更好的进球机会。那么,既定球员的选位质量与空间的最佳控制有关,以此来获取更高价值的空间。因此,我们可以将自有空间的质量Q表示为所有权水平(控制)PC和空间值V的函数,如方程式6所示。

在第3节和第4节定义的基础上,我们可以通过我们的球队场区控制模型来建立PCi(t)模型,且V(t)使用了与球相关的场区值模型。图6显示了在既定的比赛状态下球队的场区控制、场区值和获得的自有空间质量。现在可以详细界定我们提出的两个主要的假设概念: 空间占据所得和空间生成所得。

图6 场区控制、场区值以及红色进攻球队自有空间值,进攻方向由左向右

07 空间占据所得

既然我们有了所需的工具来表示某一特定时间内空间所有权的价值,我们就可以定义一个能及时识别空间占据所得的模型。如第二节所述,我们提出了空间占据所得(SOG)的概念,作为在一定时间窗口内拥有相对数量的自主空间质量。另一个相反的概念是空间占据损失(SOL),它与时间窗内的负收益有关。对于既定的球员i,在时间窗口[t+1,t+w+1]中, 我们首先定义时间窗口内所得G作为空间占据质量Q的平均差。如方程式7所示。

考虑到足球的动态性,球员始终处于一个赢得空间和失去空间的不间断过程中。当球离开球员时,附近的防守球员跟随球移动,这时可能出现一小块空当,让球员更好地控制空间。然而,在高速跑动状态下,进攻者和防守者之间也会出现同样的情况,进攻者会移动得稍快一些。 在另一种情况下,当球员向空当移动时,所得空间可能中等或较多。鉴于此,有必要定义一个空间所得水平,从这个水平上所得的空间可以被看作是一种真正的占据优势,而不是特定场景下缓慢移动之后自然而然的结果。我们设置了一个常数ε作为阈值来说明空间占据所得,前提条件是空间占据所得应高于该阈值。我们将同样的方法用于空间占据损失。这两个表达式分别在方程式8和9中加以定义。

另一种说法,提高所得空间质量是获得空间的方式,特别是球员的速度。我们给出两个定义: 主动的和被动的空间占据所得。当运动员以快于慢跑的速度(>1.5m/s[9])向一个空间移动时,那个空间被主动占据。否则,我们认为是被动占据。

07 比赛分析

在现代足球中,创造和占据空间的能力是两个常见的训练概念。训练中,教练会 打断球员的练习并改变练习内容,指导球员如何调整自己位置向有价值空间移动,离开球场上的低价值场区。在分析球员的无球运动表现时,教练更愿意使用视频分析。尽管精英足球分析人员通常有能力通过可视化比赛去理解复杂的概念,空间创造的动力频繁地转瞬即逝,视频分析人员意图捕捉所有的空间创造显然不切实际,哪怕是分析一场比赛。然而,就足球空间的量化而言,没有场地实测值这一点很重要。我们通过视频对所提出的概念进行了广泛的验证。在巴塞罗那足球俱乐部两名足球视频分析专家的帮助下,我们研究了比赛中出现的个别场境,以此调整我们的量化方法。下列视频是我们使用的基于视频的量化工具示例:

在此基础上,就2017年1月进行的西班牙第一级别官方比赛巴塞罗那足球俱乐部与比利亚雷亚尔足球俱乐部的比赛,我们提交了一份完整的无球移动数据总结报告。此外,我们还特别提交一份分析报告,通过运用运动光学跟踪数据重点分析了空间占据和空间生成概念。这场比赛以1-1结束,第一粒进球是比利亚雷亚尔队在49分钟(下半场)完成,巴塞罗那队在第90分钟由梅西完成一次进球,将比分扳平。就比赛而言,在比赛最后关头巴塞罗那队急需一个进球扳平比分,因此需要最大限度地占据和生成空间,以获得得分机会。为了识别空间占据和生成动作,我们研究了巴塞罗那球员用脚控球的所有进攻场景。根据每个进攻场景以及巴塞罗那足球分析专业人士的观点,我们定义了每次控球后三秒的窗口w,共有845种不同情况。贴近度因子δ设为5米,这是根据对手持球平均时间所完成的最小移动距离。我们还将空间生成的最小吸引距离α设定为3米。

展开更多