- 最近更新
时间: 2018-07-28 足协杯
7月16日,恒大出台了一个“末位0奖金”的制度,大概意思是组织一个技术小组,对通过数据对出场球员进行技术评定,评分末位的球员将无法获得本场比赛的奖金。
恒大俱乐部文件
设立之初,这个制度并没有引起太大争议。
直到最近,恒大5-0大胜权健比赛后,替补上场的郜林成了“0奖励”的“中标者”,舆论一下子把这个制度抛到了争论中心。
郜林微博:人累了可以睡一觉,那心累了呢……
抛开球队管理艺术、制度设立初衷等复杂问题暂且不谈,争论的一个中心是——
这样的数据评定方法,到底是不是科学的?数据分析,到底是不是能够可观反映场上的情况?
答案是:数据分析本身并无原罪,但恒大的评估体系,很大程度上脱离了数据分析的基本原则。
1 到底什么才是好的数据分析?
为了方便回答这个问题,我们这里援引一下数据分析已经相当成熟的篮球行业(其实就是NBA),来看看同样是你来我往的比赛,目前已经统治NBA管理层的数据分析,是怎么运作的。
按照篮球评论员“旋猫”的介绍,NBA几乎所有数据分析,都以“四要素”为总纲。
1,加成三分投篮之后的有效命中率;2,篮板率(也就是你获得了多少理论上所能够获得的篮板数);3,失误率(量化到每百回合);4,造罚球比重(罚球数/投篮数)。
大家有没有发现这4要素有什么特点?
其实非常简单:第一,它区分了一支球队是在进攻还是在防守。比如你进攻时要算自己的有效命中率,防守时要算对手的有效命中率。
第二,它兼顾了“质”和“量”,有效命中率和造罚球比重决定了你每次进攻能得多少分,表明了你进攻的质。而篮板率和失误率,则决定着你能有多少次进攻机会,体现了进攻的“量”。
足球数据分析,也要遵循这两个原则:
第一,足球是存在攻守分野的,你只有在获得球权的情况下,才能够发起进攻。
由于很少出现一场比赛控球率各站50%控球率的情况,因此,同一场比赛的两支参赛球队,其在相同领域表现机会,是不对等的。
举例来说,曼城打斯托克城,曼城射门次数更多,能不能说明曼城更倾向于射门?
显然不能,因为曼城的控球时间明显要比斯托克城多得多,他们制造射门的可能性也就随之大增。
第二,任何数据分析,都必须兼顾“质”和“量”这两个概念。
举例来说:A球员抢断成功率100%,全场尝试抢断2次;B球员抢断成功率60%,全场尝试抢断5次。那么,谁是更好的抢球手?
答案是:不知道。因为两名球员一个成功率高,一个产量大。
那么,这样的数据分析有什么用呢?这里举一个最简单的例子吧:
好多人都在说,世界杯德国出局,是因为勒夫盲目照搬照抄瓜迪奥拉,非要学Tiki-Taka,结果被对手的反击打爆。但问题是,曼城那边可是踢得风生水起。是不是德国球员不适合Tiki-Taka?
其实,数据分析可以告诉我们:问题的关键在于,勒夫根本就没学到Tiki-Taka的精髓。
如果按照粗糙的统计方式,德国是小组赛期间控球率最高的球队之一(65.20%排名第2),也是传球次数最多的球队之一(场均656.3脚排名第2),似乎是一支很合格的传控球队——但注意,这些都是量的累积!
如果我们按照控球率计算控球时间,再计算每控球一分钟球队的传球数,就会发现——
德国每控球一分钟,传球数只有11.18次,仅排在所有参赛球队的第6位!也就是说,他们根本没做到让皮球流动起来——皮球不流动,能叫“Tiki-Taka”吗?
2 恒大的数据分析,问题在哪?
恒大的5条评定内容如下:
1, 总跑动距离;2, 高强度奔跑距离;3, 传球失误次数;4, 身体对抗次数及成功率;5, 抢断次数及成功率。
我们先来看看恒大的数据评定标准,到底是不是符合我们刚才所说的两个原则,也即攻守区分、质量兼顾。
答案是:并没有。
首先,不知道大家有没有发现,这5项数据当中,没有任何一项能够直接影响进攻结果的数据。
比如“射门”,比如“过人”,比如一些数据网站定义的能够越过几名防守球员的“聪明传球”,比如制造射门机会的“关键传球”,这5条里你能找到吗?并不能。那么,这套评定标准是不是没能做到“攻守区分”?
其次,一个很严重的问题是,“传球失误次数”这一项,是非常糟糕的统计项目。
一方面,它根本没考虑传球次数——传球30次全部成功,和传球100次失误一次,到底哪个更加亮眼?显然是后者。
另一方面,统计项目是非常单调的“传球”,而且只统计失误数,那么,威胁性更大的向前传球、直塞球、传中,以及一些必要的长传,一定是对该统计非常不利的。
再次,尽管是同一支球队,由于有换人,不同球员的出场时间也是不相同的。那么,如果统计的是总量,那么出场时间少的球员,是不是太吃亏了?
最后,这里要提醒大家注意一点:上面说的是球队的数据,而球队数据,是所有球员共同打出来的。这就产生了一个问题:球员的分工是不同的。
比如坎特抢断一定比阿扎尔更多;阿扎尔过人一定比坎特更多,那么,到底谁才是最积极的那一个?
事实上,对球队来说这并不重要,重要的是,坎特托起了切尔西抢断数据;阿扎尔托起了切尔西过人数据。
那么,在一个数据统计极为不全面的评定体系中,是不是有很多球员天然就会处于劣势?
说实话,恒大的这套标准如果拿到切尔西,那么坎特应该永远全队头号球星……
所以我们目前可以得出这样一个结论:恒大的这套评定标准,自身问题非常大。
我们且不说郜林冤不冤,但可以肯定的是,如果这套标准被生硬按照字面意思执行下去,有“冤案”是早晚的事。
3 足球数据分析与通过数据确立唯一评定标准,到底是不是可行的?
这又是容易混为一谈的两个问题。
简单说,答案是:足球数据分析是可行的,但目前来看,它只能评定“风格”,而很难界定“实力”。
比如我们可以通过数据证明,卡塞米罗是更擅长抢断的工兵,而克罗斯是更擅长传球的艺术家。但这两人谁的实力更强,那就很难量化了。
但是,这并不是说数据在评定球员实力时就全无作用。因为我们一定要注意,当球员数据存在档次差异的时候。数据还是能说明问题的。
比如同样是前锋,A球员一个赛季进了25球,B球员20球,两人谁强谁弱?这个其实很难讲,因为两人之间并不存在明显的档次差异,有可能进20球的那个获得的射门机会更少。
但是,如果A球员进25球,B球员只进了10球,那么只要两人出场时间相差不大,不管是什么原因,A都是比B更强的球员。因为两个人的进球数是存在档次差距的。
但是,通过数据确立唯一的评定标准,短时间内是绝对做不到的。
这里我们仍旧援引比较成熟的NBA数据分析法,做个说明:目前公认的比较能表现NBA球员实力的一项高阶数据叫做“RPM”,是ESPN的一项不公开算法的高阶数据。
根据篮球数据分析团队“篮圈即是圆点”介绍,其算法的本质是根据场上球员的不同组合情况,计算某一名球员在和不同队友搭档时在场正负值,然后列出大量的方程去求解,最终得出一个估计值。
这样的算法,我们可以称之为“回归计算”,理论上讲,一个球员所搭档的不同阵容越多,他的RPM就越接近自身的真实表现。那么,现在问题来了:
RPM这样的回归计算,最怕的是什么?毫无疑问,最怕的就是阵容相对固定。
因为这样一来,有可能某一名球员一整个赛季身边的搭档是一成不变的10个人,你根本找不出他和其他人搭档时的基础数据是什么,又该如何通过方程组对他的表现进行“回归计算”?
不巧的是,足球一场比赛就3个换人名额,阵容固定程度,是所有团体运动中极其罕见的……
好吧,总结一下就是:传统进阶数据数据在不存在档次差距的前提下,只能界定球员“风格”,很难界定球员‘“实力”;而回归计算,足球又根本做不成。
所以,短时间内,通过足球数据评定球员实力,是做不到可观公正的。
结语
数据分析是改变传统观念的一项新兴武器,其实不仅仅是广州恒大,很多人都在摸索它的应用方式。这里我们必须指出的两点:
第一,数据分析是没有尽头的,它永远不可能完全把球场上的所有细节都如实客观的反映出来,但数据的进阶性越高,距离客观事实就越近。
而且,真正懂数据的人特别知道自己的数据体系问题在哪里,任何喊着“数据不能反映全部问题”的人,都是在和“数据万能”这个根本就不存在的假想敌作斗争。
第二,数据分析和通过录像进行读场分析并不冲突,二者是相互补充的。好的数据分析者,一定是同时看了大量比赛的。
借用篮球评论员“旋猫”的比喻:看球又三个阶段,第一阶段看山是山,觉得比赛就是比赛,与数据无关;第二阶段看山不是山,觉得自己可以脱离比赛录像去研究数据;第三阶段看山还是山,是带着数据去研究比赛录像。
文:唯心