京公网安备 11010802034615号
经营许可证编号:京B2-20210330
编者注:相比于其他体育运动,足球的数据统计和分析工作开展得很晚,而且鉴于比赛的特殊性也没有太多的经验可供参考。不过,随着大数据时代的到来,这种趋势越来越明显,我们需要做的不仅是搜集数据,而且需要更好的分析数据以服务于这项运动。已经看到,越来越多的先行者已经开始涌入足球数据分析领域,而且得到了不错的结果,不过同志们还需继续努力啊!
在棒球分析领域有一个学派认为,如果没有这么多技术统计数据的话,棒球运动会发展的更好。之所以这么讲是因为他们声称这些目前被统计的数据不一定就是真实反映棒球比赛的决定性数据,他们只是最易于统计的数据而已。不管你同不同意这个观点,这确实直指棒球数据分析的痛处,仍然是人们争论的焦点。
这不是说你相不相信这些数据,而是说新的数据是否真的能取代原有的统计结果。就算是偶尔看看棒球打发时间的人也会更习惯原来的统计结果,部分原因是这些数据已经在棒球运动中存在了很长时间,事实上,人们总是习惯于早已熟知的数据统计,而对于学习新的数据分析结果保持谨慎态度。
对于足球来说,以前几乎没有什么统计数据。事实上,对于这么一个流畅性的比赛来说,也很难不借助科技手段去统计一些诸如传球次数等数据。人们开始系统性的记录一些关于比赛的统计数据也就是近十年来的事情,因为现在这个时代人们都乐于收集和分析数据,同时可以从中获得收益。类似OPTA 和Prozone 等专注数据统计分析的公司已经开始涌现,他们的盈利模式也是将这些数据卖给俱乐部或者媒体(事实上像ESPN,SKY Sports 等媒体的数据统计板块都是由OPTA 提供支撑的)。
就像曾经在棒球或其他一些数据导向的运动中探索更新更先进的评价指标那样,现在人们也迫切希望能够在足球领域找到一些新的统计指标,因为有启示性的衡量指标必然是数据分析的产物。不过这不是一蹴而就的,因为现在数据统计公司在足球领域中做的数据收集工作仅仅是一百年前棒球领域就做完了的。
现在,足球终于有了大量的数据,下一步就是怎么样更好的利用这些数据。不同于棒球等其他一些主流的运动(这些运动领域数据统计早已有之,数据分析只是近来兴起),足球领域目前比较独特的情景是数据的统计和分析是在同步展开的。
数据统计
让我们回到开头那个问题,如果没有技术统计数据,棒球是否会发展的更好?这个问题对于足球数据统计来说至关重要。
近年来涌现出一批诸如WhoScored、Squawka和FourFourTwo’s Stats Zone(均由OPTA 提供数据支持)之类的网站,他们把比赛的数据统计结果更好的展现给了球迷。这些网站主要提供个人和球队的比赛统计信息,这听起来让人觉得有点像棒球的技术统计数据,他们提供的信息让你可以知道哪个球员一场比赛乃至一个赛季的各项统计数据,还有一些类似热点图和传球线路图等的图片方式更好的呈现这些数据。
但是他们并没有进一步去提供如何利用这些数据进行比赛分析的内容。某某后卫的场均拦截率很高对球队很重要吗?某某射手的低得分率是否真的意味着他是一个浪射帝,以后应该多传球呢?抑或仅仅因为他运气太糟糕?一名传球成功率高达95%的防守球员要比一名传球成功率只有78%的边锋更适合下底传中么?
我们拥有这些数据,但是我们并不能解决这些问题,因为我们不清楚到底哪些数据对于比赛分析真正重要。
这种景象可以让人闪回到棒球领域刚开始进行数据革新的时候:如果你不知道他们到底有什么用的话,为什么要引用这些统计数据呢?这就是我不明白为什么在过去50多年的棒球直播中总要提到类似RBI(Run battled in,棒球术语:打点) 这种无用的数据!
毫无疑问,使用数据针对某些球员或球队的优异成绩做出一些无法证明的假设绝对是误入歧途。但是,这并不意味着不能使用这些数据。
如果反对使用这些统计数据同时意味着反对使用这些数据来描述比赛信息,以及球队和球员的表现。尽管棒球的传统统计数据无法有效分析及预测未来的比赛,但是他们对于描述历史信息的描述是很有用的。试着不用任何统计数据讲一下巴尔的摩金莺队过去一周的表现,或者解释一下Clayton Kershaw 有多么棒。
虽然原来的统计数据无法解释为什么球员和球队的表现是好还是坏,以及未来会怎样;但是使用这些数据来描述球员和球队的表现还是很直观的。
十年前,可能没人知道哈维每场比赛究竟传了多少次球,成功率是多少。没有这些信息,大多数人们也无从深入了解哈维究竟有多么伟大,或者他在什么时候状态开始有所下滑。同样的,你在观看洋基队巨星Derek Jeter 的比赛时,你只能说:“三年前,他的打击率非常高,今年他的该项数据有所下滑。”
即便是最原始的统计数据也会让我们清楚地了解比赛中发生了什么。如果没有这一步的积淀,接下来我们就很难解释为什么这些情况会发生,或者接下来会发生什么。这些作为数据分析基石的原始统计数据在美国体育中广泛存在,但是在足球领域却是一个全新的概念。
数据分析
我们当然希望从这些简单的描述性的统计数据背后能够挖掘出更多关于足球比赛本质的信息。虽然这方面已经开展了很多工作,也有了一些进展,但是还只是在萌芽阶段。
总射门率(Total Shots Ratio,TSR)是高级足球统计数据的鼻祖,他最初是由James Grayson 从冰球领域引入到足球中的。这个指标设计的初衷十分简单:强队一般情况下射门次数都比较多,同时他们会让对方很少有起脚的机会。
这项统计数据的威力在于它有很好的自相关性,并且可以更好的预测结果。实证分析显示球队过往的TSR 能够预测该队未来的TSR,同时它对于未来比赛进球数和结果的预测要比基于球队过去的进球数和结果效果更佳。
在赛季初进行排名预测的时候,TSR 是一个很好的先行指标(虽然很多砖家会抛开这项数据,他们凭自己的直觉预测最终排名,这里有个梗,该指标预测的结果显示曼联最终排名不可能进入前三,但是所谓的砖家,其实就是作者自己觉得曼联前三有戏,我们只能留待赛季末再来挖坟了~),当然在实际管理球队的时候它就不见得那么灵验了。
但是在冰球比赛中,可以随时调整球队阵容,而且射门次数很高,这使得能够我们能够细化分析哪名球员在球场上的时候球队表现最佳。而在足球比赛中,只有三次换人名额,同时射门次数也少的可怜,这就使得TSR 对于球员层面的评估作用很有限(至少目前没有很好的结果)。
最近,期望进球数(Expected Goals,ExG)又作为一个新的衡量指标出现。从预测的角度来看,ExG 与TSR 的表现结果不相上下(Grayson 对比了这两项指标,并给出了一些理论分析),但是ExG 的一个好处是它既可以预测球队的表现,也能预测球员个人的表现。换句话说,你可以通过球员的总进球数,并且基于他们的射门次数来预知他们未来的进球数。
将射门数据进行分解有点类似于棒球中将场内安打率(BABIP)从平均打击率(AVG)中分解出来。结果证明,与球员一般难以有持续高或低的 BABIP 类似,球员们也很难长期的踢出高于或低于他本身ExG 的数据。但是不得不又一次指出的是,这些工作仅仅只是足球数据分析的起步阶段。
调和数据统计与分析
你可能注意到的一个问题是目前大量的分析工作都与射门有关,但是这并不完全对。比如Caley 提出的ExG 模型中就将导致射门的传球类型考虑在内。StatsBomb 的Ted Knutson 创造了一个叫做球员雷达(player radars)的工具通过加入诸如球员比赛时间、本方半场控球率等指标来更全面更精确的描绘球员的统计数据
当然值得注意的是,这些数据如何进行综合集成,从而形成球队的数据又是一个令人头大的问题。但是就目前来说,数据分析工作中还未囊括将手头已有的统计数据以矩阵的形式综合起来分析。
这种情况的出现有很多原因,部分原因是目前公共领域的专家仅仅投入了少量时间来研究这些信息。而且,即便你想做大量的分析,目前的统计数据可能只有五到十年,不像棒球那样有近百年的大量数据,这使得你无法得出更有效的结论。
很有可能足球领域很多重要的数据我们还没有搜集到呢,与此同时,一些统计数据可能除了描述之外再无其他分析价值。关键是我们如何找到那些真正值得分析的数据。
说到底,我们需要统计数据来辅助分析,而分析的目的则是为了找到足球领域各种问题的答案。但是,如果棒球领域发生的事情对我们有所启发的话,那就是使用统计数据既有可能帮助我们真正发现有价值的信息,也有可能让我们误入歧途得到错误的结论。
足球领域内的统计数据太少了,以至于任何指标都需要合成,但是足球数据统计方面落后棒球一百年并不意味着足球就不会有自己特有的评价指标。而且足球领域确实有一点优势,那就是在棒球运动中,那些基于统计数据的各种假设猜测已经流行了一百年之后才被数据分析所冲击,而足球领域,数据统计和数据分析是齐头并进的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26表格结构数据以“行存样本、列储属性”的规范形态,成为CDA数据分析师最核心的工作载体。从零售门店的销售明细表到电商平台的用 ...
2025-11-26在pandas数据处理工作流中,“列标签”(Column Labels)是连接数据与操作的核心桥梁——它不仅是DataFrame数据结构的“索引标识 ...
2025-11-25Anaconda作为数据科学领域的“瑞士军刀”,集成了Python解释器、conda包管理工具及海量科学计算库,是科研人员、开发者的必备工 ...
2025-11-25在CDA(Certified Data Analyst)数据分析师的日常工作中,表格结构数据是最常接触的“数据形态”——从CRM系统导出的用户信息表 ...
2025-11-25在大数据营销从“粗放投放”向“精准运营”转型的过程中,企业常面临“数据维度繁杂,核心影响因素模糊”的困境——动辄上百个用 ...
2025-11-24当流量红利逐渐消退,“精准触达、高效转化、长效留存”成为企业营销的核心命题。大数据技术的突破,让营销从“广撒网”的粗放模 ...
2025-11-24在商业数据分析的全链路中,报告呈现是CDA(Certified Data Analyst)数据分析师传递价值的“最后一公里”,也是最容易被忽视的 ...
2025-11-24在数据可视化实践中,数据系列与数据标签的混淆是导致图表失效的高频问题——将数据标签的样式调整等同于数据系列的维度优化,或 ...
2025-11-21在数据可视化领域,“静态报表无法展现数据的时间变化与维度关联”是长期痛点——当业务人员需要分析“不同年份的区域销售趋势” ...
2025-11-21在企业战略决策的场景中,“PESTEL分析”“波特五力模型”等经典方法常被提及,但很多时候却陷入“定性描述多、数据支撑少”的困 ...
2025-11-21在企业数字化转型过程中,“业务模型”与“数据模型”常被同时提及,却也频繁被混淆——业务团队口中的“用户增长模型”聚焦“如 ...
2025-11-20在游戏行业“高获客成本、低留存率”的痛点下,“提前预测用户流失并精准召回”成为运营核心命题。而用户流失并非突发行为——从 ...
2025-11-20