StatsBomb提供了一份非常详细的足球比赛数据,向公众开放。该数据包含1200多场比赛的记录,有多年的西甲数据,有2018世界杯。当然,其中有梅西。
该数据维度非常详尽,大的方面,记录了每场比赛举行时间、双方队伍、裁判、举办场地以及进球个数等。
具体到每场比赛,记录详细到每秒,以传球为例,哪位球员哪秒在哪个位置传到哪个位置均记录详细。仅仅传球记录就有120万行,这意味着平均每场比赛有1000次左右的传球。
有网友针对数据中的传球流向有个有趣的可视化,混乱中见秩序:
图表来源:https://coolbluedata.com/ordering-chaos/
读者可以在以下网址下载完整数据(JSON格式),看看可以发现什么:https://github.com/statsbomb/open-data
以下针对Power BI导入数据进行一些简要的说明。
首先,使用文件夹的方式导入,Power Query中的Json.Document函数展开数据。
数据中的绝大多数字段为文本,少数字段为Record或者List,如果是Record,可以选中一条数据预览,按需要进行展开。
如果是List,比如下方的传球终点坐标,预览得知XY坐标纵向排列,此时不能直接展开,展开会导致其他数据重复。
需要将List转换为Record,添加自定义列,使用Record.FromList函数进行转换。转换完成后的坐标XY各占一列。
位置的坐标系相对位置可参考下图说明,可以看到和SVG矢量图的坐标方式一致。
数据非常规整,除了以上注意点不用再多说什么。官方写了详细的文档对数据进行说明,文档也在以上链接中。
数据有了,各位读者如有什么有趣的发现,欢迎留言分享。