热线电话：13121318867

命运多舛的东京奥运会开幕在即，用可视化带你纵览120年奥运史

2021-07-19

CDA数据分析师出品

作者：Mika

【导读】

今天带大家用数据可视化解读120 年奥运变迁史。

几经波折，东京奥运会终于即将迎来开幕的时刻，距离7月23日东京奥运会开幕只有不到一周的时间了。

这次东京奥运会真可谓是命运多舛，在2020年3月24日，东京奥组委宣告，2020东京夏季奥运会延期至2021年夏季举行。

很快一年过去了，原以为疫情会过去，奥运会可以如常展开。不想除了中国，全世界的疫情反反复复，Delta毒株的肆虐使得疫情更严重。

在这种形势下的东京奥运会也出台各种防疫新规：

东京奥运会开幕式有可能将入场观众人数压缩至1000人以下；

运动员间需要保持社交距离，除了吃饭、睡觉、训练和比赛时间外，确保始终戴着口罩；

乒乓球赛制方面，比赛时运动员不许手触球台和吹球；

…...

这注定让这次奥运会成为最不平凡的一届，而各种因素也导致本届奥运会的各国奖牌榜更加难以预测，著名体育数据公司Gracenote就在预测报告中说：“由于新冠肺炎疫情的影响，东京奥运会或许成为最不可预测一届奥运会。”

那么关于奥运会这场世界上影响力最大的体育盛会，背后有哪些有趣的数据？

奥运会参赛国数量和比赛项目有哪些变化？
各国累计奖牌数排名是怎样的？
参赛运动员的年龄和身高有哪些特征？
今天我们就带你用数据来纵览120年奥运史。

奥林匹克运动会发源于两千多年前的古希腊，因举办地在奥林匹亚而得名。并于1896年举办了首届奥运会，1924年举办了首届冬奥会，是世界上影响力最大的体育盛会。

01、数据理解

我们选取了一个关于现代奥运会的历史数据集，包括从1896年雅典奥运会到2016年里约奥运会的所有奥运会。

数据集取自网站：www.sports-reference.com

需要注意的是，冬季奥运会和夏季奥运会从1994年起分开，每两年间隔举行，1992年冬季奥运会是最后一届与夏季奥运会同年举行的冬奥会。自1924年开始第1届，截至2018年共举办了23届，每四年一届。

athlete_events.csv 文件包含271116行和15列。每一行对应于在一个单独的奥运会项目（运动员项目）中参赛的运动员。列为：

ID - 运动员的ID编号
Name - 运动员姓名
Sex - 性别
Age - 年龄
Height - 身高(cm)
Weight - 体重(kg)
Team - 队伍名称
NOC - 国家奥委会编码
Games - 年份和季节
Year - 年份
Season - 季节
City - 主办城市
Sport - 体育运动
Event - 比赛项目
Medal - 获奖情况(金牌、银牌、铜牌或无)

02、读入数据

首先导入包和数据。

# 导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as py
import plotly.graph_objs as go
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
pyplot = py.offline.plot

# 读入数据
df_athlete = pd.read_csv('
./archive/athlete_events.csv')
df_regions = pd.read_csv('./archive/noc_regions.csv')
df_athlete.head()

df_athlete.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 ID 271116 non-null int64
1 Name 271116 non-null object
2 Sex 271116 non-null object
3 Age 261642 non-null float64
4 Height 210945 non-null float64
5 Weight 208241 non-null float64
6 Team 271116 non-null object
7 NOC 271116 non-null object
8 Games 271116 non-null object
9 Year 271116 non-null int64
10 Season 271116 non-null object
11 City 271116 non-null object
12 Sport 271116 non-null object
13 Event 271116 non-null object
14 Medal 39783 non-null object
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MB

df_regions.head()

03、数据预处理

此处对数据做以下处理，以方便后续的分析：

将两个数据集横向合并为一个数据集，Key为NOC这一列
Sex：数据值替换
Medal：空值填充

# 合并数据
df_all = pd.merge(df_athlete, df_regions, how='left', on='NOC')
# 处理Sex列
df_all['Sex'] = df_all['Sex'].map({'M': 'Male', 'F': 'Female'})
# 处理Medal列
df_all['Medal'].fillna('No Medal', inplace=True)
df_all.head()

04、数据可视化

我们使用处理好的数据做数据可视化分析，结果如下：

1、奥运会总体数据

参赛国家数量变化

整体上来看，参赛国家呈现上升趋势，但其中有两届奥运会存在异常的下降。分别是：

1976年蒙特利尔奥运会：出现了规模空前的反种族歧视行动，此次运动会遭到了非洲国家的抵制，规模远逊于上届。

1980年莫斯科奥运会：为了表示对苏联入侵阿富汗的谴责和愤怒，美国带头拒绝参加1980年的莫斯科奥运会，并号召其他国家一起抵制。在美国的号召下，最终一共有65个国家抵制莫斯科奥运会，占当时报名参赛国数量的五分之二。最后只有80个国家参加莫斯科奥运会，大约5000余人参赛，参赛人数还没有参与报道的记者数量多，创历史记录。

比赛项目数量变化