京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:真达、Mika
数据:真达
【导读】
2020年年初,突然袭来的新冠疫情给我们的生活带来了巨大的改变,与此同时也让许多国际体育赛事停摆。3月24日,东京奥组委宣告,2020东京夏季奥运会延期至2021年夏季举行。
随着国内疫情逐渐得到有效控制,我们的生活已步入正轨,但全球的疫情形势还很严峻。8月份以来,日本的第二波疫情来势汹汹,单日新增确诊人数不断刷新历史新高,11月18日单日新增确诊人数已达到2201人。
这也使得原本延迟一年的2020东京奥运会,再次笼罩上了一层不确定性。人们不禁在想,已经要延期一年的东京奥运会还能顺利举办吗?
那么关于奥运会这场世界上影响力最大的体育盛会,背后有哪些有趣的数据。
奥运会参赛国数量和比赛项目有哪些变化?
各国累计奖牌数排名是怎样的?
参赛运动员的年龄和身高有哪些特征?
今天我们就带你用数据来好好盘一盘。
奥林匹克运动会发源于两千多年前的古希腊,因举办地在奥林匹亚而得名。并于1896年举办了首届奥运会,1924年举办了首届冬奥会,是世界上影响力最大的体育盛会。
01数据理解
我们选取了一个关于现代奥运会的历史数据集,包括从1896年雅典奥运会到2016年里约奥运会的所有奥运会。
数据集取自网站:www.sports-reference.com
需要注意的是,冬季奥运会和夏季奥运会从1994年起分开,每两年间隔举行,1992年冬季奥运会是最后一届与夏季奥运会同年举行的冬奥会。自1924年开始第1届,截至2018年共举办了23届,每四年一届。
athlete_events.csv 文件包含271116行和15列。每一行对应于在一个单独的奥运会项目(运动员项目)中参赛的运动员。列为:
02读入数据
首先导入包和数据。
# 导入库 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import plotly as py import plotly.graph_objs as go import plotly.express as px import plotly.figure_factory as ff from plotly.subplots import make_subplots pyplot = py.offline.plot
# 读入数据
df_athlete = pd.read_csv('./archive/athlete_events.csv')
df_regions = pd.read_csv('./archive/noc_regions.csv')
df_athlete.head()
df_athlete.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 271116 entries, 0 to 271115 Data columns (total 15 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 271116 non-null int64 1 Name 271116 non-null object 2 Sex 271116 non-null object 3 Age 261642 non-null float64 4 Height 210945 non-null float64 5 Weight 208241 non-null float64 6 Team 271116 non-null object 7 NOC 271116 non-null object 8 Games 271116 non-null object 9 Year 271116 non-null int64 10 Season 271116 non-null object 11 City 271116 non-null object 12 Sport 271116 non-null object 13 Event 271116 non-null object 14 Medal 39783 non-null object dtypes: float64(3), int64(2), object(10) memory usage: 31.0+ MB
df_regions.head()
03数据预处理
此处对数据做以下处理,以方便后续的分析:
# 合并数据
df_all = pd.merge(df_athlete, df_regions, how='left', on='NOC')
# 处理Sex列
df_all['Sex'] = df_all['Sex'].map({'M': 'Male', 'F': 'Female'})
# 处理Medal列
df_all['Medal'].fillna('No Medal', inplace=True)
df_all.head()
04数据可视化
我们使用处理好的数据做数据可视化分析,结果如下:
1奥运会总体数据
参赛国家数量变化
整体上来看,参赛国家呈现上升趋势,但其中有两届奥运会存在异常的下降。分别是:
1976年蒙特利尔奥运会:出现了规模空前的反种族歧视行动,此次运动会遭到了非洲国家的抵制,规模远逊于上届。
1980年莫斯科奥运会:为了表示对苏联入侵阿富汗的谴责和愤怒,美国带头拒绝参加1980年的莫斯科奥运会,并号召其他国家一起抵制。在美国的号召下,最终一共有65个国家抵制莫斯科奥运会,占当时报名参赛国数量的五分之二。最后只有80个国家参加莫斯科奥运会, 大约5000余人参赛,参赛人数还没有参与报道的记者数量多,创历史记录。
比赛项目数量变化
可以看出,奥运会的比赛项目呈现波浪式上升的趋势,其中在1980-2000年这20年,比赛项目增长趋势最大,且以夏季奥运会尤为突出,但2000年以后比赛项目增加趋势慢慢变为平稳的态势了。
各个国家累计奖牌数量TOP 20
我们选取了各个项目获得奖牌数目排名前20的国家,通过比较发现美国不管是金牌、银牌还是铜牌都领先很多,然后是俄罗斯和德国。由于缺席了多届奥运会,我国的累计奖牌数排名偏后。
2奥运会参赛运动员数据
每届参赛人数
从图中可以观察到,夏季奥运会参赛最多人数的是2000年的悉尼奥运会,参赛人数13821人,冬季奥运会参赛人数最多的是2014年,参赛人数4891人。
参加夏季奥运会的人数远远多于冬季的人数,可能是比赛项目少的原因。同时,第一次世界大战和第二次世界大战期间没有举办过奥运会。
参赛运动员男女人数和比例变化
(男女人数变化)
(男女比例变化)
我们纵观整个奥运历史,虽然奥运会的开始,运动员男女比例较为悬殊,男性运动员占比一直高于女性运动员。但是我们可以看到,随着奥运会的发展,女性运动员的占比一直在提升,目前参加奥运会男女比例几乎接近于1:1。
参赛运动员年龄和奖牌数
图中可以看出,年龄的分布呈现右偏分布,其中80%的区域集中在19岁到33岁之间,25岁左右是运动员的黄金年龄。
纵观整个奥运史,年龄最小的运动员仅为10岁。1896年,第一届现代奥运会在希腊举办,仅仅10岁零218天的东道主体操选手Dimitrios Loundras参赛并获得了铜牌,
1928年阿姆斯特丹夏季奥运会中,一名97岁高龄的美国“运动员”,参加了雕刻的“运动项目”,但并未获得名次。这个记录应该是不会被打破了。
参赛运动员的身高、体重分布
(身高变化)
(体重变化)
我们筛选了1960年之后的数据,发现参赛选手中男性身高分布在127cm-226cm之间,女性身高分布在127cm-213cm之间,男性体重的分布在37kg-226kg之间,女性的体重分布在25kg-167kg之间。
结语
由于新冠疫情的影响,日本东京奥运会成为了现代奥林匹克运动史上首届被推迟的奥运会。而这次延期带来的影响无疑是巨大的,据多家日本媒体报道,东京奥运会推迟举行造成的直接经济损失约为60亿美元。赛事场馆和酒店的支出、人力成本等各项额外开支,都会让东道主接下来的筹办捉襟见肘。总之,还是期待明年的全球疫情能够有所好转吧...
参考资料:
http://rstudio-pubs-static.s3.amazonaws.com/510365_4989159dfb754097843f17b9606aabfe.html
维基百科 奥林匹克运动会
https://zh.wikipedia.org/wiki/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A
——热门课程推荐:
想学习PYTHON数据分析与金融数字化转型精英训练营,您可以点击>>>“人才转型”了解课程详情;
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25在数字化时代,数据已成为企业核心资产,而“数据存储有序化、数据分析专业化、数据价值可落地”,则是企业实现数据驱动的三大核 ...
2026-02-25在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14