京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:Andrew Lombarti
编译:Mika
Kaggle 是一个很流行的数据科学竞赛平台。在上面,你不仅可以参加各种数据分析题竞赛,还可以通过各行业的真实数据集来实践自己的技能。
在本文中我们将介绍 10 个数据集,从适合新手小白到高级进阶人群的都有。这些数据集非常有趣,而且还很适合在面试前练习技能。
下面让我们一起来看看吧!
泰坦尼克号数据集是 Kaggle 上最热门的数据集之一。这是一个很好的入门数据集,当中涉及到 13 个变量和超过 1500 个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。
目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集,你可以看到已婚女性比单身男性有更高的存活概率。
该数据集中的变量有:
关于如何处理这个数据集,网上已经有很多教程了。如果你想挑战一下自己,不妨试着预测乘客在不同地点登船的存活率。
泰坦尼克号数据集链接:
https://www.kaggle.com/c/titanic
这个数据集是一个经典的二进制分类问题。目的是通过花萼长度,花萼宽度等属性预测鸢尾花属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。
例如,山鸢尾的花瓣较短,萼片较宽。假如花瓣长度大于 3 厘米,萼片小于 6 厘米,那么这种花很可能属于山鸢尾。
此数据集中的变量如下:
同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit-learn”。对于初学者来说,这是一个非常好的教程,当中因展示了如何使用Scikit-learn ,还具有预构建的功能,能帮你轻松地训练模型。
鸢尾花数据集链接:
https://www.kaggle.com/uciml/iris
列车数据集也是 Kaggle 上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。
目的是预测乘客是否会在某站下车。根据数据集,可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。
数据集中的变量如下:
根据这些变量,有多种方法可以预测某人是否会在某站下车。
列车数据集链接:
https://www.kaggle.com/c/train-occupancy-prediction/data
波士顿住房数据集包含波士顿市住房的信息。当中有超过 20 万条记录和 18 个变量,目标是预测房价是否昂贵。数据集有三个不同的类别,分别是:昂贵、正常以及便宜。
当中的变量包括:
如果你对数据科学领域感兴趣,这个数据集是一个很好的尝试。内容有趣而且不是太难。
波士顿住房数据集链接:
https://www.kaggle.com/c/boston-housing
酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。
该数据集的目标是根据两种药物的化学结构,从而预测它们是否会相互作用。例如,数据集中表示布洛芬和扑热息痛可以相互作用,因为它们都是抗炎药(NSAIDs)。
数据集中的变量包括:
这是一个很好的数据集,可以用来练习数据可视化技能。你可以在当中试着创建图表,显示不同药物之间的相互作用。
酒精与药物数据集链接:
https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018
对于那些在数据科学方面比较有经验的人来说,威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。
该数据集的目标是根据病人的特征来预测是否患有癌症。
例如,你可以从数据集中看到,肿瘤大小若小于 0.50 厘米,患者有 98% 的生存机会,而肿瘤大小大于或等于 0.80 厘米,患者只有15%的生存机会。
数据集中的变量有:
网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己,可以尝试预测不同肿瘤大小的生存率。
威斯康星州乳腺癌数据集链接:
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
这个数据集是关于预测糖尿病的。这个比赛有超过 15 万个例子,你需要预测病人是否会患糖尿病(二元分类)。
变量相当简单,因为只有一个特征:
这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。
印第安人糖尿病数据集链接:
https://www.kaggle.com/uciml/pima-indians-diabetes-database
亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。
这个数据集很有趣,当中有正面和负面评论,数据集的目标是预测评论是正面还是负面的。
变量有:
关于如何处理这个数据集,也有很多教程。如果想加大难度,你可以尝试预测情感分析,然后在此基础上建立模型。
亚马逊评论数据集链接:
https://www.kaggle.com/bittlingmayer/amazonreviews
该数据集包含了很多手写体数字图像,当中由大小为 28x28 像素的图像组成,有 6 万个训练实例和 1 万个测试实例。
该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题,通常要使用卷积神经网络(CNN)。
网上有很多关于如何处理这类问题的教程,所以我建议你先从基础知识开始,然后再继续学习更高级的方法。
MNIST手写数字数据集链接:
https://www.kaggle.com/c/digit-recognizer
CIFAR-100 数据集非常适合练习机器学习的技能。该数据集包含了 100 张物体的图像,分为六个类别:飞机、汽车、猫、鹿、狗和船。每张图片是 32x32 像素,有三个颜色通道(红、绿、蓝)。
该数据的目标是预测每张图片属于这六类中的哪一类。
数据集中的变量有:
有很多关于如何应对这一挑战的教程。想加大难度的话,尝试预测以某种方式扭曲或变换的图像标签。
CIFAR-100 数据集链接:
https://www.kaggle.com/fedesoriano/cifar100
结语:
本文中列出的 10 个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门,可以先试着做一些比较简单的数据集,由浅到难,不断深入进阶。
参考链接:
https://towardsdatascience.com/10-datasets-from-kaggle-you-should-practice-on-to-improve-your-data-science-skills-6d671996177
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13