热线电话：13121318867

从小白到进阶 | 10 个适合数据人练手的 Kaggle 数据集

2022-08-24

CDA数据分析师出品

作者：Andrew Lombarti

编译：Mika

Kaggle 是一个很流行的数据科学竞赛平台。在上面，你不仅可以参加各种数据分析题竞赛，还可以通过各行业的真实数据集来实践自己的技能。

在本文中我们将介绍 10 个数据集，从适合新手小白到高级进阶人群的都有。这些数据集非常有趣，而且还很适合在面试前练习技能。

下面让我们一起来看看吧！

01、泰坦尼克号数据集（初级）

泰坦尼克号数据集是 Kaggle 上最热门的数据集之一。这是一个很好的入门数据集，当中涉及到 13 个变量和超过 1500 个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。

目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集，你可以看到已婚女性比单身男性有更高的存活概率。

该数据集中的变量有：

年龄
性别
已婚或单身
船票等级（一等、二等、三等）
上船地点（伦敦、南安普敦）
乘客票号
……

关于如何处理这个数据集，网上已经有很多教程了。如果你想挑战一下自己，不妨试着预测乘客在不同地点登船的存活率。

泰坦尼克号数据集链接：

https://www.kaggle.com/c/titanic

02、鸢尾花数据集（初级）

这个数据集是一个经典的二进制分类问题。目的是通过花萼长度，花萼宽度等属性预测鸢尾花属于（Setosa(山鸢尾)，Versicolour(杂色鸢尾)，Virginica(维吉尼亚鸢尾)）三个种类中的哪一类。

例如，山鸢尾的花瓣较短，萼片较宽。假如花瓣长度大于 3 厘米，萼片小于 6 厘米，那么这种花很可能属于山鸢尾。

此数据集中的变量如下：

花瓣长度
萼片宽度
花瓣长度
……

同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit-learn”。对于初学者来说，这是一个非常好的教程，当中因展示了如何使用Scikit-learn ，还具有预构建的功能，能帮你轻松地训练模型。

鸢尾花数据集链接：

https://www.kaggle.com/uciml/iris

03、列车数据集（初级）

列车数据集也是 Kaggle 上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。

目的是预测乘客是否会在某站下车。根据数据集，可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。

数据集中的变量如下：

年龄
轨道类型（公路、货运）
周末或节假日
……

根据这些变量，有多种方法可以预测某人是否会在某站下车。

列车数据集链接：

https://www.kaggle.com/c/train-occupancy-prediction/data

04、波士顿住房数据集（初级）

波士顿住房数据集包含波士顿市住房的信息。当中有超过 20 万条记录和 18 个变量，目标是预测房价是否昂贵。数据集有三个不同的类别，分别是：昂贵、正常以及便宜。

当中的变量包括：

卧室数量
浴室数量
平均房间数
……

如果你对数据科学领域感兴趣，这个数据集是一个很好的尝试。内容有趣而且不是太难。

波士顿住房数据集链接：

https://www.kaggle.com/c/boston-housing

05、酒精与药物关系（中级）

酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。

该数据集的目标是根据两种药物的化学结构，从而预测它们是否会相互作用。例如，数据集中表示布洛芬和扑热息痛可以相互作用，因为它们都是抗炎药（NSAIDs）。

数据集中的变量包括：

药物 A 结构（化合物）
药物 B 结构（化合物）
药物 A 和 B 活性（是/否）
……

这是一个很好的数据集，可以用来练习数据可视化技能。你可以在当中试着创建图表，显示不同药物之间的相互作用。

酒精与药物数据集链接：

https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018

06、威斯康辛州乳腺癌（中级）

对于那些在数据科学方面比较有经验的人来说，威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。

该数据集的目标是根据病人的特征来预测是否患有癌症。

例如，你可以从数据集中看到，肿瘤大小若小于 0.50 厘米，患者有 98% 的生存机会，而肿瘤大小大于或等于 0.80 厘米，患者只有15%的生存机会。

数据集中的变量有：

肿瘤大小
肿瘤的等级
影响到的淋巴结
……

网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己，可以尝试预测不同肿瘤大小的生存率。

威斯康星州乳腺癌数据集链接：

https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

07、印第安人糖尿病（中级)

这个数据集是关于预测糖尿病的。这个比赛有超过 15 万个例子，你需要预测病人是否会患糖尿病（二元分类）。

变量相当简单，因为只有一个特征：

糖尿病

这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。

印第安人糖尿病数据集链接：

https://www.kaggle.com/uciml/pima-indians-diabetes-database

08、亚马逊评论数据集（中级）

亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。

这个数据集很有趣，当中有正面和负面评论，数据集的目标是预测评论是正面还是负面的。

变量有：

评论文本（一个字符串）

关于如何处理这个数据集，也有很多教程。如果想加大难度，你可以尝试预测情感分析，然后在此基础上建立模型。

亚马逊评论数据集链接：

https://www.kaggle.com/bittlingmayer/amazonreviews

09、MNIST手写数字图像识别(高级)

该数据集包含了很多手写体数字图像，当中由大小为 28x28 像素的图像组成，有 6 万个训练实例和 1 万个测试实例。

该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题，通常要使用卷积神经网络（CNN）。

网上有很多关于如何处理这类问题的教程，所以我建议你先从基础知识开始，然后再继续学习更高级的方法。

MNIST手写数字数据集链接：

https://www.kaggle.com/c/digit-recognizer

10、CIFAR-100(高级)

CIFAR-100 数据集非常适合练习机器学习的技能。该数据集包含了 100 张物体的图像，分为六个类别：飞机、汽车、猫、鹿、狗和船。每张图片是 32x32 像素，有三个颜色通道（红、绿、蓝）。

该数据的目标是预测每张图片属于这六类中的哪一类。

数据集中的变量有：

像素
红色通道
绿色通道
蓝色通道
……

有很多关于如何应对这一挑战的教程。想加大难度的话，尝试预测以某种方式扭曲或变换的图像标签。

CIFAR-100 数据集链接：

https://www.kaggle.com/fedesoriano/cifar100

结语：

本文中列出的 10 个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门，可以先试着做一些比较简单的数据集，由浅到难，不断深入进阶。

参考链接：

https://towardsdatascience.com/10-datasets-from-kaggle-you-should-practice-on-to-improve-your-data-science-skills-6d671996177

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征数据分析数据可视化神经网络图像识别情感分析机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇我用这个代码识别简单的图片为什么识别不出来？

下一篇没想到啊，Python类还可以这样写，简洁又强大

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从小白到进阶 | 10 个适合数据人练手的 Kaggle 数据集

01、泰坦尼克号数据集（初级）

02、鸢尾花数据集（初级）

03、列车数据集（初级）

04、波士顿住房数据集（初级）

05、酒精与药物关系（中级）

06、威斯康辛州乳腺癌（中级）

07、印第安人糖尿病（中级)

08、亚马逊评论数据集（中级）

09、MNIST手写数字图像识别(高级)

10、CIFAR-100(高级)

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

【CDA干货】正态分布异常事件识别与处理方法：数据 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：孙尚亮谈制造行业数据分析与生产采 ...

【CDA干货】DataFrame数据归一化：核心原理、常用方 ...

从“零散标识”到“结构资产”：CDA数据分析师视角 ...

【CDA干货】数据分析如何辅助商业谈判决策：从经验 ...

【CDA干货】T检验完整实操教程：核心原理、分类场景 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载