京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:Andrew Lombarti
编译:Mika
Kaggle是一个很流行的数据科学竞赛平台。在上面,你不仅可以参加各种数据分析题竞赛,还可以通过各行业的真实数据集来实践自己的技能。
在本文中我们将介绍10个数据集,从适合新手小白到高级进阶人群的都有。这些数据集非常有趣,而且还很适合在面试前练习技能。
下面让我们一起来看看吧!
泰坦尼克号数据集是Kaggle上最热门的数据集之一。这是一个很好的入门数据集,当中涉及到13个变量和超过1500个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。
目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集,你可以看到已婚女性比单身男性有更高的存活概率。
该数据集中的变量有:
关于如何处理这个数据集,网上已经有很多教程了。如果你想挑战一下自己,不妨试着预测乘客在不同地点登船的存活率。
泰坦尼克号数据集链接:
https://www.kaggle.com/c/titanic
这个数据集是一个经典的二进制分类问题。目的是通过花萼长度,花萼宽度等属性预测鸢尾花属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。
例如,山鸢尾的花瓣较短,萼片较宽。假如花瓣长度大于3厘米,萼片小于6厘米,那么这种花很可能属于山鸢尾。
此数据集中的变量如下:
同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit Learn”。对于初学者来说,这是一个非常好的教程,当中因展示了如何使用scikit learn,还具有预构建的功能,能帮你轻松地训练模型。
鸢尾花数据集链接:
https://www.kaggle.com/uciml/iris
列车数据集也是Kaggle上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。
目的是预测乘客是否会在某站下车。根据数据集,可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。
数据集中的变量如下:
根据这些变量,有多种方法可以预测某人是否会在某站下车。
列车数据集链接:
https://www.kaggle.com/c/train-occupancy-prediction/data
波士顿住房数据集包含波士顿市住房的信息。当中有超过20万条记录和18个变量,目标是预测房价是否昂贵。数据集有三个不同的类别,分别是:昂贵、正常以及便宜。
当中的变量包括:
如果你对数据科学领域感兴趣,这个数据集是一个很好的尝试。内容有趣而且不是太难。
波士顿住房数据集链接:
https://www.kaggle.com/c/boston-housing
酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。
该数据集的目标是根据两种药物的化学结构,从而预测它们是否会相互作用。例如,数据集中表示布洛芬和扑热息痛可以相互作用,因为它们都是抗炎药(NSAIDs)。
数据集中的变量包括:
这是一个很好的数据集,可以用来练习数据可视化技能。你可以在当中试着创建图表,显示不同药物之间的相互作用。
酒精与药物数据集链接:
https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018
对于那些在数据科学方面比较有经验的人来说,威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。
该数据集的目标是根据病人的特征来预测是否患有癌症。
例如,你可以从数据集中看到,肿瘤大小若小于0.50厘米,患者有98%的生存机会,而肿瘤大小大于或等于0.80厘米,患者只有15%的生存机会。
数据集中的变量有:
网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己,可以尝试预测不同肿瘤大小的生存率。
威斯康星州乳腺癌数据集链接:
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
这个数据集是关于预测糖尿病的。这个比赛有超过15万个例子,你需要预测病人是否会患糖尿病(二元分类)。
变量相当简单,因为只有一个特征:
这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。
印第安人糖尿病数据集链接:
https://www.kaggle.com/uciml/pima-indians-diabetes-database
亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。
这个数据集很有趣,当中有正面和负面评论,数据集的目标是预测评论是正面还是负面的。
变量有:
关于如何处理这个数据集,也有很多教程。如果想加大难度,你可以尝试预测情感分析,然后在此基础上建立模型。
亚马逊评论数据集链接:
https://www.kaggle.com/bittlingmayer/amazonreviews
该数据集包含了很多手写体数字图像,当中由大小为28x28像素的图像组成,有6万个训练实例和1万个测试实例。
该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题,通常要使用卷积神经网络(CNN)。
网上有很多关于如何处理这类问题的教程,所以我建议你先从基础知识开始,然后再继续学习更高级的方法。
MNIST手写数字数据集链接:
https://www.kaggle.com/c/digit-recognizer
CIFAR-100数据集非常适合练习机器学习的技能。该数据集包含了100张物体的图像,分为六个类别:飞机、汽车、猫、鹿、狗和船。每张图片是32x32像素,有三个颜色通道(红、绿、蓝)。
该数据的目标是预测每张图片属于这六类中的哪一类。
数据集中的变量有:
有很多关于如何应对这一挑战的教程。想加大难度的话,尝试预测以某种方式扭曲或变换的图像标签。
CIFAR-100数据集链接:
https://www.kaggle.com/fedesoriano/cifar100
结语:
本文中列出的10个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门,可以先试着做一些比较简单的数据集,由浅到难,不断深入进阶。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02