京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Kaggle大神经验分享丨如何用15个月冲到排行榜的首位
在最新的Kaggle用户排行榜上,排名第一位的ID是Bestfitting,他本人叫Shubin Dai。Shubin Dai在两年前加入Kaggle,目前生活在中国湖南省长沙。他是一名数据科学家、工程师,目前领导一家为银行提供软件解决方案的公司。在工作之余,除了Kaggle,Dai还是一名狂热的山地车手,喜欢户外运动。
最近Shubin Dai接受了Kaggle团队的专访,分享了他在参加Kaggle竞赛时的心得与体会。
Q1: 可以介绍以下自己和相关背景吗?
我的专业是计算机科学,在软件开发方面有超过10年的经验。目前我负责领导一个团队,专门为银行提供数据处理和分析的方案。
自大学以来,我对利用数学知识构建程序,从而来解决问题十分感兴趣。我一直在阅读计算机科学方面的书籍和论文,并且很高兴见证了过去十年中机器学习和深度学习方面的进展。
Q2: 你是如何开始参加Kaggle比赛的?
正如之前所说的,我一直在阅读大量机器学习和深度学习方面的书籍和论文,但发现很难将我学到的算法应用于小型数据集。我发现Kaggle是一个很棒的平台,当中有各种有趣的数据集、算法和精彩的探讨。我迫不及待想进行尝试,我第一个参加的比赛是“预测红帽商业价值”(Predicting Red Hat Business Value)。
Q3: 在参加新的比赛时,你首先会做什么?
在比赛开始的第一个星期,我会创建一个解决方案文档,在比赛进行中,我会不断对文档进行更新。为此,首先我需要了解比赛和手上的数据,然后研究类似的Kaggle比赛和相关论文。
Q4: 在比赛时,你会做哪些步骤呢?
1. 仔细阅读比赛的概述和数据的描述;
2. 查找类似的Kaggle比赛。作为刚加入Kaggle社区不久的新手,我对所有的Kaggle比赛进行了搜索和分析;
3. 研究类似比赛的解决方案;
4. 阅读相关论文,确保我跟进该领域的最新进展;
5. 分析数据,并构建可靠的交叉验证;
6. 进行数据预处理、特征工程、模型训练;
7. 进行结果分析,包括预测分布、错误分析、困难样本等;
8. 根据分析,精心设计模型或设计新模型;
9. 基于数据分析和结果分析,通过设计模型增加多样性,或解决困难样本;
10. 模型集成;
11. 必要时返回前面某个步骤。
Q5: 你最喜欢的机器学习算法是什么?
我会逐个选择算法,但在进行集成时我更喜欢用简单的算法,如岭回归(ridge regression)。在深度学习的比赛中,在开始我总是喜欢使用resnet-50或设计类似的结构。
Q6: 你最喜欢的机器学习库是什么?
在计算机视觉比赛中,我非常喜欢用pytorch。在自然语言处理或时间序列比赛中,我喜欢用TensorFlow或keras。在进行分析时,我会使用seaborn,以及scipy库。很多情况下scikit-learn和XGB都是不错的选择。
Q7: 你会如何进行超参数调整呢?
我根据对数据和算法的理论理解来调整参数,如果我无法解释结果变好或变坏的原因,我不会轻易使用。
在深度习比赛中,我经常会搜索相关论文,查找在类似情况下其他人会怎么做。
而且,我会比较参数更改前后的结果,例如预测分布、受影响的样本等。
Q8: 你是如确定交叉验证方法和最终的提交模型?
有了好的交叉验证方法就成功了一半。在找到好的方法来评估模型前,我不会进入下一步。
为了构建可靠的交叉验证方法,你必须很好地理解数据和所面临的挑战。我还会检查,并确保验证集与训练集和测试集有类似的分布,我会确保我的模型本地交叉验证和公共排行榜上都有不错的改进。
在时间序列比赛中,我会留出数据作为验证集。
通常,我会以一种保守方式来选择最终的提交模型。我会选择对可靠模型进行加权平均后的集成模型,并确定出其中相对冒险的模型。在我看来,更多的参数意味着更多的风险。但我不会选择我无法解释的模型,即使它的公共排行榜得分很高。
Q9: 简而言之,怎样才能赢得比赛?
需要良好的交叉验证方法。以及从其他比赛中学习,阅读相关论文,还需要自律和心里承受力。
Q10: 你最喜欢哪类Kaggle比赛?为什么?
我最喜欢自然保护和医疗相关的比赛。我觉得我有必要为改善我们的生活和保护地球做些什么。
Q11: 机器学习中,你对哪个子领域最感兴趣?
我对深度学习的各种进步都很感兴趣。我想利用深度学习解决除计算机视觉和自然语言处理之外的问题,因此在我参加的比赛和日常工作中,我会使用到深度学习。
Q12: 对你而言,在解决数据科学问题时,专业知识有多重要?
老实说,我不认为专业知识会有太多的作用,原因如下:
1. Kaggle提供的比赛数据对每个人都很公平;
2. 仅使用成熟的方法赢得比赛是很难的,尤其是对于深度学习的比赛。因此我们需要更多创造性的解决方案;
3. 数据本身更重要,尽管我们可能需要阅读一些相关的材料。
但是也有一些例外。例如,在Planet Amazon比赛中,我从我在热带雨林的经历中获得了一些想法,但这些经验并不能称为专业知识。
Q13: 你认为你最有竞争力的比赛技巧是什么?
我认为是在比赛开始时准备解决方案文档。我会列一份清单,包括面临的挑战、应该阅读的解决方案和论文、可能的风险、可能的交叉验证方法、可能的数据增强方法以及加强模型多样性的方式。而且,我会不断更新文档。幸运的是,这些文档在我之后的比赛中都很很大的帮助。
Q14: 在工作中,你是如何运用数据科学的? Kaggle比赛有所帮助吗?
我的团队尝试通过机器学习解决各种银行业务问题,比如预测银行网点的访客;预测ATM应准备的现金;产品推荐;操作风险控制等。
Kaggle比赛也改变了我的工作方式,当我为解决问题寻找解决方案时,我会寻找类似的Kaggle比赛,因为那些都是宝贵的资源。同时我还建议我的同事们研究类似的解决方案,从中获得启发。
Q15: 你如何权衡模型复杂性和训练/测试运行时间?
以下是我的看法:
1. 只有当这方面出现问题时,培训/测试运行时间才值得关注。当正确率很重要时,不用太担心模型的复杂性。如果获得训练数据需要好几个月的时间,那么我们需要充分的利用。
2. 现在,只对弱模型进行集成很难赢得比赛。如果你想成为第一名,你需要多个很好的单一模型。如果我想在比赛中确保第一名,我会设计几个不同的模型,并且在排行榜上能达到前10名,有时甚至是前3名。
3. 按照我的经验,我会在比赛中设计模型来探索这个问题的上限,然后选择一个简单的模型使其在实际情况下可行。我总会尽量向组织者提交一个简单模型,并且与他们进行讨论。我发现一些组织者甚至会使用我们的方案来解决他们面临的其他问题。
4. 当训练/测试运行时间很重要时,Kaggle有很多机制来确保性能:kernel比赛、团队规模限制、增加更多在计分时未计算的数据等。我相信Kaggle也会根据比赛目标改进规则。
Q16: 你是如何在Kaggle比赛不断进步的?
有趣的比赛和Kaggle中强大的竞争对手让我不断进步。
Kaggle中有许多优秀的竞争者,因此想赢得比赛并非易事,这不断挑战我的极限。去年,我尽可能多地完成比赛,并且猜测其他竞争者会做什么。为此,我必须阅读大量材料,并构建多功能模型。在比赛之后,我研究了其他竞争对手的解决方案。
Q17: 你有关注哪些最近或正在进行的机器学习比赛吗?
今年我希望能参加Kaggle的深度强化学习比赛。
Q18: 你仅用15个月就上升到排行榜的第一名,你是怎么做到的?
首先,取得第一只是代表我在Kaggle所学到的知识,而且我也幸运。
在我的前几次比赛中,我试图将近年来学到的理论转化为技巧,并从其他人那里学到很多。
在对Kaggle比赛有一定的了解之后,我开始思考如何用系统化的方式进行比赛,因为我在软件工程方面有多年经验。
大约半年后,我获得了首个奖项,并获得了一些自信。我感觉我可能会在一年内成为达到大师级别。在Planet Amazon比赛中,我试图获得金牌,当发现自己名列第一位时,我非常惊讶。
然后我觉得应该继续使用之前提到的策略和方法,从而取得更多的成功。在赢得Cdiscount比赛后,我爬升到了用户排名榜的前列。
我从Kaggle平台受益颇多,我从其他人那里学到了很多,Kaggle的用户排名系统也激励着我不断进步。我也感到很幸运,我没想到我能连续获得6次奖项,在许多比赛中取得了前10名或前1%的成绩。我可能很难再重复这个经历了。
但是,取得好的排名并不是我的目标。我把每场比赛都视为学习的机会,因此我会选择我不太熟悉领域的比赛,这迫使我去年研读了成百上千篇论文。
Q19: 你提到过,你喜欢研究之前比赛中评分最高的解决方案。你有什么特别的见解吗?
我尊重所有的赢家和出色解决方案的贡献者,我知道他们付出了非常多的努力。我总是以一种可敬的态度研究这些解决方案。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14