京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:徐杨老师
编辑:Mika
大家好,我是徐杨老师。
上期给大家分享了一些数据分析师面试基础指南,这期给大家分享一些大厂面试的技术难点。
话不多说,进入正题。
在大厂的技术面试中,有两个地方是非常有难度的。很多小伙伴都折在的这两个地方。
第一个地方,算法的笔试题,而且是手写算法的笔试题。
我们知道大部分人在写算法的时候,通常都是把函数的前几个字母打出来,或者变量名的前几个字母打出来。按一下Tab或者按一下快捷键,就可以带出整个的函数名,然后自己就可以继续往后去写了。
但是如果不过我需要你手写一个算法,显然这是不够的。你只有一张白纸,没有快捷键可以帮你自动调出函数名。
比如说,之前就有一位小伙伴在笔试的时候拿到了一个手写算法的题。
题目很简单,就是让他实现一个分类算法。
那么分类算法比较好的有什么?有XGBoost,对吧?于是,小伙伴大笔一挥写下了import XGBoost。
于是,被扣分。
扣分的原因是什么?sklearn里那个包的名字叫什么?叫XGBoost吗?不是,那个包的名字叫XGBClassifier。
所以说如果你不熟悉这个算法语句中的所有细节,你在手写的时候就类似于写一篇英语作文,可是你忘了单词怎么拼。
这是一个很让人痛苦的事情,算法你会,但是你写不出来。
因此这是第一个技术难点,手写算法。
那就要求大家在日常的学习与工作中,一定要把常用的算法语句用的滚瓜烂熟,才可以让我们在这样的问题上有比较好的回答成果。
第二个在大厂面试中的难点是,把一个技术问题往下深挖好几次。
比如说最简单的一个算法回归分析。有可能在面试的时候面试官问你:
—— 同学,线性回归会吗?
—— 当然会。
—— 线性回归不能有共线性,你知道吗?
—— 当然知道。
Ok,开始提问。
什么是线性回归你的共线性?
你解释了一下。我相信在座的小伙伴都可以解释的很清楚。
下面再往下挖一层:怎么检测共线性?
有的小伙伴可能直接就说,共线性嘛,系相关系数就可以啊。
结果被扣分了。为什么?
我们现在要检测的是线性回归里的相关性,那是要考虑偏相关问题的。只用相关技术矩阵可以吗?不够用的,应该用一些更加深入的指标,比如说VIF值等等去检测。
比如说这个问题你正确的回答了出来,检测变量之间的相关性,可以使用VIF值。
那就再往下挖,为什么要检测变量之间的相关性呢?
如果我不考虑这个问题会有怎样的结果出现,那么你不能只回答,如果不考虑共线性问题的话,我这个模型预测效果不好。
显然面试官想要的不是这么直接的回答,他想问你的是这个问题的技术细节。
所以你在这个地方应该回答出的是:
如果我们不处理共线性的问题,就会导致最后最小二乘法所需要的逆矩阵在被计算的时候,这个矩阵的行列式的值就会非常小。于是导致我们求出来的逆矩阵就会非常的大。这是一个非常不好的结果。
你求出的矩阵,用这个矩阵算出来的所有参数的取值全都趋近于正无穷,你觉得这个效果能好吗?显然有问题。
如果到这儿你仍然可以准确的回答出来,这已经被挖了三次了,但是你要知道这个问题还可以继续往后挖。
我们再往后挖就是,如果普遍检测出了一共10个变量,这10个变量普遍VIF值都比较高,我们有什么好的方法来处理?
有同学可能马上就会说,正则化方法嘛。
正则化方法又可以问问题了。
正则化方法有偏还是无偏?用完了以后效果怎么样?哪个包可以实现?
我们发现这种技术问题,面试官可以就一个点给你一直往下深挖好几层。
我看过一个调查,同一个问题,当一般往下深挖到第5层的时候,大部分人就已经回答不出来了。
所以这就要求大家平时在学习与工作中,要把每一个技术细节都掌握好,要把技术细节之间的联系找到。因为往下深挖,其实挖的就是这些技术点之间的联系,这是第二个在大场面之中非常容易折的一个点。
最后,这里再分享一个考试备考过程中人人皆需的模拟题库——CDA考试模拟题库。
题库是紧密结合CDA考试大纲而编写的一套模拟试题库。为顺利通过考试奠定坚实的基础
1、解析详尽:每道题目基本上都配备了详细的解析和答案,帮助你深入理解题目背后的知识点和解题思路。
2、便捷高效:你可以随时随地通过手机或电脑访问题库,进行自主学习和练习,充分利用碎片时间,提高备考效率。
3、模拟考试:题库提供了多套模拟考试试卷,帮助你熟悉考试流程和题型。
以上就是今天给小伙伴们的分享,希望对大家有帮助,谢谢大家。
点击CDA题库链接,获取免费版CDA题库入口,祝考试顺利,快速拿证!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28