京公网安备 11010802034615号
经营许可证编号:京B2-20210330
分享
数据科学有志之士最常见的问题之一是 "对于机器学习,我需要知道多少数学?" 希望进入机器学习领域的学生往往将数学视为一个巨大的入门障碍。
行业中的守门人对这种担忧没有帮助,他们给学生贴上了不合格的标签,除非他们拥有该学科的硕士或博士学位。
那么,为了在数据科学行业工作,你需要知道多少数学?
答案是。没有你想象的那么多。
大多数公司在数据的帮助下解决非常类似的用例。他们要求数据科学家建立机器学习模型,可以预测客户流失,进行细分,并预测销售。
用于解决这些问题的方法是相似的,而且任务变得相当重复。没有必要重新发明轮子,他们使用开箱即用的ML算法。
即使出现了需要建立自定义机器学习模型的情况,对特定主题的直观理解也是足够的。你不需要去深究,也绝对不需要成为数学专家来成为数据科学家。
例如,我们知道梯度下降是用来寻找线性回归中的最佳拟合线的。你不需要开始学习如何解决微分方程,你只需要了解微积分的原理,就可以了解到这是如何做到的。
同样,如果你要用Tensorflow构建一个神经网络--你需要进行大量的矩阵操作,但你将在计算机程序的帮助下进行。由于这个原因,你不需要回去练习解代数方程。你只需要了解它们是如何工作的。
在这篇文章中,我将为你指出一些资源,帮助你开始学习数据科学的数学。我将专注于三个领域--线性代数、微积分和统计。
线性代数
线性代数--从基础到前沿。edX上的这门课程将在本科水平上教你线性代数。它从一个缓慢的空间开始,只要你有高中水平的数学知识,你就可以学习这个课程。
这门课程最好的地方是,它用Matlab中的实际例子教你线性代数,这让你通过算法和编程的视角来看待这个学科。如果你的目标是学习机器学习的线性代数,这种学习方法特别有用。
这个课程可以免费试听。如果你想获得结业证书,你可以申请财政援助。
3Blue1Brown--《线性代数精华》:我以前没有上过这门课,但在我自己寻找数学学习资源的过程中,曾多次遇到它。
许多有志于机器学习的人对这门课程深信不疑,因为它为学习者提供了对线性代数的概念性理解。与其学习任意的公式或机械地推导它们,你将获得对线性代数如何工作的直觉。如果你的最终目标是将这些概念应用于机器学习模型,这将是非常有帮助的。
微积分
我推荐两门为机器学习学习微积分的课程。微积分的本质》是3Blue1Brown开设的一门伟大的微积分入门课程。同样,这将为你提供对微积分概念的直观理解,并深入解释公式背后的意义,而不仅仅是让你记住它们。
接下来,你可以学习3Blue1Brown的神经网络系列。如果你知道如何使用Keras等库实现神经网络,但并不真正了解这些模型背后的工作原理,你应该学习这门课程。它为你提供了梯度下降算法的全面解释,以及其背后的微积分概念。
统计数字
概率与统计:To p or not to p? ?-库塞拉
这是我所学过的最好的统计学入门课程之一,由伦敦大学提供。这门课程是针对主修非数学专业的学生,如商业和金融。
正因为如此,统计学概念的解释方式简单易懂,并有许多真实世界的例子。
学习本课程后,你将对描述性和推断性统计、不同的抽样分布、抽样技术、置信区间以及P值的计算方法有所了解。
所有这些概念都可以直接应用于现实世界的数据分析。
统计学习-edX
这是另一个学习机器学习模型背后的直觉的优秀课程。
与本列表中的其他资源一样,本课程不太注重数学公式,而是以概念的方式解释机器学习模型。
然而,要学习这门课程,建议有一些微积分知识,因为导师倾向于使用符号,否则可能会使你感到困惑。
你将学习线性和逻辑回归等概念,以及正则化技术,如脊和套索回归,以及何时使用它们。有一整堂课专门讨论用于减轻过拟合的技术,并解释了这些技术背后的基本数学直觉。
这是我上过的最有帮助的课程之一,因为它帮助我不再把机器学习模型当作黑盒子。我对不同类型的模型应该用在什么地方,什么时候应该应用降维,以及什么时候执行不同种类的特征选择技术有了了解。
我花了很多时间试图回到过去,学习本科阶段的微积分和线性代数。然而,尽管花了很多时间学习公式和解微分方程,我的知识还是有脱节,因为我从来没有完全理解这些概念与机器学习算法的关系。
上述资源是突破这一障碍的好方法,因为它们让你对机器学习背后的数学有一个概念性的理解,而不是把你带入复杂公式和定理的兔子洞。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24