京公网安备 11010802034615号
经营许可证编号:京B2-20210330
分享
数据科学有志之士最常见的问题之一是 "对于机器学习,我需要知道多少数学?" 希望进入机器学习领域的学生往往将数学视为一个巨大的入门障碍。
行业中的守门人对这种担忧没有帮助,他们给学生贴上了不合格的标签,除非他们拥有该学科的硕士或博士学位。
那么,为了在数据科学行业工作,你需要知道多少数学?
答案是。没有你想象的那么多。
大多数公司在数据的帮助下解决非常类似的用例。他们要求数据科学家建立机器学习模型,可以预测客户流失,进行细分,并预测销售。
用于解决这些问题的方法是相似的,而且任务变得相当重复。没有必要重新发明轮子,他们使用开箱即用的ML算法。
即使出现了需要建立自定义机器学习模型的情况,对特定主题的直观理解也是足够的。你不需要去深究,也绝对不需要成为数学专家来成为数据科学家。
例如,我们知道梯度下降是用来寻找线性回归中的最佳拟合线的。你不需要开始学习如何解决微分方程,你只需要了解微积分的原理,就可以了解到这是如何做到的。
同样,如果你要用Tensorflow构建一个神经网络--你需要进行大量的矩阵操作,但你将在计算机程序的帮助下进行。由于这个原因,你不需要回去练习解代数方程。你只需要了解它们是如何工作的。
在这篇文章中,我将为你指出一些资源,帮助你开始学习数据科学的数学。我将专注于三个领域--线性代数、微积分和统计。
线性代数
线性代数--从基础到前沿。edX上的这门课程将在本科水平上教你线性代数。它从一个缓慢的空间开始,只要你有高中水平的数学知识,你就可以学习这个课程。
这门课程最好的地方是,它用Matlab中的实际例子教你线性代数,这让你通过算法和编程的视角来看待这个学科。如果你的目标是学习机器学习的线性代数,这种学习方法特别有用。
这个课程可以免费试听。如果你想获得结业证书,你可以申请财政援助。
3Blue1Brown--《线性代数精华》:我以前没有上过这门课,但在我自己寻找数学学习资源的过程中,曾多次遇到它。
许多有志于机器学习的人对这门课程深信不疑,因为它为学习者提供了对线性代数的概念性理解。与其学习任意的公式或机械地推导它们,你将获得对线性代数如何工作的直觉。如果你的最终目标是将这些概念应用于机器学习模型,这将是非常有帮助的。
微积分
我推荐两门为机器学习学习微积分的课程。微积分的本质》是3Blue1Brown开设的一门伟大的微积分入门课程。同样,这将为你提供对微积分概念的直观理解,并深入解释公式背后的意义,而不仅仅是让你记住它们。
接下来,你可以学习3Blue1Brown的神经网络系列。如果你知道如何使用Keras等库实现神经网络,但并不真正了解这些模型背后的工作原理,你应该学习这门课程。它为你提供了梯度下降算法的全面解释,以及其背后的微积分概念。
统计数字
概率与统计:To p or not to p? ?-库塞拉
这是我所学过的最好的统计学入门课程之一,由伦敦大学提供。这门课程是针对主修非数学专业的学生,如商业和金融。
正因为如此,统计学概念的解释方式简单易懂,并有许多真实世界的例子。
学习本课程后,你将对描述性和推断性统计、不同的抽样分布、抽样技术、置信区间以及P值的计算方法有所了解。
所有这些概念都可以直接应用于现实世界的数据分析。
统计学习-edX
这是另一个学习机器学习模型背后的直觉的优秀课程。
与本列表中的其他资源一样,本课程不太注重数学公式,而是以概念的方式解释机器学习模型。
然而,要学习这门课程,建议有一些微积分知识,因为导师倾向于使用符号,否则可能会使你感到困惑。
你将学习线性和逻辑回归等概念,以及正则化技术,如脊和套索回归,以及何时使用它们。有一整堂课专门讨论用于减轻过拟合的技术,并解释了这些技术背后的基本数学直觉。
这是我上过的最有帮助的课程之一,因为它帮助我不再把机器学习模型当作黑盒子。我对不同类型的模型应该用在什么地方,什么时候应该应用降维,以及什么时候执行不同种类的特征选择技术有了了解。
我花了很多时间试图回到过去,学习本科阶段的微积分和线性代数。然而,尽管花了很多时间学习公式和解微分方程,我的知识还是有脱节,因为我从来没有完全理解这些概念与机器学习算法的关系。
上述资源是突破这一障碍的好方法,因为它们让你对机器学习背后的数学有一个概念性的理解,而不是把你带入复杂公式和定理的兔子洞。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21