京公网安备 11010802034615号
经营许可证编号:京B2-20210330
对数据科学家来说最重要的算法和统计模型
作为一个在这个行业已经好几年的数据科学家,在LinkedIn和QuoLa上,我经常接触一些学生或者想转行的人,帮助他们进行机器学习的职业建议或指导方面相关的课程选择。一些问题围绕教育途径和程序的选择,但许多问题的焦点是今天在数据科学领域什么样的算法或模型是常见的。
由于可供选择的算法太多了,很难知道从哪里开始学起。课程可能包括在当今工业中使用的不是很典型的算法,而课程可能没有包含目前不是很流行的但特别有用的方法。基于软件的程序可以排除重要的统计概念,并且基于数学的程序可以跳过算法设计中的一些关键主题。

我为一些有追求的数据专家整理了一个简短的指南,特别是关注统计模型和机器学习模型(有监督学习和无监督学习);这些主题包括教科书、毕业生水平的统计学课程、数据科学训练营和其它培训资源。(其中有些包含在文章的参考部分)。由于机器学习是统计学的一个分支,机器学习算法在技术上归类于统计学知识,还有数据挖掘和更多的基于计算机科学的方法。然而,由于一些算法与计算机科学课程的内容相重叠,并且因为许多人把传统的统计方法从新方法中分离出来,所以我将把列表中的两个分支也分开了。

统计学的方法包括在bootcamps和证书程序中概述的一些更常见的方法,还有一些通常在研究生统计学程序中所教授的不太常见的方法(但在实践中可以有很大的优势)。所有建议的工具都是我经常使用的工具:
1)广义线性模型,它构成了大多数监督机器学习方法的基础(包括逻辑回归和Tweedie回归,它概括了在工业中遇到的大多数计数或连续结果……)
2) 时间序列方法(ARIMA, SSA, 基于机器学习的方法)
3) 结构方程建模 (模拟和测试介导途径)
4) 因子分析法(调查设计与验证的探索和验证)
5) 功率分析/试验设计 (特别是基于仿真的试验设计,以免分析过度)
6) 非参数检验(从零开始的推导, 尤其通过模拟)/MCMC
7) K均值聚类
8) 贝叶斯方法(Na?ve Bayes, 贝叶斯模型求平均值, 贝叶斯自适应试验...)
9) 惩罚回归模型 (elastic net, LASSO, LARS...) ,通常给模型增加惩罚因素(SVM, XGBoost...), 这对于预测值超过观测值的数据集是有用的(常见于基因组学与社会科学研究)
10) 样条模型(MARS...) 用于灵活性建模过程
11)马尔可夫链和随机过程 (时间序列建模与预测建模的另一种方法)
12)缺失数据填补方案及其假设(missForest, MICE...)
13) 生存分析(非常有助于制造建模和消耗过程)
14) 混合建模
15) 统计推断与分组测试(A/B测试和在许多交易活动中实施更复杂的设计)
机器学习扩展了许多这样框架,特别是K均值聚类和广义线性建模。在许多行业中一些有用的常见技术(还有一些更模糊的算法,在bootcamps或证书程序中出人意料的有用,但学校里很少教) 包括:
1)回归/分类树(用于高精度、可解释性好、计算费用低的广义线性模型的早期推广)
2)维数约简(PCA和多样学习方法如MDS和tSNE)
3)经典前馈神经网络
4)装袋组合(构成了随机森林和KNN回归整合等算法的基础)
7)加速整合(这是梯度提升和XGBoost算法的基础)
8)参数优化或设计项目的优化算法(遗传算法,量子启发进化算法,模拟锻炼,粒子群优化)
9)拓扑数据分析工具,特别适合于小样本大小的无监督学习(持久同调, Morse-Smale聚类, Mapper...)
10)深度学习架构(一般的深度架构)
11) KNN局部建模方法(回归, 分类)
12)基于梯度的优化方法
13)网络度量与算法(中央度量法、中间性、多样性、熵、拉普拉斯算子、流行病扩散、谱聚类)
14)深度体系架构中的卷积和汇聚层(专门适用于计算机视觉和图像分类模型)
15)层次聚类 (聚类和拓扑数据分析工具相关)
16)贝叶斯网络(路径挖掘)
17)复杂性与动态系统(与微分方程有关,但通常用于模拟没有已知驱动程序的系统)
依靠所选择的行业,可能需要与自然语言处理(NLP)或计算机视觉相关的附加算法。然而,这些是数据科学和机器学习的专门领域,进入这些领域的人通常已经是那个特定领域的专家。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27