机器学习中的有监督和无监督都包括些什么？-CDA数据分析师官网

热线电话：13121318867

机器学习中的有监督和无监督都包括些什么？

2020-05-29

机器学习算法通常分为有监督的（训练数据有标记答案）和无监督的（可能存在的任何标签均未显示在训练算法中）。有监督的机器学习问题又分为分类（预测非数字答案，例如错过抵押贷款的可能性）和回归（预测数字答案，例如下个月在曼哈顿商店出售的小部件的数量）。

无监督学习可进一步分为聚类（查找类似对象的组，例如跑鞋，步行鞋和正装鞋），关联（查找对象的常见序列，例如咖啡和奶油）和降维（投影，特征选择），以及特征提取。

分类算法

分类问题是有监督的学习，要求在两个或多个类别之间进行选择，通常为每个类别提供概率。除了需要大量高级计算资源的神经网络和深度学习之外，最常见的算法是朴素贝叶斯，决策树，逻辑回归，K最近邻和支持向量机（SVM）。也可以使用集成方法（模型的组合），例如“随机森林”，其他“装袋”方法以及增强方法（例如，AdaBoost和XGBoost）。

回归算法

回归问题是有监督的学习，要求模型预测数字。最简单，最快的算法是线性（最小二乘）回归，但一般不应止步于此，因为它通常会返回一个中等的结果。其他常见的机器学习回归算法（缺少神经网络）包括朴素贝叶斯，决策树，K最近邻，LVQ（学习矢量量化），LARS套索，弹性网，随机森林，AdaBoost和XGBoost。值得注意的是，用于回归和分类的机器学习算法之间存在一些重叠。

聚类算法

聚类问题是一种无监督的学习问题，它要求模型查找相似数据点的组。最受欢迎的算法是K-Means聚类；其他包括均值漂移聚类，DBSCAN（基于噪声的应用程序基于空间的聚类），GMM（高斯混合模型）和HAC（分层聚类）。

降维算法

降维是一个无监督的学习，它要求模型删除或组合对结果影响很小或没有影响的变量。这通常与分类或回归结合使用。降维算法包括删除具有许多缺失值的变量，删除具有低方差的变量，决策树，随机森林，删除或组合具有高相关性的变量，后向特征消除，前向特征选择，因子分析和PCA（主成分分析）。

优化方法

训练和评估可以通过优化监督算法的参数权重，找到最适合数据真实性的一组值，从而将监督学习算法转变为模型。算法通常将最速下降的变量用于优化程序，例如随机梯度下降，它是从随机起始点多次执行的最速下降。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；