有监督学习：从过去到现在的模型流行度（深度翻译好文）！-CDA数据分析师官网

热线电话：13121318867

有监督学习：从过去到现在的模型流行度（深度翻译好文）！

2020-05-14

在过去的几十年中，机器学习领域发生了巨大的变化。诚然，有些方法已经存在很长时间了，但仍然是该领域的主要内容。例如，Legendre和Gauss已经在19世纪初提出了最小二乘的概念。在最近的几十年中，诸如神经网络等其他方法的最基本形式在1958年得到了极大的发展，而诸如支持向量机（SVM）等其他方法则是最近的。

由于监督学习的可用方法很多，因此经常会提出以下问题：**最佳模型是什么？**众所周知，这个问题很难回答，因为正如乔治·博克斯（George Box）所说的那样，所有模型都是错误的，但有些模型是有用的。特别是，模型的实用性主要取决于手头的数据。因此，这个问题没有普遍的答案。以下是一个更容易回答的问题：什么是最受欢迎的模型？。这将是本文的关注点。

衡量机器学习模型的受欢迎程度

出于本文的目的，我将使用一种常用方法来定义流行度。更准确地说，我将使用许多提及个别监督学习模型的科学出版物来代替受欢迎程度。当然，这种方法有一些局限性：

流行的概念可能比出版物的数量更准确。例如，批评某种模型的出版物并不一定暗示该模型很受欢迎。
该分析受所用搜索词的影响。为了确保高度的特异性，我没有考虑模型缩写，这就是为什么我可能未检索到所有潜在匹配的原因。此外，对于那些也被分析中未考虑的搜索词引用的模型，灵敏度可能较低。
文献数据库并不完美：有时，出版物存储的原数据不正确（例如，年份不正确），或者出版物可能重复。因此，可以预料到出版频率中会有一些噪声。

对于这一部分，我进行了两次分析。第一种分析是对发布频率的纵向分析，而第二种分析则比较了跨不同领域与机器学习模型相关的发布总数。

对于第一个分析，我通过从Google Scholar中抓取数据来确定了出版物的数量，Google Scholar考虑了科学出版物的标题和摘要。为了确定与个别监督学习方法相关的出版物数量，我确定了1950年至2017年之间的Google Scholar命中次数。众所周知，由于从Google Scholar抓取数据非常困难，因此本文参考ScrapeHero提供的有用建议来收集数据。

在分析中包括以下13种监督方法：神经网络，深度学习，SVM，随机森林，决策树，线性回归，逻辑回归，泊松回归，岭回归，套索回归，k近邻，线性判别分析和对数线性模型。其中，对于套索回归，搜索时考虑了搜索套索回归和套索模型。对于最近邻方法，搜索时术语有k-nearest neighbor和k-nearest neighbour，得到的数据集表示从1950年到现在，每个监督模型相关的出版物的数量。

从1950年开始至今使用监督模型

为了分析纵向数据，我将区分两个时期：机器学习的早期阶段（1950年至1980年），在那儿只有很少的模型可用；而形成性的年份（1980年到现在），对机器学习的兴趣激增，很多时期开发了新模型。请注意，在以下可视化中，仅显示最相关的方法。

早期：线性回归的优势

从图1中可以看出，线性回归是1950年至1980年之间的主要方法。相比之下，其他机器学习模型在科学文献中很少被提及。但是，从1960年代开始，我们可以看到神经网络和决策树的普及开始增长。我们还可以看到，逻辑回归尚未得到广泛应用，在1970年代末，提及的数量仅略有增加。

成长年：神经网络的多元化和兴起

图2表明，从1980年代后期开始，科学出版物中提到的监督模型变得更加多样化。重要的是，直到2013年，科学文献中提到的机器学习模型的比率一直在稳定增长。该图尤其表明了线性回归，逻辑回归和神经网络的普及。正如我们之前所看到的，线性回归在1980年之前已经很流行。但是，在1980年，神经网络和逻辑回归的普及开始迅速增长。当Logistic回归的普及率在2010年达到顶峰时，该方法几乎与线性回归一样流行，但神经网络和深度学习（曲线神经网络/深度学习）的共同普及图2）在2015年甚至超过了线性回归的流行程度。

神经网络之所以广受青睐，是因为它们在诸如图像识别（ImageNet，2012），面部识别（DeepFace，2014）和游戏（AlphaGo，2016）等机器学习应用中取得了突破。Google Scholar的数据表明，在最近几年中，科学文章中提到神经网络的频率略有下降（图2中未显示）。这是有可能的，因为术语深度学习（多层神经网络）已在一定程度上取代了术语神经网络的使用。使用Google趋势可以找到相同的结果。

剩下的，较少流行的监督方法是决策树和SVM。与排名前三的方法相比，提及这些方法的比率明显较小。另一方面，文献中提到这些方法的频率似乎也较少波动。值得注意的是，决策树和SVM的流行度都没有下降。这与其他方法（例如线性和逻辑回归）相反，后者在过去几年中被提及的数量已大大减少。在决策树和SVM之间，提到的SVM似乎显示出更有利的增长趋势，因为SVM仅在发明15年后就成功超过了决策树。

所考虑的机器学习模型的提及次数在2013年达到顶峰（589,803个出版物），此后略有下降（2017年为462,045个出版物）。

监督学习模型在不同领域的普及

在第二个分析中，我想调查不同的社区是否依赖于不同的机器学习技术。为此，我查询了三个用于科学出版物的存储库：用于普通出版物的Google Scholar，用于计算机科学出版物的dblp，以及用于生物医学科学的PubMed。在这三个存储库中，我统计了13种机器学习模型的命中频率。结果如图3所示。

图3证明了许多方法是特定于各个领域的。接下来，让我们分析每个领域中最受欢迎的模型。

整体使用监督学习模型

根据Google Scholar表明，这是五个最常用的监督模型：

线性回归： 3,580,000（34.3％）篇论文
**逻辑回归：**包含2,330,000（22.3％）篇论文
神经网络： 1,750,000（16.8％）篇论文
决策树： 875,000（8.4％）篇论文
**支持向量机：**包含684,000（6.6％）篇论文

总体而言，线性模型显然占主导地位，占监督模型命中率的50％以上。非线性方法也不甘落后：神经网络在所有论文中占16.8％，位居第三，其次是决策树（论文占8.4％）和支持向量机（论文占6.6％）。

模型在生物医学科学中的使用

根据PubMed的说法，生物医学中最流行的五个机器学习模型是：

逻辑回归： 229,956（54.5％）篇论文
线性回归： 84,850（20.1％）篇论文
Cox回归： 38,801（9.2％）篇论文
神经网络： 23,883（5.7％）篇论文
泊松回归： 12,978（3.1％）篇论文

在生物医学科学中，我们看到与线性模型相关的提及数量过多：五种最流行的方法中有四种是线性的。这可能是由于两个原因。首先，在医疗环境中，样本数量通常太少而无法拟合复杂的非线性模型。其次，解释结果的能力对于医疗应用至关重要。由于非线性方法通常较难解释，因此它们不适合医疗应用，因为仅靠高预测性能通常是不够的。

Logistic回归在PubMed数据中的流行可能是由于大量发表临床研究的出版物所致。在这些研究中，经常使用逻辑回归分析分类结果（即治疗成功），因为它非常适合于解释特征对结果的影响。请注意，Cox回归在PubMed数据中非常流行，因为它经常用于分析Kaplan-Meier生存数据。

模型在计算机科学中的使用

从dblp检索的计算机科学参考书目中，五个最受欢迎的模型是：

神经网络： 63,695（68.3％）篇论文
深度学习： 10,157（10.9％）篇论文
支持向量机： 7,750（8.1％）篇论文
决策树： 4,074（4.4％）篇论文
k近邻： 3,839（2.1％）篇论文

计算机科学出版物中提到的机器学习模型的分布是非常不同的：大多数出版物似乎都涉及到最近的非线性方法（例如神经网络，深度学习和支持向量机）。如果我们包括深度学习，那么在检索到的计算机科学出版物中，有超过四分之三涉及神经网络。

机器学习研究模型和现实应用模型的差异

图4总结了文献中提到的参数（包括半参数）模型和非参数模型的百分比。条形图表明，在机器学习研究中研究的模型（由计算机科学出版物证明）与所应用的模型类型（由生物医学和整体出版物证明）之间存在很大差异。尽管超过90％的计算机科学出版物都涉及非参数模型，但大约90％的生物医学出版物都涉及参数模型。这表明机器学习研究主要集中在最先进的方法上，例如深度神经网络，而机器学习的用户通常依赖于更具可解释性的参数化模型。