数据挖掘的入门概念-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据挖掘的入门概念

数据挖掘的入门概念

2017-12-13

数据挖掘的入门概念

1 数据挖掘

数据挖掘(Data Mining，简称DM)，是指从大量的数据中，挖掘出未知的且有价值的信息和知识的过程。

2 机器学习与数据挖掘

与数据挖掘类似的有一个术语叫做”机器学习“，这两个术语在本质上的区别不大，如果在书店分别购买两本讲数据挖掘和机器学习的书籍，书中大部分内容都是互相重复的。具体来说，小的区别如下：

机器学习：更侧重于技术方面和各种算法，一般提到机器学习就会想到语音识别，图像视频识别，机器翻译，无人驾驶等等各种其他的模式识别，甚至于谷歌大脑等AI，这些东西的一个共同点就是极其复杂的算法，所以说机器学习的核心就是各种精妙的算法。

数据挖掘：更偏向于“数据”而非算法，而且包括了很多数据的前期处理，用爬虫爬取数据，然后做数据的清洗，数据的整合，数据有效性检测，数据可视化(画图)等等，最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

所以，数据挖掘的范畴要更广泛一些。

3 数据挖掘所覆盖的学科

数据挖掘是一门交叉学科，覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果

4 数据挖掘的误区

误区一：算法至上论。认为数据挖据是某些对大量数据操作的算法，这些算法能够自动地发现新的知识。

误区二：技术至上论。认为数据挖据必须需要非常高深的分析技能，需要精通高深的数据挖掘算法，需要熟练程序开发设计。

这两种认知都有一定的偏颇。实际上，数据挖掘本质上是人们处理商业问题的方法，通过适量的数据挖掘来获得有价值的结果，技术在随着大数据时代的来临变得愈发重要，但是最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

5 数据挖掘能解决什么问题

商业上的问题多种多样，例如：

“如何能降低用户流失率?”

“某个用户是否会响应本次营销活动?“

"如何细分现有目标市场?"

“如何制定交叉销售策略以提升销售额?”

“如何预测未来销量?”

从数据挖掘的角度看，都可以转换为五类问题：

分类问题

聚类问题

回归问题

关联分析

推荐系统

5.1 分类问题

简单来说，就是根据已经分好类的一推数据，分析每一类的潜在特征建立分类模型。对于新数据，可以输出新出具属于每一类的概率。

比如主流邮箱都具备的垃圾邮件识别功能：一开始，正常邮件和垃圾邮件都是混合在一起的，如果我们手工去点击哪些是垃圾邮件，逐渐的，垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断，系统的识别率就会越来越高。我们人工点击判断，相当于预先分类(两类：垃圾邮件和非垃圾邮件)，系统就会自己学习两类邮件的特征建立模式，对于新邮件，会根据模式判断属于每个类别的可能性。