
你真的知道数据挖掘的定义吗
我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过程也可以帮你在后面长时间的过程中解决这些问题。它可以指引你如何变得更有技能,同时对相关知识有深层次的了解。至少,我曾经就是用这样的方式完成了很多的工作。
我认为学习数据挖掘是很有用的,正如它以从数据中进行发现的过程的形式展现出来的那样。在这篇文章中,你会从相关的教材和论文中探索一些关于“数据挖掘”的官方定义。就像数据挖掘是一个过程那样,数据挖掘的定义会包括好几个关于这个过程的解释。
比较权威的教材
在这部分当中,我们会从两本涉及数据挖掘领域的权威教材中寻找关于“数据挖掘”的定义。
这是一本由Lan Witten和Eibe Frank编写的教材。
在这本书的序言中,作者是这样作序的:
“数据挖掘是对一些含蓄的、我们事先不知道的而又是非常有用的信息数据的提取过程。它的思想则是编一套程序,这套程序帮助我们动态的筛选数据集,寻找其中相关的规律和模型。如果能找到一个很好的模型,它更有可能会推广到对未来的数据进行准确的预测……机器学习则会基于数据挖掘提供相应的方法。这用于从一个包含未经处理的数据集中提取相关的信息….”
在这本书的第一章中,作者是这样写的:
“数据挖掘是一个被定义为从数据中发现相关的模型的过程。这个过程必须是自动的(通常是这种情况)或者是半自动的。而这些被发现的模型必须在它可以给我们带来一些好处,尤其是经济利益的时候才有意义,因为数据总是大量的存在。”
在我早期入行就读了这本书,而且这本书讲到关于数据挖掘的定义和它与机器学习的联系与我当时工作联系十分紧密。每当我使用机器学习方法的时候,我总会使用一个与数据挖掘类似的过程,除非我没有从本质上尝试去发现一个模型,这时我更偏向于针对一个定义的问题寻找一个“足够好”的解决方案。
数据挖掘:概念和方法
这是由韩家炜(美国伊利诺伊大学香槟分校计算机系正教授)和Mucheline Kamber编写的教材。
这本教材的序言是这样的:
“数据挖掘,很多人又把它称作是对数据的知识发现(KDD),是一个动态和简便的抓取方式,而其中相关模型所展现出的复杂的知识是从大的数据集、数据仓库、网页,以及其它一些大型的信息库或数据流中被存储或抓取起来。”
这里和知识发现的定义有一点点不错,在我看来主要是涉及这一领域的一些准则。我相信一个更能被人接受的KDD定义是被称作数据集中的知识发现。
在教材的第一章中,作者概括了知识发现的过程(在书本的7到8页):
l 数据清洗:移除一些不完整的和对结果有影响的数据。
l 数据整合:把多个数据源的数据进行组合。
l 数据选择:哪里的数据和我们的分析任务相关,我们从那个数据集里找出这些数据。
l 数据选择:当数据已经经过转换处理并形成一个合适的数据挖掘形式以后,我们需要在此进行归纳和整合操作。
l 数据挖掘:这是应用智能方法来提取数据并建立模型的核心过程。
l 模型预测:确认一个真正有趣的模型,这个模型是基于兴趣展现出相关的知识。
l 知识展示:通过可视化操作和知识展现的方法给用户展示通过挖掘得出的信息。
在这本书中,作者注释到:数据挖掘通常来说可能更加倾向于整个知识挖掘的过程,因为它是一个短期的过程。
具有共识性的文章
在这部分,我们会在这一领域一些具有共识性的文章来探索数据库方面的知识挖掘这一过程。这些文章都是repreitable方法的杂志而不是过往的期刊。因此,一些不太正式的口味被用到了一个高级话题的有用的讨论中。
数据库中从数据挖掘到知识发现
这是一篇由Usama Fayyad,Gregory Piatetsky-Shapiro和Padhraic Smyth写的,并在1996年刊登在AL杂志的文章。
他们把KDD看作是数据库的知识挖掘,而下面的这个定义我们则更加熟悉: “KDD领域是随着数据的了解的方法和技能的发展,而这个过程的核心则是特殊的数据挖掘的方法在模型的发现和提取方面的应用。”
还有:
“KDD被用于从数据中发现有用的知识的整个过程,而且数据挖掘在这个过程中是很多人都会使用的一个特殊的步骤。数据挖掘是采用特殊的算法从数据中提取出相关模型的应用。”
作者在一张含有一个函数实体的箱子,以及这个过程里箱子被转化为箱子的图片提供了一个很好的归纳。下面是这样归纳的:我一般对于使用图片来解释说明都抱有谨慎的态度,不好意思,如果这个时候正式出版就比较困难了。
第一步:选择(从数据中找到目标数据)。
第二步:预处理过程(对目标数据进行处理)。
第三步:转换(把预处理过的数据进行转化处理)。
第四步:数据挖掘(对经过转换处理的数据进行建模)。
第五步:从知识的角度分析和评估这个模型。
这个过程很简单,而且我喜欢把这个模型用到我遇到的问题中。
从大量数据中提取有用的知识的过程
这是一篇由 Usama Fayyad、Gregory Piatetsky-Shapiro和Padhraic Smyth在1996年在ACM通信上面的文章。
在这篇文章中,作者对KDD过程作了一个更详细的归纳。这篇涉及更多细节的版本的文章是“从数据挖掘……”,但我觉得这篇文章表达的内容不够清晰。这篇涉及更多关于KDD过程的细节的文章经过一点修改如下:
明白其中的应用领域和这个过程的目标。
对所以可行的数据建立一个数据集子集。
数据清洗和数据预处理可以去除其中的杂质、处理错误的数据和极端值。
数据的简化和预测是为了能把焦点集中到与问题相关的功能上。
这是一个数据挖掘方法匹配其相应目的的过程。决定这个模型使用的目的,比如归纳和分类。
选择一个可以与相应模型使用的目的匹配的数据挖掘的算法(第五步的延续)。
数据挖掘,即,在数据上运行算法。
挖掘模型的解释是为了能让用户更好的明白其中的结果,诸如采用归纳和可视化操作的方法。
在已发现的知识上进行操作,诸如报告和决策。
我喜欢在这个过程中看到信息。这应了我的需要去明白使用这个过程的目的,以及可以持续的运行一个算法从而选出可以与这个目的匹配的模型。
总结归纳
通过阅读这篇文章,你已经知道了数据挖掘是一个对现有的数据进行知识发现和挖掘出一个模型的过程。你也从中知道了这个过程通常包括几个步骤包含了数据的展现、算法的运行和结果的展现。
你从中学到了机器学习是用于数据挖掘的工具,而数据挖掘又是在数据库进行知识发现或KDD的一个很重要的步骤,而这两者又是在这个术语中是相提并论的,因为这样比较容易表达。
你也知道了当你在你的项目运用机器学习的时候,你可能会运行一些KDD过程的模式,而这个过程是有目的的解决一个问题而不是只是做知识发现。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27