京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据挖掘又译为数据采矿,它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。如今,“数据挖掘”被到处乱用,从业务人员用一个现代的模式识别方法到数据库分析员用SQL做查询。

最近,我看到不少关于挖掘九律的帖子和讨论,但他们并没有提到其创始人,那个将数据挖掘简洁地描述出来并在整个社区流传开来的人。这令人遗憾,因为我们可以从挖掘九律中受益良多,并且Khabaza本身就是个你该知道的创造者。他是最早的数据挖掘专家,任职于克莱门汀数据挖掘工作组的开发者之一。当你听说数据挖掘已广泛应用于电信和执法之中时,你该知道其奠基人就是是Khabaza。
下面是Tom Khabaza的“挖掘九律”介绍
挖掘九律之一,“业务目标律”:业务目标是所有数据挖掘解决方案的本源
我们探索数据,发掘信息,来帮助我们更好的处理业务。 这难道不是所有业务分析的圣歌吗?很明确,这就该是第一律。每个人都该理解数据挖掘是一个有目标的流程。真的挖掘人员不会在泥沼里打滚,他们有条不紊的按照流程来将有价值的东西暴露出来。数据挖掘人员也是要有条不紊地寻找对他们有价值的信息。
引用Tom Khabaza的话:“数据挖掘,首先它不是技术,而是流程,其中有着一个或多个业务目标。没有业务目标的话……就没有数据挖掘。”
挖掘九律之二,“业务知识律”:业务知识是数据挖掘每一步的核心
我们周围有着一个普遍且严重的误解——数据挖掘不需要 研究人员了解任何事。这是对真正的数据挖掘理论的误读,即从数据中发掘有用的模式,能够也应该交由没有经过正规统计学训练的业务人员。数据挖掘是要让人 ——应用业务知识、经验和洞察力,并依靠数据挖掘方法的业务人员——变得强大,来找到隐含于数据中的意义。
挖掘九律之三,“数据准备律”:数据准备能让数据挖掘流程事半功倍
这一点对于那些和数据打过交道的人来说毫无意外,无论你是数据挖掘专家,分析人员或者其他职位。然而,还有其他的神话围绕着数据挖掘,说数据挖掘会克服数据质量和完整性的问题。这一神话被那些长期被遗忘的数据挖掘产品供应商所传播,但数据挖掘社区依然努力让数据记录更加正常,数据挖掘需要良好的数据。
当然,仅仅有良好的数据是不够的。对数据的操作是挖掘过程的重要环节,Tom Khabaza解释道:
“原理要比数据的状态更深入:随着数据的准备,数据挖掘人员要定义问题空间。有两个关于“问题空间”的观点。第一个是数据挖掘人员将数据转换成适合于算法应用的形式就够了——对于绝大多数算法来说,这意味着一个样本一行记录。第二个是数据挖掘人员要通过利用有用的信息来优化数据或者将信息转化为更有效的形式,从而易于让算法找到解决方案。如样本包含了计算项,分级,和计算日期时间差。”
挖掘 九律之四,“天下没有免费的午餐”:只有通过实验才能发现给定应用的正确模型
(NFL-DM = “There is No Free Lunch for the Data Miner”)
现在我们可以开始些有趣的讨论。在本文的最后,我将指导你到那些可以读到、参与到的相关讨论中。现在,最重要的是,你要认识到实验是数据挖掘理论和实践的核心。
挖掘九律之五,“沃特金斯定律”:总会有模式存在
数据挖掘人员的实践经验就是,当探索数据的时候,总能发现有用的模式。
(沃特金斯,Watkins,即David Watkins,也是克莱门汀的知名数据挖掘开发者。)
挖掘九律之六: 数据挖掘将业务领域的感知放大
这一条的意思是,得益于数据挖掘算法和流程——是它们照亮了数据中的那些可能会被埋没的模式。
挖掘九律之七,“预测定律”:预测将信息从局部扩散到整体
这是我最难在脑海中理清的一条,但它意味着:
数据挖掘提供给我们一种途径,来看到那些未知的结果,并找到那些已知的相似情况(原文:Data mining offers us ways to look at a case whose outcome is unknown, and find similarities to past cases where the outcome is known)。通过理解这些相似性,我们获得了推测未来的信息。
挖掘九律之八,“价值定律”:数据挖掘的结果的价值并不取决于预测模型的精度和稳定性
流程的真正价值在于满足了业务需要,当然,模型的精度和稳定是好的,但较之于业务预测的价值,有意义的洞察力之价值,或者应用预测于实际的价值来讲要小得多。
挖掘九律之九,“变化律” :所有的模式都会受到变化
今天还能带来业务价值的模型,可能明天就过时了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16