京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据挖掘九律,看完不后悔
一位挖掘专家 tom khabaza 提出了挖掘九律,挺好的东西,特别是九这个数字,深得中华文化精髓,有点独孤九剑的意思:
第一,目标律。数据挖掘是一个业务过程,必须得有业务目标。无目的,无过程。
第二,知识律。业务知识贯穿在挖掘这个业务过程的各环节。
第三,准备律。数据获取、数据准备等数据处理耗时占整个挖掘过程的一半。
第四,NFL律。NFL,没有免费的午餐。没有一个固定的算法适用所有的业务问题,特定应用适合的模型只能通过经验发现。
第五,大卫律。要相信,数中必有业务规律。大卫·沃尔金斯最早提出的,故此名。
第六,洞察律。数据挖掘本质上是增强对业务领域的认知。
第七,预测律。数据挖掘基于过去得出模式,并泛化到类似新事物上,这就是预测,但这是统计概念的。
第八,价值律。挖掘模型的最终价值并非模型精度或稳定性,而是驱动业务行动或通过新洞察导致策略改善。
第九,变化律。人不会两次踏入同一条河流。业务在变,目标在变,认识也在变,甚至规律本身也在变,挖掘模型也得与时俱进。
很好, 挖掘者习此九律,必将功力大增,杀敌于无形之中,乃升迁加薪必备胸器。咱可以设想一些场景,看看这九律是怎么灵活运用的。运用这九律的心法是,敌不动我不动,见招拆招,以无招胜有照。
故事开始........:S,挖掘新手,M 为其导师,挖掘高手。一日,S接到任务,走一趟挖掘。过了段时间,他找到 M,M 正在闭目打坐。发生一场对话。
S:师傅,徒儿接到任务,已经开始干了,不出一个月就可大功告成。
M:嗯,不错,什么进展了?
S:我已经安排下去,现在数据准备已经完成,并且建了一个小模。哎呀,您是不知道啊,那个数据太烂,一堆问题,到处是空值,很多信息也是假的,balabala….
M:先别说你的数据,数据准备干了多长时间了?
S:干了一个多月,还蛮符合准备率的吧!
M:这个任务到底要干什么?
S:嗨,就是要找出想搞破坏的人,放心,第一律我牢记于胸。现在还有两个人帮我一起做,一个准备数据,一个建模。
M:那你干什么?
S:我搞业务理解啊,并且运用知识律,搞了一个挖掘过程模板,我们三个就用这个模板进行过程交互,挺好的,什么时候给您瞅瞅。
M:嗯,听起来不错,那你今天来此打扰我清修作甚?
S:您是不知道啊。不是跟你说了,我们还建了一个小模嘛。唉,效果不太好。用分类预测训练了数据,但那个数据实在太差了,感觉那个模型一点都不靠谱,没反应出来什么规律。我们用那个结论在我们三个身上试了一下,结果大家都觉得不对,我们都成了想搞破坏的人,一点都不符合实际情况。
M:你忘了大卫律了?要相信。还有预测律,你这个模型在你们三个身上试验,能证明什么?
S:是啊,我没忘啊。不过要找到规律还需要时间啊。我们要计划在找更多的样本去验证。不过…今天来…确实是无事不登三宝殿…有个事儿…
M:啥事?
S:您前年不是搞了一个犯罪预测嘛,现在很多地方都在用,我想跟这次任务的目标类似,我想能不能就直接把您的模型拉过来训练一下就行了…您那个模型实在是太绝了…
M:哈哈,看来你想偷懒啊,但你怎么能够知道这个模型适用你的任务呢?
S:您的模型我还担心什么啊。主要是这次任务时间紧,我也没办法,先解决了问题吧,能精确定位目标人群就行了,您的模型,肯定很准的。
M:虽然你拍我马屁,但我还是对你很失望啊。挖掘的本质是什么?
S:呃…洞察…我也知道天下没有免费的午餐...但时间太紧,任务太重啊,没您不行啊,您的模型就是我们的法宝啊。
M:唉,不说那是两年前的模型,现在你遇到的情况跟我遇到的情况不一样,现在的犯罪手段也变了各种花样,变化率怎么说的?再说,你为什么如此看重模型的精度,那并非挖掘的终极价值啊!醒悟吧!我代表客户鄙视你!
S:老家伙,你到底是给还是不给?你是想看着我死吗?
M:(仰天长叹)唉,师徒一场,罢了罢了,拿去吧。但你此一去,我们师徒恩断义绝,以后再也不要来见我,再也不要叫我师傅,也不要再别人面前妄称我是你的师傅。走吧,走吧…
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01