京公网安备 11010802034615号
经营许可证编号:京B2-20210330
关联分析故事:从数据到信息到决策
俗话说,忘记历史就是背叛自己,今天这篇用此做开场再合适不过。
这一篇将根据一个虚拟的故事,来介绍如何通过历史数据来帮助一个销售人员发现规律信息从而辅助他来做一些决策信息。
本文的主角是Tim,Tim在一个销售部门,部门最近决定做新一轮销售计划,然后根据计划结束时,各个销售人员的销售业绩来进行KPI考核。
Tim的部门在确定了销售任务后,其它人很快的投入到店面的销售工作中去,而Tim则跑到了公司的IT维护部门,向IT 部门要了一份历史的客户数据。
此时已经有人在责怪Tim,说你一个销售不去外面跑业务,怎么跑到IT部门"不务正业"来了,而且,专门要以前的客户数据,居然不去不关心新客户。
其实,Tim还有一个搞IT的朋友,James,他是一位数据分析师,在零售行业也有一定的经验。Tim的第一个想法就是找 James给些建议。
平时两个人聊天的过程中,James给Tim讲了无数多次关于商业智能的知识。虽然Tim是搞销售的,但是受到James的经常灌输,自己对里面的知识也有了一些印象,比如,数据挖掘,当然这个概念对于搞销售的Tim来说简直就是天书,正所谓隔行如隔山,但是有一点他非常理解,那么就是:从数据到信息,也就是说,从数据中获取信息。
于是,销售任务一开始,Tim就跑到了IT部门要了这样一份数据,来看看James到底能从这里头得到什么样的信息,从而能帮助Tim更准确的知道因该给什么样的人推荐产品才比较靠谱。
James拿到Tim的数据之后,大概的浏览了一下:
数据的具体结构如下:
从这份数据中,James看到,里面包含了客户的性别,婚姻状况,年收入以及家庭相关的和教育等基本信息。其中最后一列关键信息,就是客户是否购买过产品。如果购买过就记为1,否则就记为0。
James拿过来这个Excel文件,首先做了一个关键影响因素分析。
根据这个工具,首先指定关注的列,就是客户是否购买了产品的标记:
这里选择BikeBuyer。
然后再点击Choose Columns to be used for analysis。
这里,James根据经验指定了需要分析的列。很明显,DataFirstPPurchase是没什么用的,James果断把这列剔除掉以免影响到分析的准确性。
然后系统会根据James的设置自动处理这些历史数据。
处理完毕后,系统生成了一份报告:
于是,James给Tim发了一封邮件:
Dear Tim,
我分析了你提供给我的数据,并且从数据里得到几点规则。
首先,关注没有车,有一个小孩,以及来自Pacific,还有平时上班路程不是太远的用户,他们很有可能是你的潜在客户。
此外,对于有两台车的客户,就不要去推荐了,从你们的业务记录来看这类客户购买产品的可能性实在不大。
还有小孩数量比较多,上班距离太远,超过65岁的成为你客户的可能性也很小。
以上。
Best wishes!
James.
某年某月某日
Tim收到这封邮件之后非常高兴,因为这样一下子就可以让他判断出一个新客户是否会购买产品,从而不会在本身就不会有购买需求这类客户身上花费太多时间,这样就能把精力投入到更多的目标客户中去。
不过很快,Tim又有了一个问题,就是单凭这样的判断太笼统,容易丢失部分极特殊的客户,所以Tim希望能自己根据客户的情况做更详细的判断。
收到Tim的这个请求之后,James在Excel中建立了一个挖掘计算器。
首先,点击预测计算工具。
在工具中设置需要预测的列。
点击Run,Excel通过SQL Server的分析服务开始处理数据。
数据处理完毕后,在Excel中生成了几张报告:
在第一份报告中,James得到了列表,里面标识了每个属性对一个未知客户会购买产品的影响程度。
在另外一份报告中,根据这份分析数据,包含一个动态的操作表格。
每一个属性的值都变成了一个下拉列表,各个属性的Impact影响值加在一起最后得出一个分数,这个分数如果达到一定的高度,那么就表明这个客户很有可能会购买产品。
于是,James把这个Excel文件发给了Tim,这样Tim就可以根据收集到的客户信息对应选择里面的项,然后通过计算知道用户是否是潜在客户。
这个文件帮了Tim不少的忙,也准确的识别了一些客户。但Tim也往往抱怨,在出去跑业务的过程中,电脑不是总带在身边,所以往往很难及时的做出判断。
James知道Tim的这个烦恼后,告诉他,你把第三份分析报告中的表格打印出来就可以了。
这个表格把每个属性的值都列了出来,并且它们对应的分数也在后面。Tim打印出来后,可以自己手动在上面做计算。
算好总分后,对比下面的分数,也就是说分数最起码要达到601才有可能是一个潜在客户。
于是,对于IT系统的操作不是很熟悉的Tim就可以每次对着这个单子来对新客户作出潜在客户的判断。
在这个故事里,James并没有用到什么太复杂的数据,通篇他只在用一个软件,就是Excel,Excel从2007版本开始通过SQL Server的功能扩充可以实现简单的数据挖掘功能,它通过SQL Server Analysis Services分析服务来生成临时的挖掘模型,通过样本数据以及挖掘模型和算法来发现数据中存在的一些规律,相关性等信息。
通过Excel对SQL Server数据挖掘功能的封装,使得用户即使不清楚数据挖掘的具体算法也可以实现数据挖掘的功能从而做挖掘预测分析来辅助决策,甚至都不需要用户了解什么样的挖掘模型算法适合解决什么样的问题,只需要关注Excel里所带的表分析工具就可以做简单的预测分析。
总之,数据挖掘,不是已不是数据分析师们的专属,有了Excel,你也可以。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05