京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘技术之DM经典模型(上)
下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。
下面就是查询模型,该模型正在直销行业很受欢迎,并广泛用于其它领域。朴素贝叶斯模型是表查找模型中一种非常有用的泛化模型,通常表查询模型适用于较低的维度,而朴素贝叶斯模型准许更多的维度加入。还有线性回归和逻辑回归模型,都是最常见的预测建模技术。回归模型,用于表示散点图中两个变量之间的关系。多元回归模型,这个准许多个单值输入。随后介绍逻辑回归分析,该技术扩展了多元回归以限制其目标范围,例如:限定概率估计。还有固定效应和分层回归模型,该模型可将回归应用于个人客户,在许多以客户为中心的数据挖掘技术之间搭建了一座桥梁。
相似度模型中需要将观察值和原型进行比较,以得到相应的相似度得分。观察值与原型相似度越高,其得分也就越高。一种度量相似度的方法是测量距离。观察值与原型值之间的距离越近,观察值的得分就越高。当每个客户细分都有一个原型时,该模型可以根据得分把客户分配到与其最相似的原型所在的客户细分中。
相似度模型有原型和一个相似度函数构成。新数据通过计算其相似度函数,就可以计算出相似度得分。
1.1、相似度距离
通过出版社的读者比一般大众要富有,而且接受教育的程度要高为例。通常前者要比后者在富有程度、教育程度的比例大三倍。这样我们就可以给读者一个讯息——“工资很高,并且受过良好的教育”。
如果要把对读者的描述表示成一个可以识别该杂志潜在的读者的模型,就需要对理想的读者做出精确的定义,并以此来量化潜在读者与理想读者之间的相似程度。
相似度和距离是同一概念的两种不同描述方式,但是它们度量的方向不同。使用距离作为度量指标时,如果两个事物彼此非常靠近,那么两者就很相似。所以当两者距离很小时,相似度就会很高。
例如:出版社的理想读者的受教育程度是16年,年收入100000美元。那么受教育14年,年收入75000美元的潜在客户与理想客户之间的相似度是多少呢?另外它们与受教育12年,并且年收入为150000美元的潜在客户又有多少相似呢?这时候,我们要选择一个度量的标准,欧式距离。当我们计算一潜在客户与理想客户(x=16,y=100000)之间的距离时,就会发现收入在计算中占了主导地位,因为它的取值比教育年限大的多得多。这就引入另一个问题:度量尺度。解决方法:将两值分别减去相应的平均值然后除以相应的标准差。这样就把两者转化成分数,然后用分数代替原来的值来计算欧式距离。
欧式距离仅计算距离方法之一。这里才采用欧式距离只是为了将原型目标的一种统计描述与某种距离函数结合起来,搭建一种相似度模型。有了潜在用户与理想客户之间的距离,就可以对潜在客户排序,或者将距离作为另一种计算的输入,得到预期收入或相应概率。
1.2 、构建相似度模型的步骤
构建相似度模型,首先是要对原型进行描述,或得到一个用于与其他对象进行比较的理想对象。这些描述必须表示为度量,对于那些与理想值较近或较远的对象,这些变量的取值要明显不同。
首先,要解决三个问题
(1)“差”记录与“好”记录有什么区别?
(2)理想的“好”记录看起来是什么样子的?
(3)如何度量与理想对象之间的距离?
实现数据挖掘模型的一个简单方法就是查询表。表查询模型思想就是:相似的人所作出的反应也相似。对一个新观测值的评分涉及两个步骤。一、为观测值指定一个特定的标签或主键。主键对应于查询表中的一个单元格。二、被分配到某一个单元格的所有记录都会有一个得分,该分值在模型训练时就被赋予该单元格。
分配主键的方式有多种。决策树模型适用了规则集将观测值分配到特定的叶节点,叶节点的ID就可以作为一个可用于查询得分的主键。聚类技术为记录指定标签,这里的聚类标签就可以作为查询主键。
构建查询表,一、为查询表选择输入变量。将训练集中的每条记录精确地分配到该表中的一个单元格中。使用训练集中的统计数据来刻画单元格的特征,这些统计数据包括平均值、标准差以及落入该单元格的训练实例个数。在为模型评分的时候会用到这些统计数据。分数可以是数值型目标的平均值,也可以是属于某一特定类别的比例,或者是单元格中占主导地位的类别。
2.1、选择维度
每个维度都应该是一个对目标有影响的变量。理想情况,输入变量不应该彼此相关,实际上,很难避免之间不相关。相关变量的实际影响是,训练完成后有些单元格仅含有几个训练实例,这会使得估计值的置信度偏低。实际情况可能好点,因为要评分的新数据在那些单元格中也是稀疏的。
例如:在RFM模型中,有一个维度是采购总数,还有一个维度是整个生存期的花费。在两个变量高度相关,因为通常情况下,额外的购买会创造额外的收入。很少有记录会落入到购买数量最大而收入却很少,或收入很高而采购量却很少的单元格情况。
应该避免使用高度相关的变量作为查询表的维度,因为这些相关变量会导致大量的稀疏的单元格。包含训练样本过少的单元格会产生置信度偏低的目标估计值。
对维度数的主要限制是单元格中训练记录的数量。在维度数与每个维度上分到的训练样本数之间有一个权衡。使用较少的维度,可以在每一个维度上进行更加精细的划分。在实际处理过程中,可能会出现该单元格中什么都没有,有的时候这种情况是确实存在的。这种异常情况,表中应该包含具有默认得分的单元格,这样就可为那些与任意主键不匹配的记录分配得分。典型的默认异常单元格得分,就是平均值。
2.2、维度的划分
在实际的过程中,并不需要,每一个类别划分一个维度。维度的分割应该依实而用。对于一个维度的合理划分是按高、中、低划分,而对另一个维度的合理划分可能是按照百分比来划分。有的时候,根据业务规则来定分割点,遵循这些特定的分割点划分记录可能那个比等分划分更有意义。有监督的分割,可以用于确保分割的有效性。这个后面在讨论。
2.3、从训练数据到得分
维度划分好以后,在训练集上计算每个单元格的得分就简单了。对于数值型目标而言,得分=平均值。对于类别目标,每个类别会有一个得分=每个单元格类标签的比例。这样对于每个类都有一个概率估计,即待评分的数据记录属于该类的概率。
2.4、通过删除维度处理稀疏和缺失数据
有些单元格没有分配到足够多的数据,这会导致目标估计值的置信度较低。对于这类单元格该怎么办?一、减少每个维度上的划分数量。二、减少定义稀疏单元格的维度数。
例如:构建某购物网站物品清单价格的竞争力模型。基于清单熟悉感,点击吸引力的分析考虑四个维度:
产品
地域
供应商类型
星期几
对于一些比较受欢迎的产品,使用这四个维度是有道理的。而对于不受欢迎的商品,没有足够多的清单来支持所有维度,所以要丢弃一些维度。对于一些产品,放弃星期几这一维度就OK。对于已协商产品,只是基于三个维度而不是基于四个维度之间的比较。对于一些产品,甚至只留下一个维度,对于这类产品,要做的就是持续删除维度并合并单元格,直到每个单元格含有足够的多的数据。
RFM模型,称为近期、频率以及货币。RFM背后的逻辑很简单。近期下单的客户在不久的将来再次购买的概率可能性非常大。在过去有许多购买记录的顾客更有可能在不久的将来再次购买,并且在过去消费较多的客户更有可能在将来消费更多。RFM是一种最大化现有客户收益的技术,而不是吸引新客户的技术。
将客户分配大RFM单元中,三个RFM变量需要转化为三个量化指标。近期:距离上次购买的天数或周数,用于得到R的得分。
第二个变量频率,通常是以前下单的总数,记录F的得分。最后一个是客户生存期中的总的花费,该值用于创建M的得分。每个维度5等分。由于维度之间具有相关性,如F维和M维,所以各个单元格的客户数量并不相等。要做的就是将所有的数据都分配到合适的单元格中,而且每个单元格要有足够多的记录,从而目标估计值具有一个可以接受的置信度。
3.1、RFM单元格转移
对于每个营销活动,客户都会在RFM单元格之间转移。那些做出响应的客户对增加其消费频率和消费总额,并且会减少距上一次购买的时间。这些新的取值通常都会迁移到单元格中。没有响应的客户也可能因距上一次购买时间的增加而转移到新的单元格。其实这就是定期的数据更新,模型更新。数据的迁移,会导致原来的期望的变化,在数据单元格迁移过程中,要不断的了解客户的需求,及时的更改数据。
3.2、RFM和增量响应建模
增量响应建模的目标是识别那些容易被说服的潜在客户——受营销影响最大的人。RFM可以看成是对客户营销活动响应能力的预测。在定义好的RFM单元格之后,需要为每个单元格分配成员,要么是接收营销信息的测试组成员,要么就是不接受该信息的对照组成员。基于测试组和对照组两个分组之间的响应率之差决定了营销活动对于发现潜在客户的能力。对于测试组和对照组之间的响应率差异最大的单元格,营销获得产生的影响也是最大的。但这些单元格的响应率却未必是最大的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12