使用R语言实现数据分段-CDA数据分析师官网

热线电话：13121318867

使用R语言实现数据分段

2016-04-11

使用R语言实现数据分段

今天跟大家讲讲我工作中用到的数据分段，数据分段一般在什么地方会使用到呢？评分。之前写过一篇《实战: RFM》模型使用，那篇文章就详细介绍了CRM（客户关系管理）分析中关于RFM的应用。应用中就提到如何对R(最近一次消费距当前的时间间隔)、F(时间段内的消费频次)和M(时间段内的消费总额)指标进行分段，形成三种得分指标，最后根据得分指标计算出每个用户的总得分，从而可以计算用户的价值高低。

本文与之前提到的文章不同之处在于脚本的更改，使脚本更具灵活性。《实战: RFM模型使用》文中对R、F和M分段使用for循环，而且需要对每一个指标做循环，如果某个数据框的字段非常多，这样用for循环就显得非常麻烦。所以就有必要写一段更灵活的连续变量分段操作的R脚本。这里用案例说明一下数据分段操作：

#随机参数一列会员的消费总额

set.seed(1234)

Money <- c(round(runif(n = 5000, min = 56, max = 9143)), round(rnorm(n = 5000, mean = 892, sd = 23)))

#使用《实战: RFM模型使用》的分段方法，这里分成10段，尽量保证每段中的数据量大致相当

library(Hmisc)

#使用cut2()函数对数据进行分段

M_X <- cut2(x = Money, g = 10, onlycuts = TRUE)

#使用for循环将每一段范围值设定一个评分，即1:10分

M_score <- 0

for(i in 1:10) {

M_score[Money >= M_X[i] & Money < M_X[i+1]] = i

#由于范围Money < M_X[i+1]不包含最后一个值，故另外计算

M_score[Money == M_X[11]] = 10

}

table(M_score)

QQ截图20160322104116.png

通过上面的方法，可以将连续型数据分成n段，从案例返回的结果可知，10段中的样本量基本相当，可以视作分段成功。下面再看看自定义函数实现的分段：

#自定义得分函数，x为目标向量，g为所需分段数量

Score_function <- function(x,g = 10){

require(Hmisc)

#计算分段的切割点

cuts <- cut2(x,g = g, onlycuts = TRUE)

#将所需结果存放在res数据框中

res <- data.frame(x=x, cut = cut2(x, cuts = cuts),score = as.numeric(cut2(x, cuts = cuts)))

#这里返回res数据框中的评分字段

return(res[,'score'])

}

M_score2 <- Score_function(x = Money, g = 10)

table(M_score2)

QQ截图20160322104125.png

同样，分段的结果与《实战: RFM模型使用》脚本的结果一致，这里说一下自定义函数的优势：

1）可以灵活的更改分组数量，即g参数

2）不需要循环，速度得到提升

3）可以结合sapply()函数，应用于大型数据框（高维数据），从而避免对每个字段都计算一次for循环

下面创建一个数据框，来验收一下自定义函数的效果：

set.seed(1234)

x1 <- round(rnorm(n = 5000, mean = 125, sd = 30))

x2 <- round(runif(n = 5000, min = 10, max = 100))

x3 <- round(runif(n = 5000, min = 100, max = 1000))

x4 <- round(rnorm(n = 5000, mean = 100, sd = 10))

df <- data.frame(x1 = x1, x2 = x2, x3 = x3, x4 = x4)

#结合sapply()函数

df2 <- sapply(df, Score_function)

head(df2)

df2 <- as.data.frame(df2)

table(df2$x1);table(df2$x2);table(df2$x3);table(df2$x4)

QQ截图20160322104200.png

如果使用《实战: RFM模型使用》的方法，4个变量需要单独拿出来做4次for循环。如果你觉得还可以再套一个循环，这样就可以不用单独4次for循环了，问题是这样做会大大降低计算效率，影响速度。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

RFM模型字段 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

使用R语言实现数据分段

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】神经网络隐藏层个数怎么确定？从原理到 ...

【CDA干货】特征单变量筛选：从原理到实战，高效精 ...

CDA 数据分析师：数据读取实战指南 —— 筑牢数据分 ...

【CDA干货】偏态分布的置信区间：从原理到实战，破 ...

【CDA干货】用户行为序列驱动的大模型推理：机制、 ...

CDA 数据分析师：数据采集方法实战指南 —— 筑牢数 ...

京东图书热卖榜TOP1，CDA数字化人才认证，是哪些地 ...

【CDA干货】数据清洗如何守住真实性？从方法到落地 ...

【CDA干货】透视表备注添加完全指南：从基础批注到 ...

CDA 数据分析师：以量化策略分析框架为刃，破解企业 ...

【CDA干货】深度解析 INSERT INTO SELECT 底层原理 ...

【CDA干货】机器学习参数重要性分析：从参数类型到 ...

CDA 数据分析师：数字化时代数据思维的践行者与价值 ...

【CDA干货】大模型稳定性测试指南：从指标定义到落 ...

【CDA干货】鸢尾花识别案例：一文读懂特征值与目标 ...

CDA 数据分析师：指标体系搭建指南 —— 从需求到落 ...

【CDA干货】神经网络隐藏层层数怎么确定？从原理到 ...

数据分析师必备技能体系：从工具到思维，构建数据驱 ...

CDA 数据分析师：以指标为锚，以体系为纲，筑牢数据 ...

【CDA干货】手游次日留存：从行业基准到破局策略， ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载