模型验证的常用武器-CDA数据分析师官网

热线电话：13121318867

模型验证的常用武器

2016-04-03

模型验证的常用武器

分类模型是数据挖掘中应用非常广泛的算法之一，常用的分类算法有Logistic模型、决策树、随机森林、神经网络、Boosting等。针对同一个数据集，可以有这么多的算法进行分析，那如何评估什么样的模型比较合理呢？本文就讲讲常用的模型验证武器，主要包括混淆矩阵、ROC曲线、提升度、增益法和KS统计量。

一、混淆矩阵

混淆矩阵就是如下图所示的那样，也是最简单的一种模型验证方法：

QQ截图20160324114443.png

通过混淆矩阵可以算出模型预测精度((a+d)/(a+b+c+d))、正例覆盖率(b/(c+d))、负例覆盖率(a/(a+b))等。通过这么些指标综合考虑模型的预测准确率。

二、ROC曲线

在讲解ROC曲线之前，我们先看看几个定义：

Sensitivity:正确预测到的正例数/实际正例总数,即b/(c+d)

Specificity:正确预测到的负例数/实际负例总数,即a/(a+b)

ROC曲线就是根据这两个指标值绘制出来的，其中x轴为1-Specificity，y轴为Sensitivity。

通过比较ROC曲线与45°直线可以直观的反映模型的好坏，但并不能从定量的角度反馈模型好是好到什么程度或模型差是差到什么程度。那么就引申出了AUC的概念，即ROC曲线下的面积。当曲线偏离45°直线越远，则AUC越大，模型相应就会越好。一般认为AUC在0.75以上，模型就可以接受了。

三、提升度Lift

在讲解提升度曲线之前，我们先看看几个定义：

Pi：测试集中正例的比例，即(c+d)/(a+b+c+d)

Ptp：正确预测到的正例个数占总观测值的比例，即d/a+b+c+d=Pi1* Sensitivity

Pfp：把负例错误地预测成正例的个数占总数的比例，即b/a+b+c+d=(1-Pi1)*(1- Specificity)

Depth：预测成正例的比例，即b+d/a+b+c+d=Ptp+Pfp

PV_Plus:正确预测到的正例数/预测正例总数，即d/(b+d)=Ptp/depth

提升度Lift=(d/b+d)/(c+d/a+b+c+d)=PV_plus/Pi1

Lift曲线就是根据Depth和Lift两个指标绘制而成，它反映了预测正例的正真准确率。

四、增益法Gain

其实增益法Gain与提升度是一个事物的两种说法，从公式中就可以看出：

Gain=d/(b+d)=PV_plus

Gain与提升度相比并没有除以Pi值。

五、K-S统计量

统计学中，对于单样本的K-S检验就是利用样本数据来推断其是否服从某种分布，对于两样本的K-S检验主要推测的是两个样本是否具有相同的分布，对于模型的评估，希望正例的累积概率分布与负例的累积概率分布存在显著差异。

所以我们使用K-S统计量刻画模型的优劣，即使正例与负例的累积概率差达到最大。这是一个定量的判断规则，如下图所示，为传统的评价准则

：

QQ截图20160324114451.png

通常要求模型KS值在0.4以上。

废话不多说，下面我们看看如何使用 R语言实现这些评估模型的方法。

实例操作：

```{r}

#读取数据

dmagecr <- read.table(file = file.choose(), head = TRUE, sep = '')

#数据结构

str(dmagecr)

```

QQ截图20160324114502.png

其中，二分变量good_bad为目标变量，Logistic模型默认将good水平作为感兴趣的水平，很显然对于客户是否为优质客户的问题，这里选择good作为关注对象是错误的，下面指定bad水平为兴趣水平。

```{r}

#指定感兴趣的水平为bad

dmagecr$good_bad <- factor(dmagecr$good_bad, levels = c('good','bad'),ordered = TRUE)

#创建训练集和测试集

set.seed(1234)

index <- sample(c(1,2), size = nrow(dmagecr), replace = TRUE, prob = c(0.7,0.3))

train <- dmagecr[index == 1,]

test <- dmagecr[index == 2,]

#构建Logistic模型

model <- glm(formula = good_bad ~ checking+history+duration+savings+property, family = binomial(link = "logit"), data = train)

#模型结果查看

summary(model)

```

QQ截图20160324114515.png

从上图的结果可知，模型的预测变量均为显著，即认为这些变量是模型的重要变量。光有模型的预测变量显著还不够，还需要检测模型是否显著：

```{r}

#模型的显著性检验

anova(object = model, test = 'Chisq')

```

QQ截图20160324114524.png

从第一个变量到最后一个变量，逐步加入模型后，模型的偏差检验均为显著，即认为整个模型是通过检验的。下面我们再看看模型的拟合优度如何，即模型的预测与实际情况是否吻合或相近，这里使用H-L检验：

```{r}

#模型的拟合优度检验--HL检验

library(sjmisc)

HL_test <- hoslem_gof(x = model)

HL_test

```

QQ截图20160324114533.png

H-L的P值显著大于0.05，即接受实际值与预测值相吻合的原假设，再次说明模型是比较理想的。接下来我们就用这个训练集得到的模型来预测测试集：

```{r}

#模型预测

probility <- predict(object = model, newdata = test[,-21], type = 'response')

predict <- ifelse(probility > 0.5, 'bad', 'good')

#转型为因子

predict <- factor(predict, levels = c('good','bad'), order = TRUE)

#模型评估混淆矩阵

Freq <- table(test[,21], predict)

#预测精度

Accuracy <- sum(diag(Freq))/sum(Freq)

Freq;Accuracy

```

QQ截图20160324114546.png

从模型的预测精度来看，准确率为74.2%，模型预测并不理想。除了使用混淆矩阵来评估模型，还可以使用ROC曲线下的面积AUC、提升度Lift、增益法Gain和K-S统计量。下面就深入介绍这几种方法：

```{r}

#ROC曲线

library(pROC)

roc_curve <- roc(test[,21],probility)

names(roc_curve)

Specificity <- roc_curve$specificities

Sensitivity <- roc_curve$sensitivities

library(ggplot2)

p <- ggplot(data = NULL, mapping = aes(x= 1-Specificity, y = Sensitivity))

p + geom_line(colour = 'red') +geom_abline(intercept = 0, slope = 1)+ annotate('text', x = 0.4, y = 0.5, label=paste('AUC=',round(roc_curve$auc,2)))+ labs(x = '1-Specificity',y = 'Sensitivity', title = 'ROC Curve')

```

QQ截图20160324114555.png

结果显示，AUC为0.79，相比于0.75，模型马马虎虎还能说的过去。

```{r}

#Lift曲线

Pi <- table(test$good_bad)[2]/sum(table(test$good_bad))

Ptp <- Pi*Sensitivity

Pfp <- (1-Pi)*(1-Specificity)

Depth <- Ptp + Pfp

PV_Plus <- Ptp/Depth

Lift <- PV_Plus/Pi

p <- ggplot(data = NULL, mapping = aes(x= Depth, y = Lift))

p + geom_line(colour = 'blue') + labs(x = 'Depth',y = 'Lift', title = 'Lift Curve')

```

QQ截图20160324114605.png

提升度一般是这样使用的：如果某项营销活动受成本的限制，又想使营销活动取得非常成功，一般通过Lift曲线进行人员的筛选，即给定某个Lift阈值，反过来确定Depth值。如提升度相比于不作任何模型，使其达到2倍以上的响应，需要设置Depth在前25%以内。同样，我们还可以绘制Gain曲线：

```{r}

#Gain曲线

p <- ggplot(data = NULL, mapping = aes(x= Depth, y = PV_Plus))

p + geom_line(colour = 'blue') + labs(x = 'Depth',y = 'PV_Plus', title = 'Gain Curve')

```

QQ截图20160324114613.png

实际上，Lift曲线与Gain曲线长的一模一样，只不过是纵坐标不同而已。

胡江堂的基于SAS模型评估系列文章中没有涉及到K-S统计量的讲解，本文就对其作一个拓展，R中还没有找到直接绘制两个连续变量的K-S曲线统计量函数，故这里自定义绘制曲线所需数据的函数：

```{r}

#准备K-S数据

ks_data <- as.data.frame(cbind(good_bad=test[,21], probility))

good_ks <- ks_data[which(ks_data$good_bad==1),'probility']

bad_ks <- ks_data[which(ks_data$good_bad==2),'probility']

#自定义计算累计分布函数值

KS_Data <- function(x, y){

gaps_x <- seq(min(x), max(x), length=1000)

cauculate_x <- numeric()

for(i in 1:length(gaps_x)){

cauculate_x[i] <- sum(x<=gaps_x[i])/length(x)

}

gaps_x <- sort((gaps_x-min(gaps_x))/(max(gaps_x)-min(gaps_x)))

gaps_y <- seq(min(y), max(y), length=1000)

cauculate_y <- numeric()

for(i in 1:length(gaps_y)){

cauculate_y[i] <- sum(y<=gaps_y[i])/length(y)

}

gaps_y <- sort((gaps_y-min(gaps_y))/(max(gaps_y)-min(gaps_y)))

return(list(df = data.frame(rbind(data.frame(Gaps = gaps_x,Cauculate = cauculate_x,Type = 'Positive'),data.frame(Gaps = gaps_y,Cauculate = cauculate_y,Type = 'Negtive'))), KS = max(abs(cauculate_y-cauculate_x)), x = gaps_y[which.max(abs(cauculate_y-cauculate_x))],y = abs(cauculate_x[which.max(abs(cauculate_y-cauculate_x))]-cauculate_y[which.max(abs(cauculate_y+cauculate_x))])/2))

}

#绘制K-S曲线

ggplot(data = KS_Data(bad_ks,good_ks)$df, mapping = aes(x = Gaps, y = Cauculate, colour = Type)) + geom_line() + theme(legend.position='none') + annotate(geom = 'text', x = KS_Data(bad_ks,good_ks)$x, y = KS_Data(bad_ks,good_ks)$y, label = paste('K-S Value: ', round(KS_Data(bad_ks,good_ks)$KS,2))) + labs(x = 'Probility', y = 'CDF')

QQ截图20160324114624.png

上图结果显示，K-S统计量的值为0.43，根据传统的评价准则，也说明该模型还是基本行得通的。

在数据挖掘实际过程中，需要横向的比较多个模型评估结果，还需要纵向的比较同一个模型不同参数调整的评估结果。通过上面所说的这些评估方法，终能够选出一个最理想的模型。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

混淆矩阵数据挖掘随机森林决策树 R语言神经网络偏差

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

模型验证的常用武器

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

模型验证的常用武器

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章 业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...