我是R语言小白带你建模之adaboost建模-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读我是R语言小白带你建模之adaboost建模

我是R语言小白带你建模之adaboost建模

2018-08-16

我是R语言小白带你建模之adaboost建模

今天更新我用我蹩脚的R技能写的一个adaboost建模的过程，代码有参考别人的代码再根据自己的思路做了更改。代码一部分来自书籍《实用机器学习》，我个人特别喜欢这本书

至于adaboost，大家自动移步谷歌，我跟一个人说我喜欢百度，他误以为我喜欢百度一个公司，所以我决定改口说去谷歌，毕竟谷歌没广告。

先说，模型的数据是我实现已经缺失值填补，以及分组好的数据，所以代码中没有预处理的部分，只有一些简单变量的转化。

代码分为三部分：

1、加载包以及一个简单的变量形式转化，以及训练集和测试的分区，还有初步拟合一个简单的adaboost。

2、设置深度以及树的棵树，希望是，能通过输出的模型评估指标，找到一个复杂度低，但是模型效果相对较好的adaboost。

3、检查你取的最优的adaboost的模型的泛化能力，这里是通过把数据集变成十等份，用刚才拟合出来的adaboost模型计算其ks、auc、正确率啊，看时候会不会过拟合造成在其他数据集中的效果下降。

这可能是我这么久以来这么正经的写R代码，所以我的注释特别多，不像我的sas代码，基本不写注释。

rm(list=ls())

# 清空缓存数据

rpart.installed <- 'rpart' %in% rownames(installed.packages())

if (rpart.installed) {

print("the rpart package is already installed, let's load it...")

}else {

print("let's install the rpart package first...")

install.packages('rpart', dependencies=T)

}

#检查是否存在rpart包，若没有就加载

library('rpart')

partykit.installed <- 'partykit' %in% rownames(installed.packages())

if (partykit.installed) {

print("the partykit package is already installed, let's load it...")

}else {

print("let's install the partykit package first...")

install.packages('partykit', dependencies=T)

}

#检查是否存在partykit包，若没有就加载

library('grid')

library('partykit')

adabag.installed <- 'adabag' %in% rownames(installed.packages())

if (adabag.installed) {

print("the adabag package is already installed, let's load it...")

}else {

print("let's install the adabag package first...")

install.packages('adabag', dependencies=T)

}

library('adabag')

library('rpart')

library('gplots')

library('ROCR')

# 加载在代码中需要使用的包

x<-read.csv("alldata_zuhe.csv",header=T);

#读目标数据，读取数据之前，手动加载路径

D<-as.data.frame(x)

#把x数据转成数据框

D$APPL_STATUS_1<-as.factor(D$APPL_STATUS_1)

# 把目标变量转成因子格式，以防模型拟合的时候识别为连续变量建立回归树

# colnames(D)[ncol(D)] <- 'APPL_STATUS_1'

D<-D[-which(names(D) %in% c('APPL_ID'))]

# 剔除掉一些不用进入模型的变量

train_ratio <- 0.7

# 设置训练集以及测试集的比例，这里设置的是3:7

n_total <- nrow(D)

# 取出原样本数据集的数量

n_train <- round(train_ratio * n_total)

# 计算出训练集的数量

n_test <- n_total - n_train

# 计算出测试集的数量

set.seed(42)

# 设置抽取种子，种子的意义在于当取同个种子的时候，抽取的样本一样。

list_train <- sample(n_total, n_train)

# 利用sample函数取数测试集的样本的行数

D_train <- D[list_train,]

# 从原样本中取出训练数据

D_test <- D[-list_train,]

# 从原样本中取出测试集数据

y_train <- D_train$APPL_STATUS_1

# 取数训练集中的因变量，待会对模型的评估需要用到

y_test <- D_test$APPL_STATUS_1

# 取数测试集中的因变量，待会对模型的评估需要用到

maxdepth <- 3

# 设置树的深度，利用rpart.control带着深度的向量，也可以直接写上深度，

# 设置在提升树过程中的树的深度

mfinal <- 10

# 设置树的数量

M_AdaBoost1 <- boosting(APPL_STATUS_1~., data = D_train,

boos = FALSE, mfinal = mfinal, coeflearn = 'Breiman',

control=rpart.control(maxdepth=maxdepth))

summary(M_AdaBoost1)

# 输出对象的M_AdaBoost1的信息，大概是种了几棵树，几个客户预测错了之类的。

M_AdaBoost1$trees

# 看下你种下的十棵树的大致情况。

M_AdaBoost1$trees[[1]]

# 检查第一颗树的情况，你检查也是看他合不合理，尽管不合理，只要效果好，

# 你还是会用，毕竟又不是只有一棵树。

M_AdaBoost1$weights

# 检查每棵树的权重

M_AdaBoost1$importance

# 看下变量的重要性。可以利用这个方法去筛选变量。

errorevol(M_AdaBoost1, D_test)

# 看下误差的演变

y_test_pred_AdaBoost1 <- predict(M_AdaBoost1, D_test)

# 使用模型预测测试集的效果。这里输出有概率也有预测分类，

# y_test_pred_AdaBoost1是个list的对象，跟拒想算的模型评估量选择计算。

accuracy_test_AdaBoost1 <- sum(y_test==y_test_pred_AdaBoost1$class) / n_test

# 计算正确率，即使用预测客户状态

msg <- paste0('accuracy_test_AdaBoost1 = ', accuracy_test_AdaBoost1)

print(msg)

# 输出正确率的结果

y_train_pred_AdaBoost1 <- predict(M_AdaBoost1, D_train)

# 使用模型预测训练集的效果

accuracy_train_AdaBoost1 <- sum(y_train==y_train_pred_AdaBoost1$class) / n_train

msg <- paste0('accuracy_train_AdaBoost1 = ', accuracy_train_AdaBoost1)

print(msg)

# 计算正确率之后，输出正确率的结果。

# 这个代码是为了寻找最优的种树的数目以及深度，因为了防止过拟合以及节省时间，这里的深度我建议设置的是2:5

# 树的数目大概是10-50课，数可能多了，但是模型复杂度也提升了，泛化能力就低了。

library(plyr)

# 加载需要的包

total1<-data.frame()

# 建立一个空表，待会这个表是用来装结果的

m <- seq(5, 30, by = 5)

# 设置树的数量，我这里设置的是从5棵树开始，到30棵树，以5为单位。

for (j in m) {

# 循环树的数量

for(i in 3:6){

# 这里设置深度循环的数字，我设置的3到6

maxdepth <- i

mfinal <- j

M_AdaBoost1 <- boosting(APPL_STATUS_1~., data = D_train,boos = FALSE, mfinal = mfinal, coeflearn = 'Breiman',control=rpart.control(maxdepth=maxdepth))

# 设置参数之后生成模型

y_test_pred_AdaBoost1 <- predict(M_AdaBoost1, D_test)

# 利用生成的模型预测测试集

accuracy_test <- sum(D_test$APPL_STATUS_1==y_test_pred_AdaBoost1$class) / length(y_test_pred_AdaBoost1$class)

# 计算正确率

pred<-prediction(y_test_pred_AdaBoost1$prob[,2],y_test)

perf<-performance(pred,'tpr','fpr')

auc1 <-performance(pred,'auc')@y.values

#计算AUC值

v = as.vector(unlist(auc1[1]))

# 因为AUC值不是一个向量的格式，但是我后续需要组成数据框，所以在这里转成向量了

ks1 <- max(attr(perf,'y.values')[[1]]-attr(perf,'x.values')[[1]])

#计算KS

total<-data.frame(auc=v,ks=ks1,accuracy=accuracy_test,maxdepth=i,mfinal=j)

# 将多个模型评估指标合并变成数据框

total1<-rbind(total1,total)

# 纵向合并

print(paste("adaboost-maxdepth:", i))

print(paste("adaboost-mfinal:", j))

# 打印循环哪一步，以防报错的时候可以直达是哪一步错误，以及跟踪进度跑到那里了

}

结果跑出看total1这个数据集，图：

第一列是auc,依次是ks，正确率,设置的树的深度，以及种的棵树。可以根据这张表选出你认为好的深度以及树的棵树

M_AdaBoost1 <- boosting(APPL_STATUS_1~., data = D_train,

boos = FALSE, mfinal = 15, coeflearn = 'Breiman',

control=rpart.control(maxdepth=3))

# 在刚才的adaboost取最优参数取出最优的树以及深度之后，在这里跑出模型之后，用在其他模型上面

# 因为集成模型大部分时候都是一个类似黑箱子的过程，你是知道几棵树，深度多少，但是实际上，你并不能

# 像逻辑回归一样一颗一颗树去看他合不合理，所以这时候就需要就检查他对其他数据是不是也可行，且效果

# 不会下降太多

library(plyr)

# 加载需要的包

CVgroup <- function(k, datasize, seed) {

cvlist <- list()

set.seed(seed)

n <- rep(1:k, ceiling(datasize/k))[1:datasize]

#将数据分成K份，并生成的完整数据集n

temp <- sample(n, datasize)

#把n打乱

x <- 1:k

dataseq <- 1:datasize

cvlist <- lapply(x, function(x) dataseq[temp==x])

#dataseq中随机生成10个随机有序数据列

return(cvlist)

}

cvlist<-CVgroup(10, 10513, 957445)

# 这个过程第二个参数输入的是你的数据集的总数，第三个是seed种子,第一个是划分成几份。

# cvlist是一个list,包含十个样本，每个样本的数量差不多

data <- D

# 将的原样本数据集赋给data

total1 <- data.frame()

#建立一个空表存储预测结果

for (i in 1:10) {

# 循环上面那个代码分好的是个数据集

print(i)

test <- data[cvlist[[i]],]

# 取出第i个数据集

y_test<-test$APPL_STATUS_1

# 取出第i个数据集中的因变量

y_test_pred_rf1 <- predict(M_AdaBoost1, test)

# 预测第i个数据集

accuracy_test <- sum(test$APPL_STATUS_1==y_test_pred_rf1$class) / length(y_test_pred_rf1$class)

# 计算第i个数据集的正确率

pred<-prediction(y_test_pred_rf1$prob[,2],y_test)

perf<-performance(pred,'tpr','fpr')

auc1 <- performance(pred,'auc')@y.values

v = as.vector(unlist(auc1[1]))

#计算第i个数据集的AUC值

ks1 <- max(attr(perf,'y.values')[[1]]-attr(perf,'x.values')[[1]]) #计算KS

#计算第i个数据集的ks值

total<-data.frame(auc=v,ks=ks1,accuracy=accuracy_test)

# 合并各项参数

total1<-rbind(total1,total)

# 合并每个数据集的结果

}

这个代码跑完之后看total1,图：

这就是你选出的模型，将总体数据分成十份每一份的ks以及auc,你要是觉得不可靠，可以多循环几次种子。要是觉得你选的模型不好，可以回去第二步再选一个放到第三步的代码跑。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

泛化能力过拟合逻辑回归 R语言机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇我的R语言小白之梯度上升和逐步回归的结合使用

下一篇我的数据分析师之路丨从制造业到互联网业

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

我是R语言小白带你建模之adaboost建模

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载