R如何确定最适合数据集的机器学习算法-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R如何确定最适合数据集的机器学习算法

R如何确定最适合数据集的机器学习算法

2016-02-29

R如何确定最适合数据集的机器学习算法

抽查(Spot checking)机器学习算法是指如何找出最适合于给定数据集的算法模型。

本文中我将介绍八个常用于抽查的机器学习算法，文中还包括各个算法的 R语言代码，你可以将其保存并运用到下一个机器学习项目中。

适用于你的数据集的最佳算法

你无法在建模前就知道哪个算法最适用于你的数据集。

你必须通过反复试验的方法来寻找出可以解决你的问题的最佳算法，我称这个过程为 spot checking。

我们所遇到的问题不是我应该采用哪个算法来处理我的数据集?，而是我应该抽查哪些算法来处理我的数据集?

抽查哪些算法?

首先，你可以思考哪些算法可能适用于你的数据集。

其次，我建议尽可能地尝试混合算法并观察哪个方法最适用于你的数据集。

尝试混合算法(如事件模型和树模型)

尝试混合不同的学习算法(如处理相同类型数据的不同算法)

尝试混合不同类型的模型(如线性和非线性函数或者参数和非参数模型)

让我们具体看下如何实现这几个想法。下一章中我们将看到如何在 R 语言中实现相应的机器学习算法。

如何在 R 语言中抽查算法?

R 语言中存在数百种可用的机器学习算法。

如果你的项目要求较高的预测精度且你有充足的时间，我建议你可以在实践过程中尽可能多地探索不同的算法。

通常情况下，我们没有太多的时间用于测试，因此我们需要了解一些常用且重要的算法。

本章中你将会接触到一些 R 语言中经常用于抽查处理的线性和非线性算法，但是其中并不包括类似于boosting和bagging的集成算法。

每个算法都会从两个视角进行呈现：

1.常规的训练和预测方法

2.caret包的用法

你需要知道给定算法对应的软件包和函数，同时你还需了解如何利用caret包实现这些常用的算法，从而你可以利用caret包的预处理、算法评估和参数调优的能力高效地评估算法的精度。

本文中将用到两个标准的数据集：

1.回归模型：BHD(Boston Housing Dataset)

2.分类模型: PIDD(Pima Indians Diabetes Dataset)

本文中的算法将被分成两组进行介绍：

1.线性算法：简单、较大的偏倚、运算速度快

2.非线性算法：复杂、较大的方差、高精确度

下文中的所有代码都是完整的，因此你可以将其保存下来并运用到下个机器学习项目中。

线性算法

这类方法对模型的函数形式有严格的假设条件，虽然这些方法的运算速度快，但是其结果偏倚较大。

这类模型的最终结果通常易于解读，因此如果线性模型的结果足够精确，那么你没有必要采用较为复杂的非线性模型。

线性回归模型

stat包中的lm()函数可以利用最小二乘估计拟合线性回归模型。

# load the library

library(mlbench)

# load data

data(BostonHousing)

# fit model

fit <- lm(mdev~>, BostonHousing)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, BostonHousing)

# summarize accuracy

mse <- mean((BostonHousing$medv – predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

library(mlbench)

# load dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.lm <- train(medv~., data=BostonHousing, method=”lm”, metric=”RMSE”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.lm)

罗吉斯回归模型

stat包中glm()函数可以用于拟合广义线性模型。它可以用于拟合处理二元分类问题的罗吉斯回归模型。

# load the library

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- glm(diabetes~., data=PimaIndiansDiabetes, family=binomial(link=’logit’))

# summarize the fit

print(fit)

# make predictions

probabilities <- predict(fit, PimaIndiansDiabetes[,1:8], type=’response’)

predictions <- ifelse(probabilities > 0.5,’pos’,’neg’)

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.glm <- train(diabetes~., data=PimaIndiansDiabetes, method=”glm”, metric=”Accuracy”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.glm)

线性判别分析

MASS包中的lda()函数可以用于拟合线性判别分析模型。

# load the libraries

library(MASS)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- lda(diabetes~., data=PimaIndiansDiabetes)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8])$class

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.lda <- train(diabetes~., data=PimaIndiansDiabetes, method=”lda”, metric=”Accuracy”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.lda)

正则化回归

glmnet包中的glmnet()函数可以用于拟合正则化分类或回归模型。

分类模型：

# load the library

library(glmnet)

library(mlbench)

# load data

data(PimaIndiansDiabetes)

x <- as.matrix(PimaIndiansDiabetes[,1:8])

y <- as.matrix(PimaIndiansDiabetes[,9])

# fit model

fit <- glmnet(x, y, family=”binomial”, alpha=0.5, lambda=0.001)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, x, type=”class”)

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

library(glmnet)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.glmnet <- train(diabetes~., data=PimaIndiansDiabetes, method=”glmnet”, metric=”Accuracy”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.glmnet)

回归模型：

# load the libraries

library(glmnet)

library(mlbench)

# load data

data(BostonHousing)

BostonHousing$chas <- as.numeric(as.character(BostonHousing$chas))

x <- as.matrix(BostonHousing[,1:13])

y <- as.matrix(BostonHousing[,14])

# fit model

fit <- glmnet(x, y, family=”gaussian”, alpha=0.5, lambda=0.001)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, x, type=”link”)

# summarize accuracy

mse <- mean((y – predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

library(mlbench)

library(glmnet)

# Load the dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.glmnet <- train(medv~., data=BostonHousing, method=”glmnet”, metric=”RMSE”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.glmnet)

非线性算法

非线性算法对模型函数形式的限定较少，这类模型通常具有高精度和方差大的特点。

k近邻法

caret包中的knn3()函数并没有建立模型，而是直接对训练集数据作出预测。它既可以用于分类模型也可以用于回归模型。

分类模型：

# knn direct classification

# load the libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- knn3(diabetes~., data=PimaIndiansDiabetes, k=3)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8], type=”class”)

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.knn <- train(diabetes~., data=PimaIndiansDiabetes, method=”knn”, metric=”Accuracy”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.knn)

回归模型：

# load the libraries

library(caret)

library(mlbench)

# load data

data(BostonHousing)

BostonHousing$chas <- as.numeric(as.character(BostonHousing$chas))

x <- as.matrix(BostonHousing[,1:13])

y <- as.matrix(BostonHousing[,14])

# fit model

fit <- knnreg(x, y, k=3)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, x)

# summarize accuracy

mse <- mean((BostonHousing$medv – predictions)^2)

print(mse)

# caret

# load libraries

library(caret)

data(BostonHousing)

# Load the dataset

data(BostonHousing)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.knn <- train(medv~., data=BostonHousing, method=”knn”, metric=”RMSE”, preProc=c(“center”, “scale”), trControl=control)

# summarize fit

print(fit.knn)

朴素贝叶斯算法

e1071包中的naiveBayes()函数可用于拟合分类问题中的朴素贝叶斯模型。

# load the libraries

library(e1071)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# fit model

fit <- naiveBayes(diabetes~., data=PimaIndiansDiabetes)

# summarize the fit

print(fit)

# make predictions

predictions <- predict(fit, PimaIndiansDiabetes[,1:8])

# summarize accuracy

table(predictions, PimaIndiansDiabetes$diabetes)

# caret

# load libraries

library(caret)

library(mlbench)

# Load the dataset

data(PimaIndiansDiabetes)

# train

set.seed(7)

control <- trainControl(method=”cv”, number=5)

fit.nb <- train(diabetes~., data=PimaIndiansDiabetes, method=”nb”, metric=”Accuracy”, trControl=control)

# summarize fit

print(fit.nb)

支持向量机算法

kernlab包中的ksvm()函数可用于拟合分类和回归问题中的支持向量机模型。

分类模型：

# Classification Example:

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习线性回归支持向量机朴素贝叶斯集成算法 R语言最小二乘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R如何确定最适合数据集的机器学习算法

R如何确定最适合数据集的机器学习算法

适用于你的数据集的最佳算法

抽查哪些算法?

如何在 R 语言中抽查算法?

线性算法

正则化回归

非线性算法

k近邻法

朴素贝叶斯算法

支持向量机算法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载