R语言基于支持向量机训练模型实现类预测-CDA数据分析师官网

热线电话：13121318867

R语言基于支持向量机训练模型实现类预测

2018-05-26

R语言基于支持向量机训练模型实现类预测

前面介绍了基于训练集训练SVM的方法。通过训练，算法能找到使间隔区间最大化的最优平面来分割训练数据集，得到SVM模型能够被用来预测新到样例的类别。

准备
使用之前构建的churn构建的model.
操作
利用已构建的SVM模型和测试数据集的属性预测它的模型
svm.pred = predict(model,testset[,!names(testset) %in% c("churn")])
svm.table = table(svm.pred,testset$churn)
svm.table

svm.pred yes no
     yes 70 12
     no   71 865
调用classAgreement计算分类一致性

classAgreement(svm.table)
$diag
[1] 0.9184676

$kappa
[1] 0.5855903

$rand
[1] 0.850083

$crand
[1] 0.5260472
调用confusionMatrix基于分类表评测预测性能

library(lattice)
library(ggplot2)
library(caret)
confusionMatrix(svm.table)
Confusion Matrix and Statistics

svm.pred yes no
     yes 70 12
     no   71 865

               Accuracy : 0.9185
                 95% CI : (0.8999, 0.9345)
    No Information Rate : 0.8615
    P-Value [Acc > NIR] : 1.251e-08

                  Kappa : 0.5856
Mcnemar's Test P-Value : 1.936e-10

            Sensitivity : 0.49645
            Specificity : 0.98632
         Pos Pred Value : 0.85366
         Neg Pred Value : 0.92415
             Prevalence : 0.13851
         Detection Rate : 0.06876
   Detection Prevalence : 0.08055
      Balanced Accuracy : 0.74139

       'Positive' Class : yes
说明

本节首先调用predict函数获得测试数据集的预测模型，然后用table函数产生测试数据集的分类表，接下来的性能评测过程与前述章节其他方法其他分类方法的评测类似。
引入了一个新的函数classAgreement用来计算一个二维列联表行列之间多种一致性关系数。
diag系数为分类表主对角性上数据点的百分比，kappa系数是对diag系数随机一致性的修正，rand代表聚类评价指标（rand index），主要用来横量两个聚簇之间的相似性，crand系数是出现元素随机分类情况对Rand index 修正结果。
SVM回归分析

还可以使用SVM预测连续变量，也就是使用SVM实现回归分析。在接下来的样例中，我们使用名为eps-regression模型说明如何使用SVM执行回归分析。
使用Quartet数据集来训练一个支持向量机：

library(car)
data(Quartet)
model.regression = svm(Quartet$y1~Quartet$x,type = "eps-regression")

使用predict函数得到预测结果

predict.y = predict(model.regression,Quartet$x)
predict.y

调用plot绘图函数，预测值用正方形，训练数据用圆形：

plot(Quartet$x,Quartet$y1,pch = 19)
points(Quartet$x,predict.y,pch = 15,col = "red")