SAS逻辑回归之二分类-CDA数据分析师官网

热线电话：13121318867

SAS逻辑回归之二分类

2017-07-18

SAS逻辑回归之二分类

数据集这里用的是australian,有14个自变量Xi,一个因变量Y，Y值只取0或1。

代码如下：

/*逻辑回归数据集australian（690个观测值，每个含14个属性，目标变量y(0、1)）*/
    /*导入数据集australian到逻辑库work中*/
    proc import out=aus
        datafile="\\vmware-host\Shared Folders\桌面\SAS\\data\australian.csv"      /*文件路径*/
        dbms=csv replace;                               /*文件类型指定*/
        delimiter=',';
        getnames=yes;                                   /*是否将第一列作为列名*/
    run;

    /*查看数据集*/
    proc print data=aus;
    run;

    /**************************** 使用交叉验证法选择最优模型 *****************************************/

    /*利用10-折交叉验证法计算测试集上的预测准确率*/
    %let k=10;                            /*定义宏变量-交叉验证的折数k*/
    %let rate=%sysevalf((&k-1)/&k);       /*给出交叉验证的样本抽样比率（因为宏变量k的本质是文本，不能直接参与运算，要将其视为数字计算要用%evalf or %sysevalf）*/

    /*生成交叉验证的10个样例，保存在cv中*/
    proc surveyselect data=aus
                  out=cv            /*生成的样例全部放在数据集cv中*/
                  seed=158
                  samprate=&rate    /*抽样比率设定，宏变量rate的调用要加&*/
                  outall            /*输出全部数据*/
                  reps=10;          /*指定样本重复的次数*/
    run;

    /*交叉验证的生成数据集中，selected列为1表示该行为训练集样本，0表示测试集样本，这里为new_y赋值，
      若selected=1，则可获得Y的值，若为0，该行的new_y为空。接下来给出new_y为空行的预测值。*/
    data cv;
      set cv;
       if selected then new_y=Y;
      run;

    /*逻辑回归主程序 - 10折交叉验证*/
    ods output parameterestimates=paramest   /*输出交叉验证的参数估计值*/
               association=assoc;            /*输出交叉验证的C统计量*/
    proc logistic data=cv des;            /*des控制以Y=1来建模*/
        /* class new_y (param=ref ref='yes'); 若new_y是分类变量，则用class对其参数化处理，这里选择处理方式为ref，以“yes”作为参考水平，以便于后续odds的计算*/
        model new_y=X1-X14 / SELECTION=STEPWISE SLE=0.1 SLS=0.1;
        by replicate;                         /*以交叉验证的组别来分组建模*/
        output out=out1(where=(new_y=.))    /*只给出测试集的预测结果（即new_y为空的样本）*/
               p=y_hat;
    run;
    ods output close;

    data out1;
        set out1;
        if y_hat>0.5 then pred=_LEVEL_ ;     /* PHAT为logistic方程针对每个观察体计算的属于该组别的概率，若PHAT>0.5，则属于该组别（这里level为1），否则，属于另一组别 */
        else pred=0;                     /* 本例为二分类，概率依照level（1）计算，因此另一类为0 */
    run;

    /*汇总交叉验证的结果*/
    /*计算预测准确率(测试集中预测准确的样本占预测总样本的概率)*/
    data out2;
        set out1;
        if Y=pred then d=1; /*d为真实值和预测值的误差,这里设无误差为1，有误差为0*/
        else d=0;
    run;

    proc summary data=out2;
        var d;
        by replicate;
        output out=out3 sum(d)=d1;   /*预测正确的个数*/
    run;

    data out3;
        set out3;
        acc=d1/_freq_;   /*预测准确率*/
        keep replicate acc;
    run;

    /*结果中加入交叉验证的C统计量（度量观测值和预测值之间的一致性，越大越好）*/
    data assoc;
        set assoc;
        where label2="c";
        keep replicate cvalue2;
    run;

    /*合并交叉验证的统计结果*/
    data cvresult;
    merge assoc(in=ina) out3(in=inb);
    keep replicate cvalue2 acc;
    run;

    proc print data=cvresult;
    title'交叉验证组号、c统计量、预测准确率';
    run;

    title '交叉验证最优模型选择：组号、预测准确率';
    ods output SQL_Results=cvparam;      /*保存最优模型结果在cvparam数据集中*/
    proc sql ;
        select replicate,acc from cvresult having acc=max(acc);
    quit;
    ods output close;



    /***************** 以交叉验证的最优结果组进行建模 *************************************/
    /*以最优组合从cv的10个样例中拿出最优样例，作为训练集和测试集*/
    /*取出最优组号对应的selected=1的行，作为训练集train，其余的作为测试集test*/
    proc sql ;
        create table train as
        select * from cv where replicate in (select replicate from cvparam)
        having selected=1;
        create table test as
        select * from cv where replicate in (select replicate from cvparam)
        having selected=0;
    run;

    TITLE '--------Logistic Regression - 数据集Neur - 建模方法 STEPWISE ---------------------------';

    /* 逻辑回归主程序 - 通过训练集建立logistic模型*/
    proc logistic data=train DES                    /*根据分类值从大到小选择建模组别，此处为yes*/
                        covout outest=Nout_step /*输出建模参数估计值及变量间的协方差矩阵*/
                        outmodel=model            /*输出建模结果（若想要通过已有的建模结果来预测新数据集，这里可以用inmodel实现）*/
                        simple;                          /*输出变量的简单统计量*/
            /* class Y (param=ref ref='yes'); 若Y是分类变量，则用class对其参数化处理，这里选择处理方式为ref，以“yes”作为参考水平，以便于后续odds的计算*/
            MODEL Y=X1-X14                             /*logistic回归模型：反应变量=自变量1 2 3...*/
                          / SELECTION=STEPWISE           /*选择建模方式 - 逐步排除法*/
                            SLE=0.1 SLS=0.1              /*变量在模型中的显著程度，默认为0.05*/
                            details                      /*输出模型界定的过程，包括自变量的检定和相关系数的值*/
                            lackfit                      /*输出HL拟合优度*/
                            RSQ                          /*模型解释度R方*/
                            STB                          /*输出标准化模型后的参数*/
                            CL                           /*参数估计和置信区间*/
                            itprint                      /*输出分析每个步骤的统计量*/
                            corrb                        /*输出变量的相关矩阵*/
                            covb                         /*输出变量的协方差矩阵*/
                            ctable                       /*输出不同阈值下的二分类变量的分组情况，类似于ROC曲线上的每个点的值*/
                            influence                    /*输出观察体中每个变量统计量，便于找出对分析结果影响力较大的观察体*/
                            IPLOTS ;                     /*针对influence的结果画出图形，影响力过高的观察体在图形上都会显得特别突出*/
     score data=train outroc=train_roc;            /*通过score语句得到训练集上一系列的sensitivity和specificity，画出ROC曲线*/
     score data=test
           out=test_pred
           outroc=test_roc;                      /*通过score来预测测试集，结果保存在test_pred中，画出ROC曲线*/
    OUTPUT out=train_pred                        /*保存模型预测结果在该数据集中，数据集中包含的列由以下添加的统计量给出*/
                P=PHAT lower=LCL upper=UCL              /*输出文件中包含每个观察体属于logistic方程预测组别的概率，用PHAT作列名，LCL和UCL为置信上下限的值*/
                RESCHI=RESCHI RESDEV=RESDEV             /*Pearson残差和偏差残差，找出与模型不太符合的观察体*/
                DIFCHISQ=DIFCHISQ DIFDEV=DIFDEV         /*检测观察体对对皮尔森卡方适合度和对偏激统计量的影响程度，越大说明与模型越不符*/
                                                         /* 还可加入的统计量：C、CBAR、DFBETAS、H、XBETA、STDXBETA */
               / ALPHA=0.1;                              /*界定P值的信赖度，默认为0.05，对应信赖度为95%，这里为90%*/
    run;
    quit;

    /*
    逻辑回归主程序 - 根据logistic模型对测试集进行预测（有需要时可使用独立的logistic过程对新数据进行预测）
    proc logistic inmodel=model;
        SCORE data=test
              outroc=predict_roc;
    run;
    */

    /* 训练集的预测结果中只给出了预测概率，接下来根据0.5分界将观察体归到具体的类中，加一列“pred”（预测组别）*/
    data train_pred;
        set train_pred;
        if PHAT>0.5 then pred=_LEVEL_ ;     /* PHAT为logistic方程针对每个观察体计算的属于该组别的概率，若PHAT>0.5，则属于该组别（这里level为1），否则，属于另一组别 */
        else pred=0;
    run;

    /* 输出混淆矩阵 - 训练集*/
    ods output CrossTabFreqs=ct_train;   /*保存混淆矩阵表（训练集）*/
    ods trace on;
    proc freq data=train_pred;
        tables Y*pred;
    run;
    ods trace off;
    ods output close;

    proc sql;
        create table acc1 as
        select sum(percent) from ct_train where (Y=pred and Y ^=.);
    proc print data=acc1;
    title '训练集上的预测准确率';
    run;


    /* 输出混淆矩阵及准确率等指标 - 测试集*/
    ods output CrossTabFreqs=ct_test; /*保存混淆矩阵表（测试集）*/
    proc freq data=test_pred;
        tables F_Y*I_Y ;
    run;
    ods output close;

    proc sql;
        create table acc2 as
        select sum(percent) from ct_test where (F_Y=I_Y and F_Y ^='');
    proc print data=acc2;
    title '测试集上的预测准确率';
    run;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

逻辑回归混淆矩阵偏差 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SAS逻辑回归之二分类

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

SAS逻辑回归之二分类

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章 业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...