sas信用评分之不用检查异常值的最优分组-CDA数据分析师官网

热线电话：13121318867

sas信用评分之不用检查异常值的最优分组

2017-05-29

sas信用评分之不用检查异常值的最优分组

今天的更新比以往晚了一天，假期综合症第一天，我到现在已经喝了第三杯咖啡，实现上周的预告，这种更新一个不用检查异常值的数值变量最优分组。其实这代码我本来不想拿出来，我觉得这代码估计能卖点钱，但是介于我是一个不敢赚你们钱的博主，所以还是拿出来吧。本篇文章最后有惊喜。

首先我们先说下，这的代码的思路，为什么不用检查异常值呢。其实是这样子的，我把等量分组和最优分组结合起来了，即保证了最小组的数量也保证了不要因为某些异常值导致分组的过拟合。也少去人工的手动分组。

譬如，有一个年龄的分组，那么我会先用等量分组先分成20组，这时候注意了，就是前后会有极小极大值，就算是异常值，这时候因为你分成了20组，所以极小值以及极大值就被包含在第一组以及最后一组中，以1和20代替了。我相信我这么说你应该可以理解。

至于这等量分组的代码用的是proc rank过程去分的，具体可以参考：proc rank过程

等量分组的代码在这篇文章中：sas信用评分之手动对数值变量分组

然后将产出的结果映射到原数据中再丢进去最优分组，最优分组的代码在这篇文章中：sas信用评分之第二步变量筛选。再丢进去最优分组的代码的时候，需要将等量分组映射到原数据集中，映射代码如下：

/*这个宏是在%data_split后面的执行的，所以这里需要的数据集有%data_split中产生的以"_iv"为后缀的，"_RANK"的数据集*/

data：填入原数据集

id:填入主键

ddvar:因变量

%macro map(data,id,ddvar);

proc sql noprint;

select col_name into: varlist separated by ' ' from &data._IV;

%let nVar=&SQLOBS;

quit;/*从细分后的字典表中得到待填充的变量*/

%put &varlist.;

data &data._woe;

set &data.(keep=&id. &ddvar.);

run;/*首先获取相应的识别标识及Y值*/

data &data._1(drop=i);

set &data.;

array arr1{*} _NUMERIC_;

do i = 1 to dim(arr1);

if missing(arr1(i)) then do;

arr1(i)=-999;

end;

run;

%do i=1 %to &nVar;

%let var = %scan(&varlist, &i);

data V ;

set &data._1(keep=&id. &var.);

run;/*找出待填充变量的取值，将空值填充为1000000000*/

data rank;

set &data._RANK;

where col_name="&var.";

run;/*找出待填充变量的配置表相关信息*/

proc sql noprint;

create table WOE AS

select I.&id., B.clus as &var.

from V AS I

left join rank AS B

ON I.&var. > b.low AND I.&var. <= B.up

;

quit;/*通过上、下界进行填充*/

proc sort data=WOE;

by &id.;

run;

proc sort data=&data._woe;

by &id.;

run;

data &data._woe;

merge &data._woe woe;

by &id.;

run;/*合并所有的变量woe*/

%end;

%mend;

我希望你们真心想用这部分代码分组的，你们要自己看懂代码，学习这种东西不是问出来，都是要自己动手琢磨的。我自认为我不是一个聪明的人，但我是喜欢的东西，我会很乐于去探索，所以你也可以。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

异常值 SQL 过拟合

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

sas信用评分之不用检查异常值的最优分组

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载