
sas信用评分之不用检查异常值的最优分组
今天的更新比以往晚了一天,假期综合症第一天,我到现在已经喝了第三杯咖啡,实现上周的预告,这种更新一个不用检查异常值的数值变量最优分组。其实这代码我本来不想拿出来,我觉得这代码估计能卖点钱,但是介于我是一个不敢赚你们钱的博主,所以还是拿出来吧。本篇文章最后有惊喜。
首先我们先说下,这的代码的思路,为什么不用检查异常值呢。其实是这样子的,我把等量分组和最优分组结合起来了,即保证了最小组的数量也保证了不要因为某些异常值导致分组的过拟合。也少去人工的手动分组。
譬如,有一个年龄的分组,那么我会先用等量分组先分成20组,这时候注意了,就是前后会有极小极大值,就算是异常值,这时候因为你分成了20组,所以极小值以及极大值就被包含在第一组以及最后一组中,以1和20代替了。我相信我这么说你应该可以理解。
至于这等量分组的代码用的是proc rank过程去分的,具体可以参考:proc rank过程
等量分组的代码在这篇文章中:sas信用评分之手动对数值变量分组
然后将产出的结果映射到原数据中再丢进去最优分组,最优分组的代码在这篇文章中:sas信用评分之第二步变量筛选。再丢进去最优分组的代码的时候,需要将等量分组映射到原数据集中,映射代码如下:
/*这个宏是在%data_split后面的执行的,所以这里需要的数据集有%data_split中产生的以"_iv"为后缀的,"_RANK"的数据集*/
data:填入原数据集
id:填入主键
ddvar:因变量
%macro map(data,id,ddvar);
proc sql noprint;
select col_name into: varlist separated by ' ' from &data._IV;
%let nVar=&SQLOBS;
quit;/*从细分后的字典表中得到待填充的变量*/
%put &varlist.;
data &data._woe;
set &data.(keep=&id. &ddvar.);
run;/*首先获取相应的识别标识及Y值*/
data &data._1(drop=i);
set &data.;
array arr1{*} _NUMERIC_;
do i = 1 to dim(arr1);
if missing(arr1(i)) then do;
arr1(i)=-999;
end;
end;
run;
%do i=1 %to &nVar;
%let var = %scan(&varlist, &i);
data V ;
set &data._1(keep=&id. &var.);
run;/*找出待填充变量的取值,将空值填充为1000000000*/
data rank;
set &data._RANK;
where col_name="&var.";
run;/*找出待填充变量的配置表相关信息*/
proc sql noprint;
create table WOE AS
select I.&id., B.clus as &var.
from V AS I
left join rank AS B
ON I.&var. > b.low AND I.&var. <= B.up
;
quit;/*通过上、下界进行填充*/
proc sort data=WOE;
by &id.;
run;
proc sort data=&data._woe;
by &id.;
run;
data &data._woe;
merge &data._woe woe;
by &id.;
run;/*合并所有的变量woe*/
%end;
%mend;
我希望你们真心想用这部分代码分组的,你们要自己看懂代码,学习这种东西不是问出来,都是要自己动手琢磨的。我自认为我不是一个聪明的人,但我是喜欢的东西,我会很乐于去探索,所以你也可以。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27