
sas批量删除重复超过90%的变量
22年前的今天我的妈咪把我带来这个世界,费尽心思把我养到这么大,我就是4月份出生的大白羊,我的生日愿望呢,就是想有个大神在留言板块教我一个怎么识别组合变量更好解释因变量的方法,譬如我怎么知道年龄和婚姻两个变量在一起的效果比单个的效果还要好,但是年龄和性别组合效果并没有那么好。跪求大神实现我的生日愿望吧。
今天还是没有要更新信用评分的内容,更新的内容是关于变量处理中的问题,之前的文章中有过变量处理的章节,这篇文章是对那篇的补充,之前讲过我会把缺失值达到70%的变量删掉。我漏掉一个问题就是变量的重复值达到90%也应该删掉,譬如一个变量有5中情况:ABCDE,但是A的情况的占比就达到90%的时候,除非这个变量剩下的10%全部都是逾期的,不然这样的变量是没有意义,所以今天分享的代码就是批量找出这些变量并在原数据集中删掉。这次的代码也是陈先生提供的。我在陈先生代码的基础上做了一些改动并调试了。
话不多说,上代码:
%macrovar_namelist(data=,tarvar=,dsor=);
%letlib=%upcase(%scan(&data.,1,'.'));
%letdname=%upcase(%scan(&data.,2,'.'));
%globalvar_list var_num;
proc sql ;
create table &dsor.as
select name
from sashelp.VCOLUMN
where left(libname)="&lib."and left(memname)="&dname."and lowcase(name)^=lowcase("&tarvar.");
quit;
%mend;
%macrotest(data,tarvar,data_result,data_drop,rate);
proc datasets lib=work;
delete base;
run;
data base;
length variable$100.;
run;
%var_namelist(data=&data.,/*coltype=num,*/tarvar=&tarvar.,dsor=aa);
data _null_;
set aa;
call symput(compress("var"||left(_n_)),compress(name));
call symput(compress("n"),compress(_n_));
run;
%put&n.;
%doi=1%to&n.;
%put&&var&i.;
proc freq data=&data.(keep=&&var&i.) noprint;
tables &&var&i./out=PERCENT_&&var&i.;
/*(keep=PERCENT)*/
run;
proc sql;
select max(PERCENT) into: max_percent from
PERCENT_&&var&i.;
quit;
%if&max_percent>&rate.%then%do;
data next;
variable="&&var&i.";
run;
proc append base=base data=next force;
run;
%end;
proc datasets lib=work noprint;
delete PERCENT_&&var&i.;
run;
%end;
data base;
set base(where=(variable^=''));
run;
proc transpose data=base out=base1(drop=_name_);
id variable;
run;
/*这步是删除单一变量超过90的重复值的缺失值的可以按照这个写下*/
proc sql noprint;
select name into :var_list separated by' '
from sashelp.VCOLUMN
where upcase(left(libname))="WORK"and UPCASE(left(memname))="BASE1";
quit;
%PUT&var_num1.;
data &data_result.;
set &data.;
drop &var_list.;
run;
data &data_drop.;
set &data.;
keep &tarvar.&var_list.;
run;
%mend;
第一宏不用管,那是为了嵌套在第二个宏里面的。那么接下来介绍下这个宏怎么用。
test(data,tarvar,data_result,data_drop,rate);
data:填入的原数据集。
Tarvar:填入你不想要统计的变量。可以是你的主键也可以是你的因变量,随便你。像我填入的是因变量。
data_result:结果数据集,你的结果数据想叫什么就填什么把。
Data_drop:删掉的变量存放的数据集,给你检查一下有没有错删变量。
Rate:填入的是你觉得重复值达到多少的时候就删掉。我建议的80-90。
下周分享的一个变量人工分段的一个代码。这个代码是我当下除了最优分段之外觉得好用的代码,因为最优分段需要做异常值的检查。有时候异常值检查不好,容易分组的分的不好。这是我个人的经验哈,对于变量分段我之前很崇尚自动分组,我觉得那么多的变量,我一个一个的去细看这无非浪费我的时间,但是我失败的经验告诉我,模型的过程每一步的都应该细致并且仔细,该人工的时候还是要人工,如果全部可以全自动化,那么只要自动运行代码就可以了,谁都可以建模了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18刚入职场或是在职场正面临岗位替代、技能更新、人机协作等焦虑的打工人,想要找到一条破解职场焦虑和升职瓶颈的系统化学习提升 ...
2025-07-182025被称为“AI元年”,而AI,与数据密不可分。网易公司创始人丁磊在《AI思维:从数据中创造价值的炼金术 ...
2025-07-18CDA 数据分析师:数据时代的价值挖掘者 在大数据席卷全球的今天,数据已成为企业核心竞争力的重要组成部分。从海量数据中提取有 ...
2025-07-18SPSS 赋值后数据不显示?原因排查与解决指南 在 SPSS( Statistical Package for the Social Sciences)数据分析过程中,变量 ...
2025-07-18在 DBeaver 中利用 MySQL 实现表数据同步操作指南 在数据库管理工作中,将一张表的数据同步到另一张表是常见需求,这有助于 ...
2025-07-18数据分析师的技能图谱:从数据到价值的桥梁 在数据驱动决策的时代,数据分析师如同 “数据翻译官”,将冰冷的数字转化为清晰的 ...
2025-07-17