两种SAS代码实现变量的缺失值频数及占比-CDA数据分析师官网

热线电话：13121318867

两种SAS代码实现变量的缺失值频数及占比

2017-03-31

两种SAS代码实现变量的缺失值频数及占比

sas对缺失值的统计，可得出缺失值的频数及占比。以下为详细程序代码：
/*首先是创建示例数据集*/
data tmp;
infile datalines delimiter=",";
length var1 $8.;
length var2 8.;
length var3 $8.;
length var4 8.;
input var1 $ var2 var3 $ var4
@@;
datalines;
A,1,B,2.,3,C,.C,.,.,3
;
run;

如图得到下列数据集

然后统计数据集中缺失值和占比，先为字符型和数值型先分别设定一个format，然后直接对变量进行频数统计，再做一下简单处理，就可得到理想结果。

代码如下

proc format;

value num_f . = "0"

low-high = "1" ;

value $char_f " " = "0"

other = "1" ;

run;

/*频数统计*/

ods output onewayfreqs=tables;

proc freq data= tmp ;

tables _all_ / missing;

format _numeric_ num_f. _character_ $char_f.;

run;

ods output close;

数据集如下：

/*保留缺失变量、频数和占比*/

data miss;

length variable $50;

set tables;

variable = scan(Table,2,"“"); /*获取变量名*/

/*由于变量都是F_开头，因此可以用F_:来包含所有变量*/

value = max(of F_:);

if value = 0; /*缺失标志*/

keep variable frequency percent;

label variable = "缺失变量名" frequency = "缺失频数" percent = %nrstr("%缺失占比");

run;

以上为第一种方法；

下面用数组的方法进行实现。

/*找出缺失变量*/

data tmp11;

set tmp;

array arr1{*} _NUMERIC_ ;

array arr2{*} _CHARACTER_ ;

length variable $50;

do i = 1 to dim(arr1);

if missing(arr1(i)) then do;

variable =vname(arr1(i)); /*数值型缺失*/

output;

end;

do j = 1to dim(arr2);

if missing(arr2(j)) then do;

variable = vname(arr2(j)); /*字符型缺失*/

output;

end;

keep variable;

run;

/*统计缺失频数和占比*/

proc sql noprint;

select count(*) into : N from tmp;

create table miss as

select variable label = "缺失变量名",count(*) as frequency label = "缺失频数",

input(compress(put(calculated frequency / &N.,percent10.2),"%"),best32.) as percent label = %nrstr("%缺失占比")

from tmp11

group by variable;

quit;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

两种SAS代码实现变量的缺失值频数及占比

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Pandas 选取特定值所在行：6 类核心方法 ...

【CDA干货】球面卷积神经网络（SCNN） ...

CDA 数据分析师：读懂时间序列，让历史数据成为业务 ...

【CDA干货】Excel 能做聚类分析吗？基础方法、进阶 ...

【CDA干货】XGBoost 决策树：原理、优化与工业级实 ...

CDA 数据分析师：精通标签加工方式，让数据标签从 ...

【CDA干货】Excel 数据透视表折叠功能：空白列添加 ...

【CDA干货】Pandas quoting 详解：掌控文本文件读写 ...

CDA 数据分析师：以 SQL 为刃，劈开数据查询与分析 ...

【CDA干货】Cox 模型时间依赖性检验：原理、方法与 ...

【CDA干货】检测因子类型的影响程度大小：评估标准 ...

CDA 数据分析师：以数据库为基石，筑牢数据驱动的 ...

【CDA干货】线性相关点分布的四种基本类型：特征、 ...

【CDA干货】深度神经网络神经元个数确定指南：从原 ...

CDA 数据分析师：搭建指标体系，让数据从 “零散监 ...

【CDA干货】MySQL 服务器内存碎片：成因、检测与内 ...

【CDA干货】人工智能重塑工程质量检测：核心应用、 ...

CDA 数据分析师：驾驭通用与场景指标，解锁数据驱动 ...

【CDA干货】AB 实验系统与业务系统的联动机制：从实 ...

【CDA干货】CDA 业务数据分析：6 步闭环，让数据驱 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载