关于缺失统计函数cmiss、nmiss中的小细节-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读关于缺失统计函数cmiss、nmiss中的小细节

关于缺失统计函数cmiss、nmiss中的小细节

2017-04-03

关于缺失统计函数cmiss、nmiss中的小细节

在数据清理中统计缺失变量的缺失的时候，我们经常会用到cmiss函数和nmiss函数，这两者都是用来对缺失个数进行统计，两者区别就在于前者既能用于数值型也能用于字符型，而nmiss则只能用于数值型。

在使用这两个函数的过程中，我们往往会发现在统计缺失个数时候，经常出现实际计算出来的值要大于缺失值的个数，这是为什么呢？

举个简单的例子：

data tmp;

v1=.;v2='';x=3;output;

v1=1;v2='A';x=2;output;

v1=3;v2='';x=.;output;

v1=.;v2='B';x=2;output;

run;

我们得到四行数据，如下所示：

接下来用cmiss函数进行行缺失个数的统计：

data tmp1;

set tmp;

sum_miss=cmiss(of _all_);

run;

最终得到如下结果：

我们发现sum_miss的每一行值都比实际值要大1，为了了解这个过程，我们来通过put语句展示一下过程：

data tmp1;

set tmp;

put _all_;

sum_miss=cmiss(of _all_);

run;

查看日志：

我们发现在统计行缺失时，由于使用的_all_，所以把sum_miss变量也包含进去了，所以才会产生如上结果。

那么为了避免出现这种结果，我们可以用两种办法：

第一种：对sum_miss赋值，例如:

data tmp1;

set tmp;

sum_miss = 0;

sum_miss=cmiss(of _all_);

run;

第二种：将变量列出来，例如：

data tmp1;

set tmp;

sum_miss=cmiss(v1,v2,x);

run;

但是通常情况下，我们还是习惯用第一种方法，因为有时候变量太多，我们又不希望把他们都列出来，所以喜欢采用_all_来表示所有变量。

有童鞋也许会问了，如果我变量很多，但是我又只想对一部分变量进行行缺失统计，那么我该怎么做呢？

方法也很多：

例如可以选择第二种方法，只是需要将你要选择的那些变量用宏变量把他们包含成一列：sum_miss = cmiss(of ¯o_var.);其中宏变量macro_var = v1 v2 x;。

例如可以选择第一种方法，只是在set数据集时，将需要的都keep，前提还是需要将他们用宏变量包含城一列。

等等，根据具体情况，只要灵活结合宏，往往我们都能得到事半功倍的效果。

另外使用cmiss还要一个地方需要注意：

在将cmiss与%sysfunc结合使用时，需要注意对于宏变量是缺失的，我们要用（.）来表示，而不能用空格来表示，例如：

%let a = ;

%let b = hello;

%let c = %sysfunc(cmiss(&a.,&b.));

%put c = &c.;

我们可以看到日志中如下所示：

虽然最终得到了正确的结果，但是程序还是会报错。

那么为了消除这个error，我们需要在宏变量后面再加上一个点号，如下所示：

%let a = ;数据分析师培训

%let b = hello;

%let c = %sysfunc(cmiss(&a..,&b..));

%put c = &c.;

最终在日中中，我们会发现这个error已经去掉了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于缺失统计函数cmiss、nmiss中的小细节

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：曾津谈互联网数据分析与业务赋能实 ...

【CDA干货】Pandas文本词频统计：查找关键词出现次 ...

从“数据存储”到“智能取数”：CDA数据分析师视角 ...

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

从“零件”到“引擎”：CDA数据分析师视角下的指标 ...

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载