利用SAS进行数据清洗技术—缺失值查询-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读利用SAS进行数据清洗技术—缺失值查询

利用SAS进行数据清洗技术—缺失值查询

2016-06-10

利用SAS进行数据清洗技术—缺失值查询

数据清洗技术是统计分析之前必做的一步，而且也是非常麻烦的一步，有时甚至花费的时间比统计分析都长。所以没有一定的技巧，这将是个非常烦人的工作。本篇文章介绍如何利用sas进行缺失值的查询工作。

假定我们有数据集aa，包含如下变量（数据省略）：

ID dose gender age t0 t1 a1 a2

最简单的方式当然就是挨个变量找缺失值，如下：

data missing；

set aa；

if id=. or dose=. or gender=. or age=. or t0=. or t1=. or a1=. or a2=.；

proc print；

run；

这种方式很好理解，就是利用if语句逐个判断每个变量是否有缺失（注意，如果变量时文本型，不能写=.，而是=" "），但缺点也是显而易见的，如果不是现在的8个变量，而是80个变量，那写一遍估计要累个半死。所以我们用下面的语句节省体力：

data missing(drop=i)；

set aa；

array num{8} id dose gender age t0 t1 a1 a2；

do i=1 to 8；

if num{i}=. then output；

end；

这种方式好像比上面的更复杂了，但效率提高了n倍（取决于你的变量有多少）。这种方式是利用数组判断缺失值，不管有100个还是1000个变量，对数组来说没什么区别，只是数组中变量的个数改变一下而已（如本例中的8）。

当这种方式仍不是最节省的，因为我们还是需要把这8个变量一一写出来，那可不可以就不写变量名呢。当然可以，还有更简单的方式如下：

data missing(drop=i)；

set aa；

array num{*} _all_；

do i=1 to dim(num)；

if num{i}=. then output；

end；

当这种方式更简单了，而且是个通用语句，不管你有10个还是1000个变量，都可以用这种方式来查询，一个字母都不用改。当然前提是所有变量都是数值型，如果是文本型，那就应该是num{i}=" "。

还有另外一种非常简洁的方式是利用函数，如下：

data missing(drop=i)；

set aa；

array num{*} _all_；

do i=1 to dim(num)；

if missing(num{i}) then output；

end；

用函数的这种方式有什么好处呢？起码有一点，你不用考虑到底是数值还是文本，全部都是missing(变量)就行了。否则你还得想着数值是.，文本是" "。一不小心忘了容易出问题。

前面所说的都是假定所有变量都是同一种类型的，如果变量中既有数值型，又有文本型，那怎么办呢？如下程序就很简单了：

data missing(drop=i)；

set aa；

array a _numeric_；

do i=1 to dim(a)；

if missing(a) then output；

end；

array b_character_；

do i=1 to dim(b)；

if missing(b) then output；

end；

毫不夸张地说，这个简直就是个缺失值的通用语句，同时遍历了数据集中的数值型和文本型的所有缺失值。所有的缺失值查找，几乎都可以这一语句来实现，它几乎包含了所有的可能情况，还能苛求什么呢？套用就行了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据清洗统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

利用SAS进行数据清洗技术—缺失值查询

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载