spss:syntax对重复观测值的处理-CDA数据分析师官网

热线电话：13121318867

spss:syntax对重复观测值的处理

2016-10-30

spss:syntax对重复观测值的处理

很早的时候，大家在SPSS中处理单个变量的重复值通常都是这样的做法，首先将要处理的数据进行排序，然后将其复制后在从新变量的第二行开始粘贴，得到了两个观察量错开一个位置的变量，然后对这两个变量进行相减，最后挑选或删除为零的选项以获得完全无重复的数据。这样的做起来不算困难，但处理2个或2个以上变量的重复值就显得有点乏力了。下面就芒果的例子利用SPSS syntax对重复观测值的处理进行相关探讨，简要数据如下：

问题1.找出上表中zkzh相同且itemid也相同的所有记录。

关于sort cases/match files/filter等命令见下面小贴士的说明，首先看看数据处理结果：

问题2. 如何快速的分离出被筛选的变量？

还是利用上面的例子，我们利用dataset copy命令将被筛选出的观测值快速的筛选出来，形成一个新的数据集。

#1 Filter off.

#2 Dataset copy shaixuanji.

#3 DATASET ACTIVATE shaixuanji.

#4 SELECT IF thesame=0.

#5 EXECUTE .

代码解析：

第1行命令利用filter off命令清除上面的筛选效果。

第2行命令式将当前数据集复制到新的数据集shaixuanji中。

第3-4行命令是激活数据集shaixuanji，并且选择thesame变量中值为0的观测值（其他的默认删除）。

第5行命令是即时运算命令。

效果如下：

如果不想要这么多的变量，可以使用save outfile.../keep(drop)命令选择自己需要的变量。

问题3.有时候我们并不知道如何筛选重复值，而是事先观察比较重复值的相关特性，然后做下一步的处理，那么如何选择输出重复值的相关信息呢？

这里还是利用最初的数据进行说明，由于目的不同，这里筛选查找重复观测值的方式也不同。问题1中采用的是match files命令来处理重复值，这里换一种方法，利用aggregate分类汇总命令来计量重复值，进而作进一步的汇总说明，具体代码如下：

#1 AGGREGATE OUTFILE = * MODE = ADDVARIABLES

#2 /BREAK = zkzh itemid

#3 /sameCount = N.

#4 SORT CASES BY sameCount (D).

#5 COMPUTE filtervar=(sameCount > 1).

#6 FILTER BY filtervar.

#7 SUMMARIZE

#8 /TABLES=zkzh itemid samecount

#9 /FORMAT=LIST NOCASENUM TOTAL

#10 /TITLE='重复值概述'

#11 /CELLS=COUNT.

代码解析：

第1-3行命令利用aggregate命令在当前数据集中新增一个变量samecount记录分组变量zkzh和itemid相同观测值的数目，类似于GUI操作中的data--aggregate.

第4行命令对变量samecount进行降序排列.

第5行命令计算新变量filtervar，对其满足条件samecount>1赋值1，否则赋值0.

第6行命令对数据集按变量filtercar进行筛选，filtervar变量中值为0或缺失的都将被过滤.

第7-11行是制表命令，等同于GUI菜单操作中的analyze--reports--case summarises，第8行选择表中的计量变量，这里选择了zkzh等3个变量，第9-10行则是对表格的格式及标题进行设置，第11行是相关统计量的选择，这里选择的是count，除此之外还可以选择max\range\sum等其他统计量。

输出结果：

小贴士：

Filter

Filter命令是用来从当前数据集中排除观测值而不删除观测值的命令。当变量的观测值为0或缺失时这些观测值将被过滤掉（SPSS中的表现效果为）。Filter相关命令规则：

1）只允许指定一个数值变量（该变量可以是原始变量或数据转换变量）

2）使用filter off后，恢复过滤掉的观测值

3）当filter命令不包含子命令时，将按filter off命令进行等效处理，等SPSS output窗口会提示警告信息

4）Filter可以用在syntax语句的任何位置，和select if命令不同的是，filter命令在input program语句中也有同样的效果。需要注意的是这里的筛选变量需要时数据转换变量。

其他说明：

1）filter命令并没有改变当前数据集；

2）filter命令并没有提供观测值的选择过滤标准，系统缺失和用户自定义缺失值，都将被过滤掉

3）如果filter的变量名改变了，筛选效果仍然有效；但是筛选变量如果转换为字符变量时，filter命令效果将会消失

4）如果当前数据集被match files，add files或update等命令更改后，过滤变量未发生变化，filter命令仍然有效

5）如果当前数据集被一个新的数据集代替，filter命令将关闭

MATCH FILES

Match files命令可合并2个或2个以上含有相同观测值但不同变量的数据文件。例如，合并销售人员的信息和销售业绩，有点类似于数据库中的select操作。最多可以合并50个数据文件。例如，合并数据part1,part2及当前数据及可以用下面的代码，如果怕数据合并错误，可以先对这些数据集进行排序，然后利用by子命令根据排序变量进行合并，还可以利用last或first子命令赋值1说明重复值位置。

MATCH FILES FILE='/data/part1.sav'

/FILE='/data/part2.sav'

/FILE=*.

SORT Cases

Sort cases基于一个或多个变量进行排序，可以是升序（a）或降序(d),也可以是升序降序的组合。(默认为升序)，Sort cases相关说明:

1)关键词by是可选的

2)By排序的变量可以是数字变量或字符变量，但不能是系统变量或临时变量（#various）

3)Sort cases是按变量顺序进行排序的，优先排序第一变量

4)Sort cases指定排序变量不能超过64个

例如：SORT CASES BY var1(A) var2(D).

*首先对变量1进行升序排列，然后再此基础上按变量2进行降序排列.

CDA数据分析师考试相关入口一览（建议收藏）：