SPSS数据准备：数据验证-CDA数据分析师官网

热线电话：13121318867

SPSS数据准备：数据验证

2017-11-02

SPSS数据准备：数据验证

一、数据准备：

随着计算系统能力的提高，对信息的需要成比例增长，导致收集的数据越来越多—出现更多的个案、更多的变量以及更多的数据输入错误。这些错误会损害作为数据仓储最终目标的预测模型的预测，因此您需要使数据保持“干净”。不过，数据仓储中的数据量的增长已经大大超出了手动验证个案的能力，而这对于实现自动化的数据验证过程来说十分关键。

“数据准备”附加模块允许您标识活动数据集中的异常个案和无效个案、变量和数据值，并准备建模数据。

1、元数据准备。复查数据文件中的变量并确定其有效值、标签和测量级别。标识不太可能但经常存在编码错误的变量值的组合。根据这些信息定义验证规则。这是一项极为耗时的任务，不过，如果您需要定期验证具有类似属性的数据文件，则完成这项任务是十分值得的。

2、数据验证。运行基本检查并针对定义的验证规则进行检查，标识无效个案、变量和数据值。找到无效数据时，调查并更正原因。这可能需要另一个通过元数据准备的步骤。

3、模型准备。使用自动数据准备获得将改进模型构建的原始字段的转换。标识可能导致许多预测模型出现问题的潜在统计离群值。有些离群值是尚未标识的无效变量值导致的结果。这可能需要另一个通过元数据准备的步骤。

二、验证规则

1、规则用于确定个案是否有效。有两种类型的验证规则：

1.1、单变量规则。单变量规则包含一组应用于单个变量的固定检查，例如范围外值的检查。对于单变量规则，有效值可以表示为一个值范围，也可以表示为一个可接受值列表。

1.2、交叉变量规则。交叉变量规则是用户定义的规则，可以应用于单个变量，也可以应用于变量组合。交叉变量规则由标记无效值的逻辑表达式定义。

2、载入预定义验证规则（数据-验证-加载预定义验证规则）

通过从安装中所包含的外部数据文件载入预定义规则可以快速获取一组可供使用的验

证规则。

3、定义验证规则（数据-验证-定义规则）

“定义验证规则”对话框允许您创建和查看单变量和交叉变量验证规则。

三、验证数据（数据-验证-验证数据）

“验证数据”对话框允许您标识活动数据集中可疑的和无效的个案、变量和数据值。

1、示例。数据分析人员每个月必须向客户提供客户满意度报告。她每个月接收到的数据需要进行质量检查，看是否存在不完整的客户标识、超出范围的变量值以及经常错误输入的变量值组合。“验证数据”对话框允许分析人员指定唯一标识客户的变量，为有效变量范围定义单变量规则，并定义交叉变量规则以找出不可能的组合。该过程返回问题个案和变量的报告。此外，每个月的这些数据都具有相同的数据元素，因此分析人员可以将规则应用于下个月的新数据文件。

2、统计量。该过程生成多项检查失败的变量、个案和数据值的列表，违反单变量和交叉变量规则的次数计数，以及分析变量的简单描述摘要。

3、权重。该过程忽略权重变量规范，而是像对待任何其他分析变量一样对待权重变量。

4、分析变量。如果在“变量”选项卡上选择了任何分析变量，则可选择以下任意有效性检查。复选框允许您打开或关闭检查。

4.1、缺失值的最大百分比。报告缺失值百分比大于指定值的分析变量。指定的值必须是一个小于等于100的正数。

4.2、单个类别中个案所占的最大百分比。如果任何分析变量是分类变量，则此选项报告表示单个非缺失类别的个案的百分比大于指定值的分类分析变量。指定的值必须是一个小于等于100的正数。百分比基于具有非缺失变量值的个案。

4.3、计数为1的类别的最大百分比。如果任何分析变量是分类变量，则此选项报告仅包含一个个案的变量类别的百分比大于指定值的分类分析变量。指定的值必须是一个小于等于100的正数。

4.4、最小变异系数。如果任何分析变量是刻度变量，则此选项报告变异系数的绝对值小于指定值的刻度分析变量。此选项仅适用于均值非零的变量。指定的值必须是一个非负数。指定0会关闭变异系数检查。

4.5、最小标准差。如果任何分析变量是刻度变量，则此选项报告标准差小于指定值的刻度分析变量。指定的值必须是一个非负数。指定0会关闭标准差检查。

5、摘要变量。这些是可以保存的单个变量。选中一个框可保存该变量。为这些变量提供了默认名称；您可以进行编辑。

5.1、空个案指示器。空个案会分配值1。所有其他个案都具有代码0。变量的值反映在“基本检查”选项卡上指定的范围。

5.2、双ID组。具有相同个案标识的个案（具有不完整标识的个案除外）会分配有相同的组号。具有唯一标识或不完整标识的个案都具有代码0。

5.3、ID指示器不完整。具有空的或不完整的个案标识的个案将分配值1。所有其他个案的代码都为0。