
SPSS = 数据测量的类型
数据测量类型
查看IBM SPSS Modeler 帮助文档,解释如下:
• 默认值。具有未知存储类型和值的数据(例如,由于其尚未被读取)将显示为<默认值>。
• 连续。用于描述数字值,如范围 0 - 100 或 0.75 - 1.25。连续值可以是整数、实数或日期/时间。
• 分类。用于字符串值(可取的值的确切数量未知时)。这是一种非实例化数据类型,表示有关数据存储类型和用法的所有可用信息均未知。读取数据后,测量级别将为标志、名义或无类型,具体取决于“流属性”对话框中指定的最大名义字段数量。
• 标志。标志字段用于显示具有两个不同值的数据。
表示存在或不存在一个特性,如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同,但其中总会有个值代表“真”值,另一个代表“假”值。标志的存储类型数据可表示为文本、整数、实数、日期、时间或时间戳。
真。指定条件成立时字段的标志值。假。指定条件不成立时字段的标志值。
标签。为标志字段中的每个值指定标签。这些标签将按照您在“流属性”对话框中选择的选项出现在多个位置,如图形、表格、输出和模型浏览器中。
扩展:“字段选项”—“导出”设置导出为“标志”选项
Derive Flag 节点用于指明特定条件,如高血压或客户帐户停用。对于每条记录都会创建一个标志字段,当条件为真时,会在字段中添加代表真的标志值。
真值。指定针对满足以下指定条件的记录要在标志字段中包括的值。缺省值为 T。
假值。对于那些不满足以下指定条件的记录,指定其标志字段中的值。 缺省值为 F。
以下情况时为真。指定某个 CLEM 条件,用于评估每条记录的某些值,并为记录赋予真值或假值(定义如上)。请注意,对于非假数字值,会将真值赋予记录。
注意:要返回空字符串,您应该输入一对引号,并且中间不包含任何内容,如 ""。例如,空字符串通常可用作假值,以使真值在表中更为明显。类似地,如果希望某个字符串值在其他情况下被视为数值,应使用引号
• 名义。用于描述具有多个不同值的数据,其中的每个值都被视为集合的一个成员,如 small/medium/large。名义数据可具有任何存储—数值、字符串或日期/时间。请注意,将测量级别设置为名义不会自动将值更改为字符串存储。
扩展:设置派生名义选项
Derive Nominal 节点用于执行一组 CLEM 条件,以确定每条记录满足的条件。当每条记录满足某个条件时,会将一个值(指示满足哪组条件)添加到新的导出字段。
缺省值。指定不满足任何条件时要使用的值。
将字段设置为。指定满足某个特定条件时要在新字段中输入的值。列表中的每个值都有一个关联条件,该条件由用户在相邻列中指定。
若此条件为真。为集合字段中要列出的每个成员指定条件。使用表达式构建器在可用的函数和字段中进行选择。可以使用箭头和删除按钮对条件进行重新排序或删除。
条件的工作原理是对数据集中特定字段的值进行检验。检验每个条件时,都会为新字段分配上述指定值,以指示满足哪个条件(如果有)。如果不满足任何条件,则会使用缺省值。
• 有序。用于描述具有顺序固定的不同值的数据。例如,工资类别或满意度排序可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如,1, 3, 5 是某个整数集合的默认排列顺序,而 HIGH, LOW, NORMAL(按字母升序)是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据,以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序(如 IBM® SPSS® Statistics)。您可以在任何能够使用名义字段的位置使用有序字段。此外,可以将任何存储类型(实数、整数、字符串、日期、时间等等)的字段定义为有序。
• 无类型。用于不属于任何上述类型的数据,具有单个值的字段,或集合的成员数超过定义的最大值的名义数据。当测量级别为包含许多成员(如帐号)的集合时,这种类型也将十分有用。当您为字段选择无类型时,角色将自动设为无,记录 ID 作为唯一的替代项。默认的集合最大容量为 250 个唯一值。可在“流属性”对话框(可通过“工具”菜单访问)的“选项”选项卡上调整或禁用该数字。
可以手动指定测量级别,也可以由软件读取数据并根据所读取的值确定其测量级别。
此外,如果有多个连续数据字段需视为类别数据,可以选择一个选项来转换它们。请参阅 主题 转换连续数据 详细信息。
字段角色设置:
字段的角色用于指定其在模型构建过程中的用法 - 例如,字段是输入还是目标(预测的对象)。
注意:“分区”、“频率”和“记录标识”角色只能分别应用到单个字段。
可用的角色如下:
目标。字段将用作机器学习的输出或目标(模型将尝试预测的字段之一)。
两者。字段将被 Apriori 节点同时用作输入和输出。所有其他建模节点都将忽略该字段。
无。机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。
分区。指明字段用于将数据分区为单独的样本(用于训练、测试,也可用于验证)。该字段必须属于实例化集合类型,具有两个或三个可能值(在“字段值”对话框中定义)。第一个值表示训练样本,第二个值表示测试样本,第三个值(如果存在)表示验证样本。所有其他值都将被忽略,且不能使用标志字段。请注意,要在分析中使用分区,必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时,会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段,那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段,您可以使用“分区”节点或“派生”节点进行创建。请参阅主题分区节点,了解更多信息。
分割。(仅名义、有序和标志字段)指定为字段的每个可能值构建一个模型。
频率。(仅数字字段)设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能;所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上,选择使用频率权重以启用频率加权。
记录标识。此字段将用作唯一记录标识。大多数节点都会忽略此特征;但它受线性模型支持,并且是 IBM Netezza 数据库内挖掘节点所必需的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10