京公网安备 11010802034615号
经营许可证编号:京B2-20210330
是一个探索工具,用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。此过程使用的算法有多个不错的特征使其区分于传统聚类技术:◎分类变量和连续变量的处理。通过假设变量是独立的,可以假设分类变量和连续变量服从联合多项正态分布。◎聚类数的自动选择。通过跨不同的聚类解比较模型选择准则的值,该过程可以自动确定最优的聚类数。◎可缩放性。通过构造摘要记录的聚类特征(CF)树,二阶算法允许您分析大型数据文件。
二、说明(分析-分类-两步聚类)
1、距离测量。此选项确定如何计算两个聚类之间的相似性。◎对数相似性。该似然度量假设变量服从某种概率分布。假设连续变量是正态分布,而假设分类变量是多项分布。假设所有变量均是独立的。◎欧几里德距离。欧几里德距离测量是两个聚类之间的“直线”距离。它只能用于所有变量连续的情况。
2、聚类数。此选项允许您指定如何确定聚类数。◎自动确定。该过程将使用在“聚类准则”组中指定的准则,自动确定“最好”的聚类数。或者,还可以输入一个正整数指定过程应考虑的最大聚类数。◎指定固定值。允许您固定解中的聚类数。最小值不能大于最大值。
3、连续变量计数。此组提供了在“选项”对话框中指定的连续变量标准化的摘要。
4、聚类准则。此选项确定自动聚类算法如何确定聚类数。可以指定Bayesian信息准则(BIC)或Akaike信息准则(AIC)。
5、假设。似然距离测量假设聚类模型中的变量是独立的。而且,假设每个连续变量具有正态(高斯)分布,假设每个分类变量具有多项分布。经验内部检验表明,该过程对于违反独立性假设和分布假设均相当稳健,但您应尝试了解这些假设符合的程度。使用双变量相关过程可检验两个连续变量的独立性。使用交叉表过程可检验两个分类变量的独立性。使用均值过程可检验连续变量和分类变量之间的独立性。使用探索过程可检验连续变量的正态性。使用卡方检验过程可检验分类变量是否具有指定的多项分布。
三、选项(分析-分类-两步聚类-选项)
1、离群值处理。该组允许您在聚类特征(CF)树填满的情况下,在聚类过程中特别地处理离群值。如果CF树的叶节点中不能接受更多的个案,且所有叶节点均不能分割,则
说明CF树已满。
2、内存分配。此组允许您以兆字节(MB)为单位,指定聚类算法应使用的最大的内存量。如果该过程超过了此最大值,则将使用磁盘存储内存中放不下的信息。请指定大于等于4的数。
3、变量标准化。聚类算法处理标准化连续变量。任何未标准化的连续变量都应保留为“要标准化的变量”列表中的变量。为了节省部分时间和计算工作,您可以选择任何已标准化的连续变量作为“假定已标准化的变量”列表中的变量。
4、CF树调节准则。以下聚类算法设置特别地应用到聚类特征(CF)树,且应谨慎地更改:◎初始距离更改阈值。这是用来使CF树生长的初始阈值。如果将给定的个案插入到CF树的叶子中将生成小于阈值的紧度,则不会分割叶子。如果紧度超过阈值,则会分割叶子。◎最大分支(每个叶节点)。叶节点可以具有的最大子节点数。◎最大树深度。CF树可以具有的最大级别数。◎可能的最大节点数。这指示过程可能生成的最大CF树节点数,基于函数(bd+1–1)/ (b–1),其中b是最大分支,d是最大树深度。请注意,非常大的CF树可能会耗尽系统资源,从而对过程的性能产生不利影响。每个节点最少需要16个字节。
5、聚类模型更新。此组允许您导入和更新在先前分析中生成的聚类模型。输入文件以XML格式包含CF树。然后将使用活动文件中的数据更新模型。必须在主对话框中以与先前分析中指定的顺序相同的顺序选择变量名。除非您专门将新的模型信息写到相同的文件名中,否则该XML文件保持不变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12