
ARIMA 模型:
描述时间序列数据的变化规律和行为,它允许模型中包含趋势变动、季节变动、循环变 动和随机波动等综合因素影响。具有较高的预测精度,可以把握过去数据变动模式,有助于 解释预测变动规律,回答为什么这样本想早点完成这个时间序列的主题,但最近一直非常多的事情,又 耽搁了这么长时间。朋友们问的问题没有收尾总是不好,抓紧时间完成吧。 因为,后天要参加中国电信集团的一个 EDA 论坛,要仔细准备发言稿!在交流的过程 中,发现大家都对预测问题非常关注,尤其是数据挖掘领域,有时候分类问题与预测问题在 表达上区分不开,有时候分类就是预测,比如通过判别分析、C5.0 规则或 Logistics 回归 进行监督类建模,得到的结论说该客户是什么类别等级,似乎也可以说是预测;当然,如果 能够预测该消费者什么时候流失,也就是进行了分类;这样说吧,其实有时候并不需要严格 区分分类和预测,关键是时间点。从这也可以看出,预测问题内涵和外延是非常宽泛的,但 研究者心中要有数,这决定了你得到的结果该如何应用。 前面的博文提到,如果我们考虑时间序列预测包含有预测和干扰变量如何解决的问题。 从方法角度讲,过去没有统计分析软件要完成预测可以说是困难的,现在有了软件工具 就方便多了。 从技术角度讲:
预测模型如果能够排除因为异常原因造成的时间点事件和时间段时间,就好了。例 如某天停电没有开业,或者某一段时间比如发生甲型 H1NI 一周没有营业收入,这 些事件必须能够告诉模型未来不会再发生了;当然,我们也要把未来会重复发生的干扰因素纳入模型,例如:我们学校某天要开 运动会,小卖部的可乐销量一定提高,或者我们学校 7-8 月份放暑假,销量一定减 少,像这样的时间点和时间段事件未来会重复出现,我们如果能够告诉模型,那么 预测会更准确。
当然如果我们建立的模型能够预测未来,并能够将未来可预见的事件,包括时间点 和时间段干扰纳入预测是非常好的事情啦!
甚至,我们应该能够把预测模型中的,预测未来周期内的不可预见的时间点和时间 段随时干预预测结果,这就需要考虑如何将预测模型导入生产经营分析系统了。
下面的数据延续前两篇的案例, 只是增加了自变量, (因为手头这个案例没有干预因素变量)
在我们增加了 5 个自变量后,采用预测建模方法,选择专家建模器,但限制只在 ARIMA 模 型中选择。
确定后,得到分析结果,我们现在来看一下与原来的模型有什么不同。
从预测值看,比前一模型有了改进,至少这时候的模型捕捉了历史数据中的下降峰值, 这可以认为是当前比较适合的拟合值了。 如果我们观察预测结果,可以发现模型选择了两个预测变量。注意:使用专家建模器时, 只有在自变量与因变量之间具有统计显著性关系时才会包括自变量。如果选择 ARIMA 模 型,“变量”选项卡上指定的所有自变量(预测变量)都包括在该模型中,这点与使用专家建 模器相反;
当确定了最终选择的预测模型和方法后,我们就可以预测未来了,当然你要指定预测未 来的时间点,这里我们时间包括年、季度和月份;假定我们预测未来半年的销售收入。 我们分别设定:预测值输出,95%置信度的上下限。注意:SPSS 中文环境有个小 Bug,
必须改一下名字!
在选项中,选择你的预测时间,预测期将根据你事先定义的数据时间格式填写。(后面 的模型为了让大家看清楚,实际上我预测了一年的数据,也就是 2010 年的 4 个季度的 12 个月)。
自变量的选择问题,在预测未来半年的销售收入中,ARIMA 模型可以把其它预测变量 纳入考虑,但如何确定未来这些预测变量的值呢? 主要方法可以考虑:1)选择最末期数据;2)选择近三期数据的平均;3)选择近三期 的移动平均 这里我们选近三期移动平均作为预测自变量数值。
上面就是预测结果!于此同时,SPSS 活动数据集中也存储了预测值!
最后,我们要解决时间序列预测的检验和统计问题!说实在话,我比较关注偏好商业应用,就是看得见就做得到!从上面的分析,我们基本上就知道了哪种预测模型更好,也就不去较真只有专业统计学者才关心的统计和检验问题, 把这些交给统计专家或学术研究吧! 如 ( 果你是写学术论文,就必须强调这一点了!) 实际上我们可以通过软件得到各种统计检验指标和统计检验图表!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02