
随着时间序列分析的普及,LSTM 成为了深度学习中最常用的工具之一。它以其优异的性能和对数据的自适应特征提取而闻名。然而,在实际应用中,我们通常需要通过多变量来预测未来时间序列数据。本文将介绍如何使用多变量 LSTM 模型来进行时间序列预测,并且给出一个例子来预测未来一周的气温。
首先,我们需要准备数据集。在本例中,我们将使用包含多个变量的天气数据。这些变量包括温度、湿度、风速、降雨量等。我们将选取最近一年的数据,将其前80%作为训练集,后20%作为测试集。
接下来,我们需要对数据进行归一化处理。由于不同变量之间的值域差异较大,我们需要将其进行缩放到一个相同的范围内。这里我们将使用 Scikit-Learn 库中的MinMaxScaler函数。
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
train_data = scaler.fit_transform(train_data)
test_data = scaler.transform(test_data)
接下来,我们需要将数据转换成适合 LSTM 模型的格式。在多变量情况下,我们需要将每个时刻的输入向量扩展到包含多个变量。这里我们将以过去 30 天的数据为输入,预测未来一周的气温。
import numpy as np def create_dataset(X, y, time_steps=1):
Xs, ys = [], [] for i in range(len(X) - time_steps):
v = X[i:i + time_steps]
Xs.append(v)
ys.append(y[i + time_steps]) return np.array(Xs), np.array(ys)
TIME_STEPS = 30 X_train, y_train = create_dataset(train_data, train_data[:, 0], TIME_STEPS)
X_test, y_test = create_dataset(test_data, test_data[:, 0], TIME_STEPS)
接下来,我们可以构建 LSTM 模型。在本例中,我们将使用两层 LSTM 和一个全连接层。模型的输入形状应该是(samples, time_steps, features)。
from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, LSTM
model = Sequential([
LSTM(units=64, input_shape=(X_train.shape[1], X_train.shape[2]), return_sequences=True),
LSTM(units=32, return_sequences=False),
Dense(units=1)])
在训练模型之前,我们需要定义损失函数和优化器,并编译模型。
model.compile(loss='mean_squared_error', optimizer='adam')
现在,我们可以开始训练模型。在每个 epoch 后,我们将记录训练集和测试集上的损失值,并可视化它们的变化。
history = model.fit(
X_train, y_train,
epochs=50,
batch_size=16,
validation_split=0.1,
verbose=1,
shuffle=False) import matplotlib.pyplot as plt
plt.plot(history.history['loss'], label='train')
plt.plot(history.history['val_loss'], label='test')
plt.legend()
plt.show()
在模型训练完成后,我们可以对测试集进行预测,并将预测结果与真实值进行比较。
y_pred = model.predict(X_test)
plt.plot(y_test, label='true')
plt.plot(y_pred, label='predicted')
plt.legend()
plt.show()
最后,我们将使用训练好的模型来预测未来一周的气温。首先,我们需要获取最近 30 天的数据,然后使用模型进行预测。每次预测完之后,我们将新的预测值添加到输入序列中,用于下一次的预测。
X_last30
= test_data[-TIME_STEPS:] forecast = [] for i in range(7): y_pred_one = model.predict(X_last30.reshape(1, TIME_STEPS, -1)) forecast.append(y_pred_one[0, 0]) X_last30 = np.vstack((X_last30[1:], y_pred_one))
forecast = scaler.inverse_transform(np.array(forecast).reshape(-1, 1))
以上便是使用多变量 LSTM 进行时间序列预测的整个流程。通过训练模型,我们可以获得对未来数据的预测结果,并且不仅仅考虑了单一变量的影响,而是综合了多个变量的影响。当然,这只是一个简单的例子,实际应用中可能会涉及到更加复杂的数据和模型。
相信读完上文,你对算法已经有了全面认识。若想进一步探索机器学习的前沿知识,强烈推荐机器学习之半监督学习课程。
学习入口:https://edu.cda.cn/goods/show/3826?targetId=6730&preview=0
涵盖核心算法,结合多领域实战案例,还会持续更新,无论是新手入门还是高手进阶都很合适。赶紧点击链接开启学习吧!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03