如何确定ARIMA模型中参数p、d、q

33 sec read

在先前学习的使用ARIMA预测时间序列的文章中,对于如何确定参数p、d、q还是存在一些疑问,今天学习的这篇文章主要讲解的是如何确定p、d、q参数。

实验数据:链接: https://pan.baidu.com/s/14Nt8aU3NbgzBt2lA_jmB6Q 提取码: 8rbt

读取并观察数据

从上图可知,存在一定的增长趋势。

时间序列的差分d

ARIMA 模型对时间序列的要求是平稳型。因此,当你得到一个非平稳的时间序列时,首先要做的即是做时间序列的差分,直到得到一个平稳时间序列。如果你对时间序列做d次差分才能得到一个平稳序列,那么可以使用ARIMA(p,d,q)模型,其中d是差分次数。

1阶差分:

目测已经平稳,再来看看2阶差分的效果:

可以看到二阶差分侯差异不大,所以这里d设置为1即可。

阶层 p 和阶数 q

现在我们已经得到一个平稳的时间序列,接来下就是选择合适的ARIMA模型,即ARIMA模型中合适的p,q。

第一步我们要先检查平稳时间序列的自相关图和偏自相关图。

其中lags 表示滞后的阶数,以上分别得到acf 图和pacf 图。通过两图观察得到:

  • 自相关图显示滞后有3(4)个阶超出了置信边界
  • 偏相关图显示在滞后1至7阶(lags 1,2,…,7)时的偏自相关系数超出了置信边界,从lag 7之后偏自相关系数值缩小至0

则有以下模型可以供选择:

  • ARMA(0,1)模型:即自相关图在滞后1阶之后缩小为0,且偏自相关缩小至0,则是一个阶数q=1的移动平均模型;
  • ARMA(7,0)模型:即偏自相关图在滞后7阶之后缩小为0,且自相关缩小至0,则是一个阶层p=3的自回归模型;
  • ARMA(7,1)模型:即使得自相关和偏自相关都缩小至零。则是一个混合模型。

为了确定哪个模型最合适,可以采用如下准则进行判定:

  • AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion
  • BIC=-2 ln(L) + ln(n)*k 中文名字:贝叶斯信息量 bayesian information criterion
  • HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion

可以看到ARMA(7,0)的aic,bic,hqic均最小,因此是最佳模型。

模型校验

在指数平滑模型下,观察ARIMA模型的残差是否是平均值为0且方差为常数的正态分布(服从零均值、方差不变的正态分布),同时也要观察连续残差是否(自)相关。

残差的自相关一偏自相关

对ARMA(7,0)模型所产生的残差做自相关图:

看一看到大部分都在置信空间内,部分超出也只超出一点点。

D-W检验

Durbin-Watson检验,简称D-W检验,是目前检验自相关性最常用的方法,但它只使用于检验一阶自相关性。当DW值显著的接近于O或4时,则存在自相关性,而接近于2时,则不存在(一阶)自相关性。

观察是否符合正态分布

这里使用QQ图,它用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中常用的是检验数据是否来自于正态分布。

Ljung-Box检验

Ljung-Box test是对randomness的检验,或者说是对时间序列是否存在滞后相关的一种统计检验。对于滞后相关的检验,我们常常采用的方法还包括计算ACF和PCAF并观察其图像,但是无论是ACF还是PACF都仅仅考虑是否存在某一特定滞后阶数的相关。LB检验则是基于一系列滞后阶数,判断序列总体的相关性或者说随机性是否存在。 时间序列中一个最基本的模型就是高斯白噪声序列。而对于ARIMA模型,其残差被假定为高斯白噪声序列,所以当我们用ARIMA模型去拟合数据时,拟合后我们要对残差的估计序列进行LB检验,判断其是否是高斯白噪声,如果不是,那么就说明ARIMA模型也许并不是一个适合样本的模型。

检验的结果就是看最后一列前十二行的检验概率(一般观察滞后1~12阶),如果检验概率小于给定的显著性水平,比如0.05就拒绝原假设,其原假设是相关系数为零。就结果来看,如果取显著性水平大于0.05,那么相关系数与零没有显著差异,即为白噪声序列。

参考链接:https://blog.csdn.net/u010414589/article/details/49622625

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

TensorFlow学习笔记:特征工程

特征工程是机器学习流程中重要的一个环节,即使是通常用来做端到端学习的深度学习模型在训练之前也免不了要做一些特征
5 min read

CTR预估模型FM、FFM、DeepFM

点击率(click-through rate, CTR) 是点击特定链接的用户与查看页面,电子邮件或广告的总用
6 min read

腾讯实时视频推荐系统学习笔记

前面学习了TencentRec: Real-time Stream Recommendation in Pra
1 min read

2 Replies to “如何确定ARIMA模型中参数p、d、q”

  1. 老师您好!请问AR的P和MA的q是怎么选择出来的?
    我看了您的解释后仍旧不是很明白如何选取这2个值。

发表评论

电子邮件地址不会被公开。 必填项已用*标注