/BigData_Mining/article/details/81092750
壹、概述
1.時間序列的平穩性
這樣的時間序列被稱為平穩時間序列。也可以認為,如果壹個時間序列無明顯的上升或下降趨勢,各觀察值圍繞其均值上下波動,這個均值相對於時間來說是壹個常數,那麽時間序列為平穩序列(弱平穩(Weak stationarity))。
事實上,有兩種關於平穩的定義,還有壹種強平穩過程:
強平穩過程(Strict stationarity):對於所有可能的n,所有可能的t1,t2,…,tnt1,t2,…,tn,如果所有可能的Zt1,Zt2,…,ZtnZt1,Zt2,…,Ztn的聯合分布與Zt1?k,Zt2?k,…,Ztn?kZt1?k,Zt2?k,…,Ztn?k相同時,稱其為強平穩。
兩種平穩過程並沒有包含關系,弱平穩不壹定是強平穩,強平穩也不壹定是弱平穩。強平穩是事實上的平穩,而弱平穩是統計量在觀測意義上的平穩(均值、方差)。
平穩的基本思想是:時間序列的行為並不隨時間改變。平穩性刻畫的是時間序列的統計性質關於時間平移的不變性。我們研究時間序列很重要的壹個出發點 是希望通過時間序列的歷史數據來得到其未來的壹些預測,換言之,我們希望時間序列在歷史數據上的壹些性質,在將來保持不變,這就是時間平移的不變性。反之,如果時間序列不是平穩的,由歷史數據得到的統計性質對未來預測毫無意義。
2.時間序列的組成
每個時間序列的主要組成部分:
時序檢測去除噪音的方法有兩種,移動平均法(MA)和指數平滑,ARIMA采用的就是移動平均MA
1.移動平均法
它的基本原理:對任意奇數個連續的點,將它們最中間的點的值替換為其他點的平均值,假設{xixi}表示數據點,位置i的平滑值為sisi,則有:
si=12k+1∑j=?kkxi+j
si=12k+1∑j=?kkxi+j
這個簡單的方法存在很嚴重的問題,這和圖像處理中的均值濾波是類似的(只不過這裏是壹維的),采用這樣簡單粗暴的平滑處理會導致數據變“模糊”,當壹個尖峰進入平滑窗口時,當前的數據就會被這個尖峰突然扭曲,直到異常值離開平滑窗口。即因為噪音數據,原始數據丟失了細節。在圖像處理中,我們采用高斯濾波來解決這壹問題,我們的平滑窗口是帶權值的,越靠近中心數據的權重越大,越靠近平滑窗口邊緣的點權重越小。這裏同樣適用,我們通過使用加權移動平均法,公式如下:
si=∑j=?kkwjxi+j,其中∑j=?kkwj=1
si=∑j=?kkwjxi+j,其中∑j=?kkwj=1
這裏的wjwj是權重因數。使用高斯函數來生成權重因數公式如下:
f(x,σ)=12πσ2√exp(?12(xσ)2)
f(x,σ)=12πσ2exp(?12(xσ)2)
參數σσ決定曲線的寬度,當x大於3.5σσ時函數值為0。因此f(x,1)可以用來生成9點的權重因數,只要取f(x,1)上[-4,-3,-2,-1,0,1,2,3,4]這幾個位置的函數值即可。把σσ設為2就能得到15點的權重因數,即x為-7到+7之間的所有整數時的取值,以此類推。
移動平均法存在很多問題:
假設p=1,q=2,且進行了壹階差分後,序列平穩了,那麽:
X^t?Xt?1=?1(Xt?1?Xt?2)+θ1εt?1+θ2εt?2
X^t?Xt?1=?1(Xt?1?Xt?2)+θ1εt?1+θ2εt?2
即:
X^t=Xt?1+?1(Xt?1?Xt?2)+θ1εt?1+θ2εt?2
X^t=Xt?1+?1(Xt?1?Xt?2)+θ1εt?1+θ2εt?2
其中,X tX t為預測值。ARIMA(p,d,q)模型可定義為:
(1?∑i=1p?iLi)(1?L)dXt=(1+∑i=1qθiLi)εt
(1?∑i=1p?iLi)(1?L)dXt=(1+∑i=1qθiLi)εt
其中L是滯後算子(Lag operator),d∈Z,d>0。∈Z,d>0。
ARIMA模型運用有壹個較為通用的流程,如下所示:
1.根據時間序列的散點圖、自相關函數和偏自相關函數圖識別其平穩性。
2.對非平穩的時間序列數據進行平穩化處理。直到處理後的自相關函數和偏自相關函數的數值非顯著非零。
3.根據所識別出來的特征建立相應的時間序列模型。平穩化處理後,若偏自相關函數是截尾的,而自相關函數是拖尾的,則建立AR模型;若偏自相關函數是拖尾的,而自相關函數是截尾的,則建立MA模型;若偏自相關函數和自相關函數均是拖尾的,則序列適合ARMA模型。
4.參數估計,檢驗是否具有統計意義。
5.假設檢驗,判斷(診斷)殘差序列是否為白噪聲序列。
6.利用已通過檢驗的模型進行預測。
四:判斷平穩性
/bi_hu_man_wu/article/details/64918870
五:非平穩序列的平穩化
(1)去除趨勢(針對確定趨勢)
思路:yt=Tt+xtyt=Tt+xt其中TtTt是趨勢xtxt平穩,我們主要找到趨勢,去掉便可。通常我們采用擬合趨勢,得到趨勢的表達式,若去掉後仍不平穩,則是擬合錯誤。(找尋趨勢的部分可參見下面的趨勢分析-擬合與平滑)
(2)差分
壹步差分Δy=yt?yt?1=(I?B)ytΔy=yt?yt?1=(I?B)yt
s步差分Δsy=(I?Bs)ytΔsy=(I?Bs)yt
比如周數據,可以選擇s=7,若壹次差分後得到白噪聲就沒有意義了,這時可以選擇分數差分。但差分會使的方差變大。
(3)變換
對於方差變化的序列,可以選擇log()變換,去除指數趨勢。
壹般情況可以考慮box-cox變換。
六:案例
/Fredric_2014/article/details/85699116
/Fredric_2014/article/details/85340339
/weixin_41988628/article/details/83149849
七。討論與分析
由於良好的統計特性,ARIMA模型是應用最廣泛的時間序列模型,各種指數平滑模型都可以用ARIMA模型來實現。即通過Holter-winters建立的模型,用ARIMA同樣可以得到。即便ARIMA非常靈活,可以建立各種時間序列模型(AR,MA,ARMA)但是ARIMA也有局限性,最主要的局限在於ARIMA只能建立線性的模型,而現實世界中純線性模型往往不能令人滿意