為什么要平穩?
原因一:時間序列數據的數據結構與傳統的統計數據結構不同。最大的區別在於,傳統隨機變量可以得到多個觀測值(比如骰子點數,可以反復擲得到多個觀測值,忽略時間的差異)。而時間序列數據中,每個隨機變量只有一個觀測值(比如設收盤價為研究的隨機變量,每天只有一個收盤價,不同日子的價格服從的分布不同,即考慮時間的差異)。這樣一來,每個分布只能得到一個觀測值,數目太少,無法研究分布的性質。但是通過平穩性,從不同日期的分布之間發現內在關聯,緩解了由於樣本容量少導致的估計精度低的問題。
原因二:研究時間序列的最終目的是,預測未來。但是未來是不可知的,我們擁有的數據都是歷史,因此只能用歷史數據來預測未來。但是,如果過去的數據與未來的數據沒有某種“相似度”,那這種預測就毫無道理了。平穩性就是保證這種過去與未來的相似性,如果數據是平穩的,那么可以認為過去的數據表現出的某些性質,未來也會表現。
什么是嚴平穩?
對於一個時間序列{Xt},其中每個數據X都是隨機變量,都有其的分布(如圖)。
取其中連續的m個數據,X1到Xm,則可以構成一個m維的隨機向量,(X1,X2,...,Xm)
由於單獨的每個隨機變量X都有各自的分布,那么組合成一個m維隨機向量后,這個多維向量整體就有一個“聯合分布”。
嚴平穩的本質就是,這種聯合分布不隨着時間的推移而變化。
也就是說,取數據時,任意連續取出的m個數據(無論是從X1取到Xm,還是從Xt取到Xt+m),他們組成的多維向量的聯合分布都是相同的。
此時,再放寬一個條件,讓這個m的取值也任意。
即無論這取數據的窗口設定為多寬,只要連續取相同數目個數據,他們構成的聯合分布都是相同的。
比如,(X1,X2,X3)與(X6,X7,X8)有相同的3維聯合分布,(X1,X2,X3,X4)與(X6,X7,X8,X9)有相同的4維聯合分布。
綜上,符合上述性質的時間序列,是嚴平穩的。
有了嚴平穩為什么還要有寬平穩?
很多情況下,我們無從得知這些隨機變量的分布到底是什么樣子。
我們觀測得到的數據,只是服從某種未知分布的隨機變量的一種取值。
既然連單個隨機變量的分布都難以求出,就更不用說求由一堆隨機變量組成、多維隨機向量的聯合分布有多困難了。
因此嚴平穩雖然是一種保證過去與未來的數據“相似”很棒的方式,但過於理想化,實際上很難檢驗一個時間序列的嚴平穩性。
於是只能放寬條件,因而產生了“寬平穩”的概念。
什么是“k階矩”?
“矩”是隨機分布的一種特征數。特征數,顧名思義,反映了一個隨機分布的某種特征。比如“數學期望”反映了,符合某種分布的隨機變量的取值,總是在某個值周圍波動;而“方差”則反映了,這種波動的大小程度。
矩分為原點矩和中心矩,其中一階原點矩就是數學期望,二階中心矩就是方差。
通常2階以內(含2階)稱為低階矩,2階以上稱為高階矩。
但是這兩者之間有相互推導的公式,知其一就可推其二,因此一般只稱“矩”。
其中,隨機變量的k階原點矩的定義為,隨機變量的k次方的數學期望,即E(Xk)。平時所說的“k階矩存在”,就表現為這個數學期望不是無窮(也就是小於無窮),這與“極限存在”的定義是同理的。
值得注意的是,如果一個隨機變量的某高階矩存在,那么低階矩也一定存在。因為|X|k-1≤|X|k+1。
嚴平穩中由於聯合分布相同,故各階矩也相同。
什么是寬平穩?
寬平穩性是使用序列的特征統計量來定義的,它認為序列的統計性質,主要由其低階矩決定。
當時間序列滿足以下三個條件時:
第一個條件,任意時刻二階矩都存在。
第二個條件,隨機變量的期望(一階矩)不隨時間的推移而改變。說白了就是,均值μ不隨時間t改變。
第三個條件,兩個時點的隨機變量之間的自相關系數,只與這兩個時點的時間差有關,而不隨時間的推移而改變。說白了就是,只要窗口寬度(即兩時點的時間差)固定,則自相關系數是唯一。
就被稱為是寬平穩的。
由於定義涉及到的幾個條件,寬平穩也被稱為協方差平穩,或二階平穩。
從自相關系數與時間t無關能得到什么結論?
由於自相關系數只跟窗口寬度l(lag的首字母,表示用於計算自相關性而取的、兩個數據之間的時間差)有關,與時間t無關,因此大可以設一個函數ACF(Autocorrelation Function)表示這個窗口寬度與自相關系數之間的函數關系。其自變量為滯后期數(即窗口寬度,用l表示),因變量為自相關系數(用ρ表示)。
根據協方差的定義,ρl中,分子為Cov(Xt,Xt-l),分母為sqrt{Var(Xt)Var(Xt-l)}。由於【【【【記得寫完】】】】
平穩性的一些結論
如果一個時間序列平穩,則有:
均值是與t無關的常數。即不同時點的分布中,隨機變量都是圍繞同一個值波動的。表現在時序圖(橫軸為時間軸,縱軸衡量隨機變量取值)中,即圖線整體是圍繞某個水平線波動的(類似於政經里價格圍繞價值上下波動那個圖)。
方差是與t無關的常數。這在定義里並沒有顯然地體現,但是由於定義給出自相關系數只與窗口寬度有關,而與窗口位置即時間t無關,所以大可以干脆取個寬度為0的窗口,於是本來相隔一個窗口寬度的兩個時點數據之間的相關性,就變成了同一個時點數據自己和自己之間的相關性,自己和自己,當然相關系數為1。
協方差是常數。
嚴平穩與寬平穩之間的關系?
嚴平穩本質上是對時間序列的分布進行限制,而寬平穩的本質是對低階矩進行限制。
由於寬平穩比嚴平穩的條件更為寬松,因此通常情況下,嚴平穩能推導出寬平穩,但寬平穩不能反推嚴平穩。但有特例。
因為寬平穩時,需要滿足二階矩存在的條件。而嚴平穩不需要滿足二階矩存在。
因此,不存在二階矩的嚴平穩序列,無法滿足寬平穩。例如嚴平穩的柯西分布序列,就不符合寬平穩(一二階矩不存在,因此無法驗證寬平穩)。
所以,只有二階矩存在時,嚴平穩序列才滿足寬平穩。
特例:當序列服從多元正態分布時,寬平穩序列一定能推導出嚴平穩。
原因在於,正態時間序列的二階矩平穩,等價於分布平穩(其密度函數表明,n維正態分布僅由其均值向量和自協方差矩陣決定)。
正態時間序列
如果一個時間序列,從中取出任意n個(有限個)隨機變量,組成的n維隨機向量,都服從n維正態分布,則稱之為正態時間序列。即上方的特例。