“時間序列數據”根據性質又可以划分為“平穩序列”(stationary)與“非平穩序列”(non-stationary)兩大類,需使用不同的計量方法。
一、時間序列自相關
時間序列指同一個體在不同時點上的觀測數據。
如,1978-2013年期間,中國每年的國內生產總值。
對於離散時間{1,2,...,T},可將時間序列寫為{y1,y2,...,yT}。其中每一個yt都是隨機變量。
時間序列最大的特點是存在自相關,不同期的觀測值之間存在相關性。
定義 時間序列{yt}的k階自協方差(autocovairiance of order k)為
stata中的應用:
(一)時間趨勢圖
tset varname——建立一個時間變量
tsline y,xline(起始年(時間跨度)終止年)——等價於命令“line 因變量 自變量”
但GDP存在指數增長(exponential growth)的趨勢。通常的處理方法是,將GDP取對數,把指數趨勢變為線性趨勢后,生成時間趨勢圖即:
gen lngdp = log(gdp)
tsline lngdp,xlabel(2000(2)2018)
GDP對數存在線性趨勢,但依然不平穩(期望值不斷增長)。將GDP對數進行一階差分,然后畫出時間趨勢圖。
gen dlngdp=d.lngdp——一階差分
tsline dlngdp,xlabel(2000(2)2018)
之所以考察GDP對數差分,是因為它約等於GDP的增長率。
有時可以直接將Δlnyt視為yt的增長率,如增長率較高,則誤差較大。下面對GDP的增長率(g),並對GDP對數差分進行畫圖對比。
gen g2=(gdp-l.gdp)/(l.gdp)
tsline dlngdp g2,xlabel(2000(2)2018) lpattern(dash)
其中“l.y”是滯后期的式子。
(二)自相關圖:corrgram
其中,LAG表示滯后期系數,AC表示自相關系數,PAC表示偏自相關系數,Q表示Q統計量,Autocorrelation將AC這一列用圖示的方式表現出來,
若想看出第幾階的自相關系數是否為0:ac dln因變量,lags(20)
其中,“ac”表示“autocorrelation”;選擇項“lags(20)”表示1-20階的自相關圖,若不添加前述選擇項,則系統默認按照“min{floor(n/2)-2,40}”計算最高階數,floor(n/2)表示為不超過n/2的最大整數。
按照圖中注釋,灰色部分代表95%的置信區間。圖中的點如果沒有超出灰色區域,則其所代表的階不顯著,反之,超出則代表自相關系數顯著不為0。
二、一階自回歸
此前的回顧均強調推斷因果關系。
在時間序列中,可用該變量的過去值來預測其未來值(因為時間序列一般存在自相關)。——這種模型稱為“單變量時間序列”(umivariate time series)。
此時可不必理會因果關系,只考慮相關關系即可。
在內蒙古阿拉善盟2000~2018年GDP總值數據中,以OLS估計Δlnyt的一階回歸模型,僅使用2010年以前的數據來預測2020年的GDP
由於假設干擾項εt無自相關,故使用異方差穩健的標准誤即可(,r),不必使用異方差自相關穩健的HAC標准誤。
可得下列回歸方程:
計算回歸方程的擬合值,即上述回歸方程的因變量,並記為dlny1。
在stata中,會使用“x[n]”表示“變量x的第n個觀測值”,故命令如下:
dis exp( lngdp[15]+ dlngdp1[16])
得出結果:200.53765
其中, lngdp[15]是2015年的GDP值, dlngdp1[16]是2016年GDP的預測值。
根據AR(1)模型,2016年GDP的預測值為200.53765億元。
對比2013年的實際GDP,並計算預測誤差,即(y2013-y2013^):
預測誤差為122.04233億元,低估了122.04233億元。