從若干學術論文中總結出的一些混頻數據處理技術、模型與使用案例,希望為賣方的宏觀研究提供來自學術界的思路。為了顧及實踐中的可操作性,忽略了一些結構過於復雜的技術或模型。
計量經濟學中混頻數據的處理
集成與插值
集成
標准的集成方法根據低頻數據的周期對高頻數據做平均或累加,另一種方法是根據低頻數據的周期選取高頻數據的最新值。
插值
插值方法不常用,實施分兩步:
- 低頻數據映射到高頻時間索引上,缺失值用插值補全;
- 在增廣數據及上擬合模型參數。
可能需要考慮度量增加插值數據帶來的誤差。
橋接等式
由於統計數據的發布有時間延遲,在實際使用預測模型時可能某些高頻數據尚未發布,這時就需要橋接等式補全未發布的數據。
橋接等式是用於連接高頻數據和低頻數據的線性回歸,橋接等式:
其中,\(\beta_i(L)\) 是一個階數為 \(k\) 的滯后多項式,\(x_{it_q}\) 是集成后的高頻指標。
橋接等式的實施分兩步:
- 對高頻數據建立預測模型,並將預測數據集成,與低頻數據的頻率保持一致;
- 將集成后的數據放入橋接等式中做回歸。
高頻數據上的預測模型通常是自回歸模型。
案例
- 《Using Monthly Data to Predict Quarterly Output》
作者針對真實 GDP(RGDP)建立了一個 ARX 預測模型,其中 X 分別是就業(EMP)和消費(CONS)。由於外部變量的發布頻率為月度,模型中實際使用的數據為月度數據的季度平均。
在使用模型做預測時,若只能獲得上個季度的部分月度數據,則先對月度數據建立單變量預測模型(滾動建模,保持參數估計的樣本數一致),預測剩余月份的數據,再將已知數據和預測數據放在一起計算季度平均,最后放進 ARX 模型中。
混合數據抽樣(Mixed-Data Sampling,MIDAS)
“橋接等式”並未真正解決將高、低頻數據納入到一個統一模型框架下的問題,數據的集成不可避免。 MIDAS 巧妙地應用“集約參數化”的手段使得高頻數據在無需集成的前提下可以作為低頻數據的解釋變量。在某些情形下,若選擇的高頻數據是來自金融市場的交易數據,則可以實現對低頻數據的實時預測。
符號約定:
- \(t_q\),低頻數據的時間索引;
- \(t_m\),高頻數據的時間索引;
- \(m\),低頻周期關於高頻周期的倍數(例如,季度數據關於月度數據的倍數等於 3,月度數據關於周度數據的倍數等於 4);
- \(w\),高頻數據相對於低頻數據能夠提前的時間(以高頻數據的時間索引為准,\(w \lt m\)),這意味着可以提前 \(m-w\) 進行預測。
- 規定 \(y_{t_q} = y_{t_m},\forall t_m = mt_q\)
基本 MIDAS
提前 \(h_q\) 步的預測模型:
- 單變量
- 多變量
其中,\(h_q=h_m/m\),\(b(L_m;\theta) = \sum_{k=0}^K c(k;\theta) L_m^k\),\(L_m^k x_{t_m}^{(m)} = x_{t_m-k}^{(m)}\),\(x_{t_m +w}^{(m)}\) 是從高頻數據 \(x_{t_m}\) 中的跳躍采樣。
預測值為:
對 \(c(k;\theta)\) 的集約參數化(Parameterization in a Parsimonious Way)是 MIDAS 的關鍵,常用選擇有兩個:
- Exponential Almon Lag
- Beta Lag
Exponential Almon Lag
Beta Lag
其中,\(f(x,a,b) = \frac{x^{a-1}(1-x)^{b-1}\Gamma (a+b)}{\Gamma(a)\Gamma(b)}\),\(\Gamma(a) = \int_0^\infty e^{-x}x^{a-1}dx\)
其他集約參數化
其中,\(g(k,\theta) = \frac{\Gamma(k+\theta)}{\Gamma(k+1)\Gamma(\theta)}\)
AR-MIDAS
AR-MIDAS 中一階自回歸模型最為常見。
- 一步模型
- 多步模型
遞歸式的參數估計
- 估計對應的基本 MIDAS 模型,得到殘差估計 \(\hat \varepsilon_{t_m}\);
- 並算出 \(\lambda\) 的初始值 \(\lambda_0\),\(\hat\lambda_0 = (\sum \hat \varepsilon^2_{t_m+w-h_m})^{-1}\sum \hat \varepsilon_{t_m} \hat\varepsilon_{t_m+w-h_m}\);
- 構造新變量 \(y^*_{t_m} = y_{t_m} - \hat\lambda_0y_{t_m-h_m}\) 以及 \(x^{*(3)}_{t_m + w - h_m} = x^{(3)}_{t_m + w - h_m} - \hat\lambda_0 x^{(3)}_{t_m-( h_m - w)-h_m}\)
- 對 \(y^*_{t_m} = \beta_0 + \beta_1 b(L_m;\theta)x^{*(3)}_{t_m + w - h_m} + \varepsilon_{t_m}\) 應用 NLS,得到估計 \(\hat \theta_1\) 和 新的殘差;
- 重復 2、3、4 步,直到估計值 \(\hat \lambda\) 和 \(\hat \theta\) 穩定。
案例
- 《Macroeconomic Forecasting With Mixed-Frequency Data》
作者使用月度數據工業產值(IP)、就業(EMP)和設備開工率(CU)聯合產出增速(季度數據)建立一個 AR-MIDAS 模型,預測下季度產出增速。
- 《Should Macroeconomic Forecasters Use Daily Financial Data and How》
作者將大量來自金融市場的每日數據和許多月度統計數據(集成為季度數據)與 GDP 增長率(季度)聯合起來建立 AR-MIDAS 模型,實施策略有兩種:
- 用 PCA 提取每日數據和季度數據的主成分,將主成分和 GDP 增長率聯合建立 AR-MIDAS 模型;
- 用若干每日數據分別和 GDP 增長率聯合建立 AR-MIDAS 模型,得到若干預測結果,再將預測加權平均。
- 《Real-Time Forecasts of Inflation The Role of Financial Variables》
作者挑選了幾個來自金融市場的數據與其他若干經濟指標(月度數據)聯合歐元區 HICP(調和消費者物價指數)建立起 HICP 的 AR-MIDAS 模型,並借助金融市場的數據實現了對 HICP 的實時預測。
金融市場數據包括:
- 短期與長期利率;
- 期限利差;
- 股票指數;
- 商品價格;
- 匯率。
經濟指標包括:
- 滯后 1 期的 HICP 數據;
- 滯后 1 期的油價同比;
- 滯后 5 期的核心通脹。
相關軟件
- forecast:單變量時間序列預測
- MTS:多變量時間序列預測
- midasr:MIDAS 回歸
- statsmodels:回歸分析與時序預測
- prophet:單變量時間序列預測
參考文獻
- A Survey of Econometric Methods for Mixed-Frequency Data
- Using monthly data to predict quarterly
- Macroeconomic forecasting with mixedfrequency data Forecasting US output growth
- Should Macroeconomic Forecasters Use Daily Financial Data and How
- Real-Time Forecasts of Inflation The Role of Financial Variables
