摘要:本文(Historical Inertia: An Ignored but Powerful Baseline for Long Sequence Time-series Forecasting)是由華為雲數據庫創新Lab聯合電子科技大學數據與智能實驗室發表在頂會CIKM’21的短文,該文章提出了一種針對長時間序列的baseline。
本文分享自華為雲社區《CIKM'21 Historical Inertia論文解讀》,作者: 雲數據庫創新Lab 。
導讀
本文(Historical Inertia: An Ignored but Powerful Baseline for Long Sequence Time-series Forecasting)是由華為雲數據庫創新Lab聯合電子科技大學數據與智能實驗室發表在頂會CIKM’21的短文,該文章提出了一種針對長時間序列的baseline。CIKM是信息檢索和數據挖掘領域頂級學術會議之一。本屆會議共收到短文投稿626篇,其中錄用論文177篇,錄取率約為28% 。該論文是雲數據庫創新LAB在時序分析層面取得的關鍵技術成果之一。
1 摘要
長序列時間序列預測(Long Sequence Time-series Forecasting,LSTF)因其廣泛的應用而變得越來越流行。雖然人們已經提出了大量復雜模型來提高預測的有效性和效率,但卻忽視或低估了時間序列一個最自然、最基本的特性:歷史存在慣性。在本文中,我們提出了一個新的LSTF基線,即歷史慣性(Historical Inertia, HI)。在此基線模型中, 我們直接將輸入時間序列中距離預測目標最近的歷史數據點作為預測值。我們在4個公開LSTF數據集,2個LSTF任務上評估了HI的效果,結果表明,與SOTA工作相比,HI可以獲得高達82%的相對提高。同時,我們也討論了HI和現有方法結合的可能性。
2 HI
HI直接將輸入時間序列中距離預測目標最近的歷史數據點作為預測值。
3 實驗
3.1 單變量長時間序列預測結果
對於單變量長時間序列預測任務,HI在ETTh1和ETTm1數據集上顯著優於SOTA模型。Informer及其變體主導了ETTh2數據集的最優結果。而對於Electricity數據集,HI,Informer和DeepAR都有較好的表現。整體來看,HI在MSE和MAE上分別實現了高達80%和58%的相對提高。
3.2 多變量長時間序列預測結果
對於多變量長時間序列預測任務,HI在四個數據集的絕大多數預測任務上都顯著優於SOTA模型,最高帶來了82%的相對提高。
4 討論
4.1 為什么HI會有如此好的效果
我們從兩個角度考慮了HI能取得良好效果的原因:
- 數值 :HI可以保證預測序列與真實序列有相似的數值大小。
- 周期性:對於有周期性且周期性較短的數據集,HI可以做到預測序列與真實序列相位相似。
4.2 如何利用HI
我們提出了兩種利用HI的可能方向
- 融合模型(Hybrid model):可以考慮將HI與其他模型融合,例如簡單的作為一種trick將輸出結果加權平均。
- 自動機器學習(AutoML):某些情況下復雜模型可能並不能達到良好效果,因此可以考慮根據數據自適應模型結構,適當地降低/增加模型復雜度。
對於融合模型這一方向,我們設計了簡單的實驗予以驗證:將HI與2層MLP模型的輸出結果取平均得到最終預測結果。實驗結果表明,融合HI的MLP模型可實現更准確的預測,並且此優勢在單變量長時間序列預測任務上更顯著。
華為雲數據庫創新lab官網:https://www.huaweicloud.com/lab/clouddb/home.html