基於Order Book的深度學習模型:預測多時間段收益序列


https://mp.weixin.qq.com/s/N12GzvYCOpcqDlkaei5moA

本期遴選論文
來源:SSRN
標題:Deep Order Flow Imbalance: Extracting Alpha at Multiple Horizons from the Limit Order Book
作者:Petter N. Kolm、Jeremy Turiel、Nicholas Westray

 

作者基於原始訂單數據,構建了訂單狀態指標、訂單流指標,並結合深度學習模型對Nasdaq的115股票構建高頻價格預測模型,並對比了多個模型的效果。核心觀點如下:

 

  • 訂單流的原始數據,可以直接作為深度學習模型的輸入,而不需要過多的進行特征工程。

     

  • 模型預測的效果與股票交易活躍度有關,成交活躍的股票,模型的整體效果更優。

     

  • 在多預測時間段的測試中,模型整體對於短期價格的變動有優秀的預測能力,模型效果的最優表現出現在K=10附近。

 

訂單數據

 

訂單簿如下圖所示,按照價格優先時間優先的原則將買單賣單做如下排列,

 

圖片

 

針對訂單簿的數據,作者定義了以下指標:訂單簿狀態LOB,訂單流OF,訂單流失衡(OFI)

 

1、Order Book States(LOB)

其中  為前十檔的賣價, 為前十檔的賣量, 為前十檔的買價格, 為前十檔的買量。

2、Bid-Ask Order Flow(OF)

圖片

3、Order Flow Imbalance(OFI)

 

預測模型

 

作者測試了多種模型,對比各種模型的預測效果。

 

圖片

 

 

圖片

 

 

實證

 

因變量

 

因變量是股票在未來一段時間用mid-price計算的收益率,對於每一時刻t,模型預測了多個未來horizon的收益率,用向量r表示:

其中r為mid-price return, 表示兩個tick之間中間價計算的收益率。該模型是采用長度為w的滾動窗口進行計算,對於所有模型,w統一設置為100:

如表6所示,由於每個股票的成交活躍度都不一樣,EBAY和MSFT每天Order Book的活躍度(Updates)差了三個數量級。所以作者針對每個股票設定各自的時間划分間隔(stock specific time increment):

其中分子是一個交易日交易時間的毫秒數,N表示這個股票每天非零的mid-price returns的數量。那對於(14)中,具體的預測時間點為以下10個時間點:

各時間點的mid-price return為:

其中  表示時刻t的mid-price, 是為了考慮延遲,所以在時間t用的實際上是  的mid-price, 的取值是10毫秒。

圖片

 

自變量

 

作者測試了兩種自變量的表現,分別是上式(1)的LOB和上式(4)的OF,對於所有自變量和因變量都Winsorize到0.5%和99.5%的區間,並轉換為z-score。最終作者選取了納斯達克上市的115只股票的訂單數據作為訓練樣本。

 

對於每個測試時間段,模型評價采用以下方式:

其中  是模型的mean square error, 是基於測試時間段 r 的均值計算的mean square error,以此作為模型表現得基准。 大於0,說明模型的效果優於Benchmark。

 

模型設置

 

表2給出了所有模型的參數及設置,單個模型的訓練時間在10-60分鍾左右。

 

圖片

 

 

結果

 

短期預測效果對比

下圖給出了各模型短期預測效果的對比,其中左邊的自變量是OF,右邊的自變量是LOB。X軸對應不同的預測horizon(如17表示,一共10個horizons);Y軸是根據18計算的模型表現,首先計算每個股票每個Horizon每天平均的 ,然后把所有股票的  平均就得到Y軸的值。可以看出:

  • 基於LOB的模型,處理CNN=LSTM跑贏基准,其他模型都沒法從LOB中學習到有效信息。由於OF只是基於LOB計算的衍生指標,給定足夠數據的情況下,理論上深度學習的模型(如LSTM等)應該能夠學到如基於OF模型一樣的效果,但是整體而言,基於OF(左邊)的模型表現更好。

 

  • 模型的效果在X軸等於2(k=10)時,達到了上限,也就是說深度學習模型整體對短期的價格變動有更好的預測結果。

 

圖片

 

預測准確度比較

 

基於OF和LOB兩種輸入,分別測試的6個模型,所以一共有12個組合。每天對12個模型的不同horizon的表現進行排序(1-12名),然后把所有測試時間段,每個模型每天的排序計算平均值,由下圖表示:

 

  • OF模型的整體排名要由於LOB

     

  • 含有LSTM部分的模型的表現要由於ARX和MLP

     

  • CNN-LSTM的表現很穩定,在各horizon得排在第一

 

圖片

 

預測表現和股票其他特征之前的關系

 

作者針對OF作為輸入的LSTM模型,研究模型表現與股票特征之間的關系,計算出每個模型測試時間的  均值,並計算對  與股票各特征做回歸,包括Tick Size, LogUpdates, LogTrades, LogPriceChg, Log(Updates/PriceChg。可以發現模型的表現與TickSize和Updates正相關,與PriceChg負相關。其中PriceChg表示單位時間價格變動的次數,一定程度反映了股票的波動性。

 

圖片

 

具體的截面回歸的結果如下表所示:

 

圖片

 

長期預測能力

 

以上的結果都限定在k=10以內(等式17中的k),對於更長時間的預測效果,如下圖所示,可以看出模型的表現在x軸等於2的時候達到最大,當x超過2,模型的效果持續下降。

 

圖片

 

 

總結

 

  • 訂單流的原始數據,可以直接作為深度學習模型的輸入,而不需要過多的進行特征工程。

     

  • 模型預測的效果與股票交易活躍度有關,成交活躍的股票,模型的整體效果更優。

     

  • 在多預測時間段的測試中,模型整體對於短期價格的變動有優秀的預測能力,模型效果的最優表現出現在K=10附近。

 

參考文獻

Zhang, Zihao, Stefan Zohren, and Stephen Roberts (2018). \BDLOB: Bayesian Deep Convolutional Neural Networks For Limit Order Books". In: arXiv preprint arXiv:1811.10041.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM