Metabit合伙人淺談機器學習在量化交易中的應用


https://www.metabit-trading.com/machine-learning/

Metabit Trading 以機器學習、強化學習為核心技術

我們創立的基於機器學習、強化學習的研究框架在中國期貨市場表現優異,使得我們在2019年期貨高頻競爭激烈的全年依然實現了夏普比率8以上、規模數億、年化收益翻倍的水平。

2020年我們將這套框架移植到中國A股和全球期貨市場,初步研究結果表明,我們在這兩個市場也具備如同中國期貨市場的領先優勢。
這篇文章首先介紹 Metabit Trading 對機器學習、強化學習“黑科技”的理解,然后簡要介紹了我們創立的一套多資產多期決策的策略研究框架,並詳細分析了它的優勢和實踐中的困難。

我們認為機器學習是一把雙刃劍,既不能“garbage in garbage out”,即隨便使用市場數據作為輸入,就寄希望於能產出有效的預測,好像萬能葯解決一切量化投資的技術難題。我們也不能因為不理解、不會處理過擬合而放棄了這把利刃,畢竟海量的交易數據包含大量人工挖掘不到的信息。而對於強化學習,2016年AlphaGo的大火帶動了深度強化學習概念,使得他變為一個人盡皆知卻又神秘莫測的方法。

其實強化學習這個概念可以追根隨緣到上個世紀80年代。拿強化學習(Reinforcement Learning)來說,這個在計算機科學中大火的概念其實早在90年代運籌學近似動態規划(Approximate Dynamic Programming)就已經普遍在使用了。而更早的80年代,控制論中的隨機控制模型(Stochastic Control)也在描述同一個建模方法。很多計算機競賽的同學熟悉的背包問題使用的動態規划算法,其實本質上就是強化學習模型。對於量化投資,量化二字明示了這個領域是建立在統計學之上。業內使用較多的線性回歸、多因子模型,就是統計學最穩健和最經典的模型。更復雜的非線性機器學習、強化學習的本質也是統計學,但是模型和理論之復雜,使控制訓練收斂和泛化能力極為困難,因此業界往往談之色變。

考慮到只是模型復雜程度的區別,我們認為沒有所謂的機器學習派和傳統派,大家都是使用的是統計學,只不過有的策略更依賴於復雜的統計模型,有的策略因為沒有復雜的模型更依賴於復雜的先驗金融知識。而Metabit Trading擅長的就是如何使用最復雜的統計模型盡可能代替對人工挖掘的依賴,又盡量避免過擬合和黑箱帶來的困擾。

 

 

有的策略更依賴於復雜的統計模型,有的策略更依賴於復雜的先驗金融知識

 

 

傳統的強化學習模型基於馬爾科夫決策過程(Markov Decision Process)但是由於金融數據中,資產的合理價值是一種隱含狀態,我們只能觀察從資產的當前交易價格、資產的基本面消息(如期貨的上下游產業數據,股票的財務報表)等,這種情況下,我們更合適將問題建模為部分可觀察的馬爾可夫決策過程 (Partially Observed Markov Decision Processes, POMDP)。

最終POMDP的學習目標,是隨着時間t的進行,不斷根據Yt收集到的最新信息,推斷隱含狀態Xt,從而進行決策得到每一期的行為At,使得最終sum(Rt)期望值最大。下面讓我們看看如何把一個股票alpha策略放入這個框架下。我們在進行一個量化選股策略,需要給全市場幾千只股票每期都分配一個權重Wt。我們的可觀察狀態Yt就是市場上一切信息,包括且不限於幾千只股票的價格、交易量等交易數據、財務報表、新聞、微博等。我們的隱藏狀態Xt,則是這只股票背后公司內在真實價值。我們的行為,則是對於每一期的股票權重要如何分配權重Wt。而我們的獎勵Rt,則是下一期股票價格變動帶來的收益刨除掉交易成本、對沖成本等。POMDP定義之后,最終的目標函數就是找到一種策略從可觀察信息 (Y1,Y2,...,Yt) 到決策 At 的映射,使得預期獎勵 E(Rt) 最大化。

我們認為,傳統機器學習,會對數據進行大量挖掘,使用特征工程來找到很多因子進行回歸或分類。其實這種監督學習采用了一種替代目標函數(surrogate objective)的方式先進行訓練。所謂使用替代目標函數就是說我們機器學習的目標和最終想要達到的目標是有差別的。

我們機器學習的目的是減少預測誤差,但是我們的交易目標是盈利。這兩者是有差別的。所以我們往往會先用監督學習組合信號(目標是降低預測誤差),再用回測篩選信號(目標是賺錢)。這中間多了一層“轉接”的方法,我們稱之為使用了替代目標函數。

其實這個方法在機器學習本身也是很常見的行為。比如我們做分類問題時,訓練的目標函數是交叉熵(Cross-Entropy),但是最終目標是預測的精度(Accuracy)。兩者不是一致的。但是,如果我們可以在POMDP的框架下建模,通過大量樣本去自動學習如何盈利,這樣學習目標針對性更強,可以讓我們得以實現端到端的學習能力。這也是POMDP框架可以比傳統機器學習框架有上述的優勢的本質原因。

 

 

 

雖然POMDP可以覆蓋到量化交易中的一切需求,但是實際使用中會遇到很多非常棘手的難題。

 

• 我們如何從可觀察狀態Yt去推斷隱藏狀態Xt?——POMDP中有 model-based 和 model-free 兩種處理方式。我們嘗試通過先進的 model-free 配合強大的深度非線性機器學習模型解決這個問題。

• 我們如何保證強化學習得到的結果是可以拓展到從未見過的新樣本的?傳統POMDP中一般都假設存在模擬器從而有無限的數據。但是金融數據是有限的。——我們嘗試通過data augmentation、random sampling等方式,擴大了數據樣本數量,增強了模型的泛化能力。

• POMDP求解是比NP-hard復雜度更高的問題,如何求解?——我們嘗試通過對求解算法進行多次近似,最終得到了一個平衡速度和求解精度的訓練算法。

• 強化學習使用的數據量是巨大的,全市場股票level-1 tick數據有幾百億的數據規模,如何同時處理這么多數據加入訓練?——我們嘗試通過自己研發的分布式系統解決了這個問題。

• 強化學習模型需要在線推斷(online inference)時間是很長的,在實盤計算信號時,如何保證策略信號可以在極短時間之內計算?——我們嘗試在計算機底層對模型的推斷進行優化,充分利用硬件能力。此外,我們在訓練強化學習模型時,也考慮對模型進行一些近似,平衡預測速度和預測精度。

以上是 Metabit Trading 對於機器學習、強化學習技術的淺談。除了上述面臨的困難,我們還有很多技術問題亟待解決。但希望通過我們的拋磚引玉,能給大家一些策略研究框架下的啟發,讓中國量化投資在技術實力上一起成長。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM