《基於 MT-SVM 模型的市場預測》
• 由於 A 股市場並非完全有效以及市場具有的分形特征和記憶性,從理論上來說對股票市場一段時間內的市場趨勢所發生的概率進行預測成為可能。 • 我們構建了 MT-SVM 預測模型來對市場漲跌方向進行預測。 預測模型的參數主要用到宏觀經濟變量、 技術指標變量以及市場價格漲跌波動的數據;預測方法以支持向量機為主並結合統計和其他數量化技術;模型以 1998 年以來近 13 年的時間作為全部的考察、訓練、預測和模擬樣本,並對 2002 年以來近 9 年的每月市場漲跌進行了滾動預測模擬和實證檢驗。
• 從 2002 年至今, 所預測的 103 個歷史月份中, 共預測錯誤 34 個月份,預測准確率為 67%;忽略掉單月漲跌在 2%以內震盪市的錯誤預測之后,整體預測准確率可以達到 73.79%,尤其是 2006 年以來的累計預測准確率實現 80%。 2005 年以前模型的預測准確率較低,2006 年、 2007 年以及 2009 年每年都只有 2 個月份預測錯誤。
• 以預測模型為實際投資操作依據, 以上證指數作為虛擬投資標的,簡單的假定預測下月上漲則買入並滿倉, 預測下跌則賣出並空倉。2002 年至今模擬投資操作累計收益率 416.44%,遠遠高於同期上證指數 60.24%的收益率。 8 年多的時間內,總計交易 21 次。分階段來看, 以預測模型為參考的模擬投資收益率也均遠優於市場收益率。
• MT-SVM 模型對 8 月份上證指數預測結果: 下跌。 需要注意的是,未來市場的預測准確率可能會因前期較高的准確性而出現一定折扣, 尤其近期遇到市場震盪反彈的格局,模型預測的困難可能會更大。
• 預測模型的適用范圍: 股票市場擇時、趨勢跟蹤、機構投資者股票倉位管理; 指數化投資以及基金投資;股指期貨套期保值的擇時決策,股指期貨的單邊投資決策。
• 模型存在的問題: 目前模型還不能預測漲跌的幅度; 模型預測的時間跨度僅以月為單位; 模型對市場震盪階段以及市場拐點預測效果較差; 存在接近 30%的錯誤率會影響投資的最終效果,因此模型的實際運用也應當與投資的實際決策過程相結合。
2010年08月31日——【長城證券】
《基於 SVM 的量化擇時方法》
•量化投資領域中,一個好的選股策略是比較容易實現的, 但擇時就不是那么簡單。 一般來說量化擇時的解決思路會集中於兩大類:技術派和基本面派。技術派與基本面派都有自己的理論弱點,從判斷正確的概率來看,這兩種方法長期勝率一般難以超過70%,並可能在一些決策關鍵時點難以信賴。 •支持向量機(簡稱SVM) 是一種基於統計學習理論的模式識別方法,現在已經在生物信息學、 文本和手寫識別等應用領域取得了成功。SVM能非常成功地處理分類、 判別分析等問題,並可推廣到預測與綜合評價領域。它的核心思想可以概括為:尋找一個最優分類超平面,使得訓練樣本中的兩類樣本點盡量被無錯誤的分開,並且要使兩類的分類間隔最大。
•我們利用 SVM 模型來判斷大盤的漲跌。 普通的 SVM 模型中輸入變量只有股市本身運行的參數,因此更像是一種技術派做法。我們設計的模型結合了技術派與基本面派的特點,主要是在模型的輸入變量中考慮到了經濟數據與股市本身的參數。為了便於整理變量,我們將輸入變量分為四個大類,分別是市場前期走勢、貨幣環境、經濟指標、外圍環境等。 模型運行的時間為 2000 年 1 月至 2010 年 7 月,訓練時間為 24 個月, 樣本外推預測期是從 2002 年 1 月至 2010 年 7 月。
•從實證結果來看, SVM 模型確實是一種不錯的擇時模型。模型在最近的 104 個月當中取得了 64%的判別勝率,並且模擬投資上證指數的策略累計收益率達到 375%。 模型在 06 年之后的表現要大大好於 06年之前, 06 年之后單月判別的勝率都在 67%以上。模型的缺點在於對震盪市和下跌市場的預測能力較差,並且交易信號較為頻繁。而修正后的 SVM 模型的交易信號能夠顯著減少。 而隨着經濟數據量、指數系列的豐富以及二次擇時模型的開發,未來我們的 SVM 模型還有進一步改進的可能。
2013年10月15日——【國信證券】
《機器學習法選股》
• 輸入:因子值 • 輸出:股票的表現 • 學習目標:輸入和輸出之間的對應關系
• AdaBoost算法
• 選股模型可以表述為一個二元的分類問題:做多預期表現好的股票組合,做空預期表現差的股票組合 • 模型的輸出為信心指數,指數越高,表明預期表現越好,反之亦然。
2013年12月11日——【民生證券】
《基於機器學習的訂單簿高頻交易策略》
• 機器學習是訂單簿動態建模的前沿方法 訂單簿的動態建模,主要有兩種方法,一種是經典的計量經濟學方法,另一種是前沿的機器學習方法。機器學習通過對己知數據的學習,找到數據內在的相互依賴關系,從而對未知數據進行預測和判斷,最終使得機器具有良好的推廣能力。 支持向量機(SVM,Support Vector Machine)是目前較為先進的機器學習方法。 • 可以從訂單簿提煉指標庫來刻畫其特征 訂單簿主要包括買一價、賣一價、買一量、賣一量等基礎指標, 並可以衍生出深度、斜率、 相對價差等指標, 其他指標包括持倉量、成交量、基差等, 共計17個指標。 還可以引入常見的技術分析指標如RSI、 KDJ、MA、 EMA等。
• IF主力合約訂單簿每天存在4000次交易機會
以IF1311合約在10月29日的行情數據為例, Δt=2tick的情況下, ΔP絕對值大於等於0.4的次數大約有4000次,這是潛在的交易機會。 • 模型檢驗准確率最高達70% 預測未來1tick的價格變化准確率較高,在ΔP≥ 0.4情況下,總體准確率大概70%; 在總體准確率大於60%的情況下,可以轉化為交易策略。
• 策略模擬收益 以IF1311合約在10月31日的行情為例, 在考慮手續費0.26/10000、 單邊滑點0.2點、每次交易1手情況下, 全天交易次數605次,盈利次數339次,勝率56%,凈利潤11814.99元。
2014年06月18日——【廣發證券】
《深度學習之股指期貨日內交易策略》
• 深度學習高頻股價預測模型 從市場微觀結構的角度來說,股票價格的形成和變化是由買賣雙方的交易行為決定的, 因此, 對高頻市場行情數據的挖掘有可能獲得對未來股票價格走勢的有預測能力的模式。本報告通過樣本內大量歷史數據訓練深度學習預測模型,對 1 秒鍾高頻下的股指期貨價格漲跌進行預測。該預測模型的樣本外的准確率超過73%,表現不俗。
• 深度學習股指期貨交易策略 基於深度學習股價預測模型對股票價格變化的預測,本報告提出了股指期貨的日內交易策略。 該交易策略自 2013 年以來累積收益率達 99.6%,年化收益率為 77.6%, 最大回撤為-5.86%。
• 結論 通過股指期貨高頻價格預測模型的實證研究, 本報告驗證了深度學習這一大數據時代的機器學習利器在股票價格預測上的有效性。 並基於預測模型提出了股指期貨交易策略,取得了良好的效果。
2014年06月18日——【廣發證券】
《深度學習算法掘金 ALPHA 因子》
• 金融大數據下的 Alpha 因子挖掘 多因子 Alpha 策略是發掘出驅動個股產生 Alpha 收益的因子,根據有效的 Alpha 因子設計相應的選股策略,篩選投資的股票組合,以尋找超越市場的股票超額收益。 為了獲取新的 Alpha 來源, 我們一方面可以對傳統因子進行更加深入的挖掘, 例如挖掘因子的非線性特征, 尋找有效的因子組合。 另一方面,我們可以利用更加高效的數據挖掘手段從市場數據中間尋找新的 Alpha 因子。 隨着大數據時代的來臨, 數據挖掘的方法不斷革新改進, 浩如煙海的市場數據為 Alpha 的來源提供了巨大的可能性。 • 深度學習股價預測模型 從市場微觀結構的角度來說,股票價格的形成和變化是由買賣雙方的交易行為決定的, 因此, 對高頻市場行情數據的挖掘有可能獲得對未來股票價格走勢的有預測能力的模式。本報告通過樣本內大量歷史數據訓練深度學習預測模型,對以周為頻率的中證 800 股票價格漲跌進行預測,建立起了可以對股價短期內走勢進行預測的機器學習模型。
• 深度學習股票多因子交易策略 基於深度學習股價預測模型對股票價格變化的預測得分,本報告提出了股票交易的 Alpha 策略。 在組合規模為 100 的情況下, 該多因子 Alpha策略自 2011 年以來累積收益率超過 120%, 各年度收益率都超過 15%。
• 結論 通過中證 800 成份股的實證研究, 本報告驗證了深度學習這一大數據時代的機器學習利器在股票價格預測上的有效性。 通過深度學習模型對市場數據進行挖掘,獲得了可以產生超額收益的因子, 該因子的表現超越了傳統的 Alpha 因子。
2016年05月09日——【東證期貨】
《量化投資策略之機器學習應用( 1)基於 SVM 模型的期貨擇時交易策略》
SVM 屬於監督學習算法, 對於求解小樣本、 非線性、 高維度問題具有優秀的泛化學習能力,而擇時交易策略則屬於利用 SVM解決二元分類問題。構建 SVM 模型的過程可以簡要概括為尋求支持向量與超平面函數間隔的最大化,從而優化求解模型參數。SVM 在求解非線性問題時使用核函數將數據映射到高維空間,以尋求超平面進行分類,同時在低維空間進行內積運算。 SVM 擇時策略模型對數據進行歸一化和降維處理, 然后選取粒子群算法和遺傳算法進行參數優化。將帶有漲跌標簽的普通量價數據和技術指標作為訓練集數據源,將 SVM 模型訓練成一個可以預測漲跌的分類器。
回測結果顯示 SVM 擇時策略模型預測准確率超過 50%,並且對下跌趨勢的預判能力較高。模型具有良好的累計授予率與夏普比率,其中技術指標類特征量得出策略模型最大回撤控制在 10%以內。
2016年05月31日——【國信證券】
《Adaboost 算法下的多因子選股》
• Adaboost 算法 Adaboost 是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的弱分類器,尤其是對難以正確分類的數據重復進行訓練,然后把這些弱分類器集合起來,構成一個更強的強分類器。其算法本身是通過改變數據分布來實現的,它根據每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的准確率,來調整每個樣本的權值,這樣使得難以正確分類的數據得到訓練。將修改過權值的新數據集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。 • 選股實證 由 Adaboost 算法得到的強勢組合能夠跑贏市場,且強勢組合,市場指數,弱勢組合之間的較為明顯的凈值差別,算法所構造的組合具有明顯的區分度,類似我們也發現所有十檔組合之間都有一定程度間隔,說明算法具有有效性。對比 Adaboost 方法的結果,回歸方法產生的組合從凈值數據上不管是強勢組還是弱勢組都是優於 Adaboost 算法的。由回歸方法與 Adaboost 算法的凈值比圖來看,雖然兩種方法在回測期截止凈值相同,但回歸方法產生的組合最高凈值更高。當然,可以發現的是,回歸法的波動明顯比 Adaboost 算法大,尤其有市場振盪時期。基於 Adaboost 算法的多因子模型在組合凈值的波動率水平上仍有亮點。
• Adaboost 因子與傳統因子 從凈值曲線上看,考慮了因子大類后的算法選股組合的區分度更高。強勢組合與弱勢組合的凈值差異明顯組合相對 HS300 指數的超額收益凈值曲線相對平穩,最大回撤發生在 2014 年12 月,最大回撤為 9%,而在此之前,超額收益的最大回撤為 5%左右。從月超額收益上看,組合的月勝率超過 50%,達到了 56%,整體效果良好。而對比弱勢組合的超額收益,多空策略的凈值波動更大,主要的回撤同樣發生在 2014 年底,但策略的勝率仍保持 50%以上,達到 58%。
2016年05月31日——【國信證券】
《利用機器學習實現組合優化》
• 用機器學習對股票收益分類 本報告以機器學習中的 SVM(支持向量機)為例,以中證 800 為基准,實現了對給定股票池的收益分類預測。 通過逐步削去法,得到五因子組合構成的“ SVM收益分類器”,輸入每年因子截面數據,在超平面上對未來一年的股票收益分類跑贏/跑輸進行預測。根據 2009 年至 2015 年的回測結果,平均年勝率為 55%。
• 用機器學習對股票波動分類
用類似的方法,同樣用 SVM 作為分類器,以全 A 股票年波動率中位數為基准,實現了對給定股票池的波動分類預測。通過逐步削去法,得到十因子組合構成的“ SVM 波動分類器”,輸入每年因子截面數據,在超平面上對未來一年的股票波動高/低進行預測。根據 2009 年至 2015 年的回測結果,平均年勝率超過61%,並且達到了降低投資組合波動率的目的。
• 深究因子組合 機器學習可以幫助我們綜合、歸納;可以幫助我們處理非線性因子;但無法代替人推理實證,無法保證模型的可靠性。作為事例,本報告加入單因子分析,給出了進一步構建五因子模型的可能解決辦法之一,通過五個因子打分形式,共同構建“成長 40 組合”,在 2009 年至 2015 年間,成長 40 組合年化收益率超過 36%,而同期全 A 等權的年化收益不足 14%。
2016年05月31日——【國信證券】
《SVM 算法選股以及 Adaboost 增強》
• 支持向量機算法 支持向量機的最大特點是改變了傳統的經驗風險最小化原則,而是針對結構風險最小化原則提出的,因此具有很好的泛化能力。同時,支持向量機在處理非線性問題時,通過將非線性問題轉化為高維空間的線性問題,利用核函數替代高維空間中的內積運算,從而巧妙的解決了復雜計算問題,並且有效的克服了維數災難以及局部極小問題。在不考慮非線性分類的情況下, 12 個月的樣本數據滾動回測結果顯示出較好的分類效果。強勢組合能夠顯著的跑贏弱勢組合。
• Adaboost-SVM 組合算法 從 Adaboost 的角度出發,我們認為利用 Adaboost 對於每個月的數據的 SVM分類算法進行增強,可以有效的提高 SVM 分類的效果。從線性 SVM 分類結果來看,利用 12 層數據的 Adaboost 組合相比單月 SVM 效果顯著增強,多空組合收益能夠明顯的區分開。 但對比前述的傳統 SVM 方法,其多空策略的凈值收益並沒有顯著增加,傳統的 SVM 模型整體優於 Adaboost算法下的 SVM 分類。
• 非線性分類 在前一篇報告中我們對於非線性分類的處理主要通過對因子的多檔概率統計完成,也具有顯著的效果。為了使 SVM 模型與之更具有可比性,我們考慮 SVM的非線性模型。將非線性因素考慮進來之后,模型的超額收益顯著高於無 SVM 的 Adaboost 算法。多空組合的區分度明顯, 5 年的勝率在 58%的水平。 效果的增強,除了證明我們之前的猜想:弱分類器的選擇可能增加 Adaboost 算法的效果之外,也從側面反映了多因子模型中,因子與收益間的非線性關系。從結果上看, Adaboost 的效果仍然不如單獨的 SVM 算法效果,理論上考慮,Adaboost 的增強效果是需要建立在弱分類器的基礎上的。 SVM 算法本身的顯著分類可能對 Adaboost 算法造成影響。因此,對比概率統計的 Adaboost 分類,Adaboost-SVM 具有顯著的提高, 但更優的分類方法是非線性的 SVM 分類。
2016年09月08日——【國泰君安】
《基於機器學習的牛股精選》
決策樹是通過一系列規則對數據進行分類的預測模型。它提供一種在什么條件下會得到什么值的類似規則的方法,相比神經網絡、支持向量機等方法,其優點在於它是易於理解的“白箱”模型,可理解性更高。
決策樹模型機器學習使得多個技術指標的綜合運用成為可能。相比線性模型,決策樹算法在處理非線性解釋變量時,其表現要優於線性模型。
本文通過機器學習的方法構建了選股策略。以中證500指數為對沖標的,從2011年1月至2015年12月,組合累計超額收益為165%,年化收益可達21%,信息比率2.11,最大回撤9.33%,發生於2015年8月下旬。l組合在各年份的收益率及信息比都比較穩定。基於機器學習策略在算法上和邏輯上與傳統的多因子模型的區別,模型在一定程度上提供了較好的互補性,提高了收益的穩定性。