- 什么是強化學習?
強化學習任務通常用馬爾科夫決策過程(MarkovDecision Process,MDP)來描述:機器處於環境E中,狀態空間為S,其中每個狀態s∈S是機器給你知道的環境的描述;機器能采取的動作構成了動作空間A,若某個動作a∈A作用在當前狀態s上,則潛在的轉移函數P將使得環境從當前狀態按某種概率轉移到另一個狀態,在轉移到另一個狀態的同時,環境會根據潛在的“獎賞”(Reward)函數R反饋給機器一個獎賞。綜合起來,強化學習任務對應了四元組
E= <S,A,P,R>,
其中P:S×A×S ↦ℝ指定了狀態轉移概率,R: S×A×S ↦ℝ指定了獎賞。在有的應用中,獎賞可能僅與狀態轉移有關,即R:S×S ↦ℝ。
強化學習過程中,機器要做的就是通過在環境中不斷嘗試而學得一個“策略”π,根據這個策略,在狀態s下就能得知要執行的動作a =π(s)。對於確定性策略,可表示為π:S↦A,表示根據狀態可得確定的執行動作;對於隨機性策略,可表示為π:S×A ↦ℝ,表示根據狀態和可執行的動作,可得執行該動作的概率,這里

策略的優劣取決於長期執行這一策略后得到的累積獎賞,即不僅考慮執行一個動作執行后當前的獎賞,而且考慮隨着狀態的變化,后續獎賞的綜合。強化學習的目的就是要找到能使長期累積獎賞最大化的策略。長期累積獎賞有多種計算方式,最為常用的是“折扣累積獎賞”

其中rt表示第 t 步獲得的獎賞,?表示對所有隨機變量求期望。
實際上強化學習的策略相當於監督學習中的“分類器”,但是強化學習中沒有標記樣本,即每一步並不會知曉應該做什么動作,只有等最終結果揭曉,才能通過機器“反思”之前的動作是否正確來進行學習,因此,強化學習在某種意義上可看作具有“延遲標記信息”的監督學習問題。
- 為什么是強化學習?
最優化動態調整流動資產配置(對單一資產的持倉與否或是對多資產的配置比例)實際上可以看作MDP(Markovian Decision Problem)問題,因此強化學習可以考慮應用於此。
對於流動資產配置可通過如下模型刻畫:


即訓練出來的策略π*能夠在給定狀態下,選擇出能使長期累積獎賞最高的動作a。在實際應用中,我們希望利用類似方法通過強化學習獲得這樣一種投資策略,在當前的歷史市場信息和已有的資產配置狀態下,能夠選擇出能使長期累積收益最大的資產配置行為。
值得說明的是,多數情況下,市場從$t到$t+1的變化是隨機的,並不依賴的選擇,從而即使是相同的狀態和行為可能獲得的收益也不相同。但是,該模型主要目的是獲得期望的折扣收益,不管收益如何隨機變動,只要折扣收益的期望不變,最優化的策略也並不發生改變。
三、 如何利用強化學習?


參考文獻 1. 周國平.《機器學習》 2. Moody, John E., et al. "Reinforcement Learning for Trading Systems and Portfolios." 3. Jian Li, Laiwan Chan., “Adjustment Reinforcement Learning for Risk-averse Asset Allocation” 4. Neuneier.,” Optimal Asset Allocation using Adaptive Dynamic Programming”