推薦系統（10）—— 進化算法、強化學習

1、進化策略（ES：evolution strategy）

　　在一定的抽象程度上，進化方法可被視為這樣一個過程：從個體構成的群體中采樣並讓其中成功的個體引導未來后代的分布。但是，其數學細節在生物進化方法的基礎上實現了很大的抽象，我們最好將進化策略看作是一類黑箱的隨機優化技術。

　　策略作用方式以交叉熵CEM（一種進化算法）為例：算法先隨機初始化參數和確定根據參數生成解的規則，根據參數生成N組解並評價每組解的好壞，選出評估結果在前百分之ρ的解並根據這些精英解采取重要性采樣方法更新參數，新參數被用作下一輪生成N組解，如此循環直到收斂~

　　特別的幾點包括：進化策略的實現更加簡單（不需要反向傳播），更容易在分布式環境中擴展，不會受到獎勵稀疏的影響，有更少的超參數。這個結果令人吃驚，因為進化策略就好像是在一個高維空間中簡單地爬山，每一步都沿着一些隨機的方向實現一些有限的差異。

　　進化算法的目標與強化學習優化的目標都是預期獎勵。但是，強化學習是將噪聲注入動作空間並使用反向傳播來計算參數更新，而進化策略則是直接向參數空間注入噪聲。換個說話，強化學習是在「猜測然后檢驗」動作，而進化策略則是在「猜測然后檢驗」參數。因為我們是在向參數注入噪聲，所以就有可能使用確定性的策略（而且我們在實驗中也確實是這么做的）。也有可能同時將噪聲注入到動作和參數中，這樣就有可能實現兩種方法的結合。

進化策略和強化學習區別：

RL通過與環境交互來進行學習，而EA通過種群迭代來進行學習；
強化學習一般在動作空間（Action Space）進行探索（Exploration）。而相應的Credit或者獎勵，必須在動作空間起作用，因此，存在梯度回傳（back propagation）。進化算法直接在參數空間探索，不關心動作空間多大，以及對動作空間造成多大影響。
RL通過最大化累計回報來解決序列問題，而EAs通過最大化適應函數（Fitness Function）來尋求單步最優；
RL對於state過於依賴，而EA在agent不能准確感知環境的狀態類問題上也能適用。

2、強化學習（Reinforcement Learning）

　　（1）原理

　　本質是：基於環境而行動，以取得最大化的預期收益。

　　強化學習具有高分導向性，和監督學習中的標簽有些類似。但是又有些區別，區別就在於數據和標簽一開始都不存在，需要模型自己來不斷摸索。通過不斷嘗試，找到那些能帶來高分的行為。強化學習是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益。強化學習是除了監督學習和非監督學習之外的第三種基本的機器學習方法。<A,S,R,P>就是強化學習中的經典四元組了。其中A代表的是Agent的所有動作；State是Agent所能感知的世界的狀態；Reward是一個實數值，代表獎勵或懲罰；P則是Agent所交互世界，也被稱為model。

強化學習與有監督學習區別：

有監督學習的訓練樣本是有標簽的，強化學習的訓練是沒有標簽的，它是通過環境給出的獎懲來學習；
有監督學習的學習過程是靜態的，強化學習的學習過程是動態的。這里靜態與動態的區別在於是否會與環境進行交互，有監督學習是給什么樣本就學什么，而強化學習是要和環境進行交互，再通過環境給出的獎懲來學習；
有監督學習解決的更多是感知問題，尤其是深度學習，強化學習解決的主要是決策問題。因此有監督學習更像是五官，而強化學習更像大腦。

監督學習：

Open loop
Learning from labeled data
Passive data

強化學習：

Closed loop
Learning from decayed reward
Explore environment

（2）在推薦混排中的應用

　　我們需要引入強化學習來優化系統的長期收益。首先，我們可以利用Markov Progress來對用戶在推薦場景的瀏覽行為進行建模。其中，Agent就是我們的推薦系統本身，Action是我們推薦的內容，Reward是用戶給予的反饋信息，包括點擊、負反饋以及退出等。每次我們的推薦系統Agent采取某個Action，給用戶推薦了一定的內容，用戶會給到我們相應的反饋。強化學習的整體效果是會優於監督學習的，一般的監督學習的方式通常給出的是點擊率最大的方案，而強化學習給出的最優解是總收益最大的方案。

參考文獻：

強化學習在推薦系統中作用

強化學習應用

強化學習與監督學習區別

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。