深度學習和強化學習的關系


      強化學習是一個連續決策的過程,傳統的機器學習中的有監督學習是給定一些標注數據,學習一個好的函數,對未知數據做出很好的決策。但有時候,並不知道標注是什么,即一開始不知道什么是“好”的結果,所以RL不是給定標注,而是給一個回報函數,這個回報函數決定當前狀態得到什么樣的結果(“好”還是“壞”),其數學實質是一個馬爾可夫決策過程。最終的目的是決策過程中整體回報函數期望最優。

        這個過程有點像有監督學習,只是標注不是預先准備好的,而是通過一個過程來回的調整並給出所謂的“標注數據”,這個過程就是強化學習。

 

         強化學習和深度學習有什么關系?深度學習參與的強化學習與傳統的強化學習有何不同?為什么要引入深度學習?

 

       強化學習的過程中,處理的是狀態,實際上,很多時候狀態是連續的、復雜的、高級的。例如128*128的畫面,那么狀態的數目是指數級增長的,而且畫面是連續的,就算每秒30幀來算,處理數據的速度根本跟不上游戲畫面變化的速度。因此,求助於深度學習。深度學習非常善於處理高維數據,並飛快地從中抽取模式。在圖像處理中,用像素的集合體來表示完整的圖像。這時,特征選取的好壞對於分類或者預測的結果影響非常大。因此,選取一個什么特征,怎么選取一個特征對於解決實際問題非常重要。人為地選取特征是一件耗時耗力且面對大量未知的東西沒有什么規律可循的方法,選取的好不好很大程度上靠經驗和運氣。既然手工選取特征不太好進行,能不能讓機器學習自動學習一些特征呢?答案是能!!!深度學習就是用來干這事的。深度學習的別名叫(Unsupervised Feature Learning),因此自動學習特征的方法,統稱為深度學習。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM