增強學習----介紹


PS:本文為閱讀周志華《機器學習》筆記

介紹-------任務與獎賞

我們如果要種西瓜,那要經過很多步驟后,才有可能種出一田好瓜,當然也有可能種出的瓜很差,或者直接給種死了。那么將種瓜的過程抽象出來,總結出一系列好的操作,歸為種瓜策略,那么,這個過程,就是“增強學習”。

這是一個簡單的圖示,其中:

機器處於環境中,狀態空間為X,比如此例,狀態空間可以是健康,缺水,凋亡等等,小x為狀態空間X中單個狀態。

機器所能采取的動作為a,比如:澆水,不澆水;所有動作構成動作集合A。

某個動作a作用在某個狀態x上,則潛在的轉移函數P將使得環境從當前狀態按照某種概率轉移到另一個狀態。如:缺水狀態,選擇澆水,則有概率轉移到健康狀態。

那么,在轉移到另一個狀態時(另一個狀態也可以是原本的狀態),環境會根據潛在的“獎賞”函數R反饋給機器一個獎賞,如:健康為+1,缺水為-1,凋亡為-100。

綜合起來,增強學習任務對應了一個四元組E=<X,A,P,R>,

其中,P:X*A*X->R;指定了狀態轉移概率。R:X*A*X->指定了獎賞;

思考:X與A之間的叉叉符號是什么關系?

環境中狀態的轉移、獎賞的返回時不受機器控制的,機器只能通過選擇要執行的動作來影響環境,也只能通過觀察轉移后的狀態和返回的獎賞來感知環境。

下圖給出一個例子:仔細看在每個狀態下,采取的動作a后狀態轉移的概率p和所獲得的獎賞r;

機器要做的就是通過在環境中不斷地嘗試而學得一個“策略”π,根據這個策略,在狀態x下就知道要執行的動作a=π(x),例如:看到缺水狀態,就知道要選擇澆水動作;

策略有兩種表示方法:一是將策略表示為函數π:X->A,確定性策略常用這種表示方法;

另一種是概率表示π:X *A ->概率,隨機性策略常用這種表示;

思考:什么是確定性策略,什么是隨機性策略?

那么,π(x,a)為在一個狀態x下選擇某個動作a的概率,必須有;這里的意思是,在缺水狀態下,選擇澆水這個動作的概率之和為1.概率是指選擇動作的概率;

思考:p是表示狀態轉移概率,為何在狀態x下選擇某個動作的轉移概率之和也為1?巧合還是有關聯

學習的目的就是找到使長期積累獎賞最大化的策略,長期積累有多種計算方式,常用的有“T步累積獎賞”和“伽馬折扣累積獎賞”。其中rt表示第t步獲得的獎賞值,E表示對所有的隨機變量求期望;

與監督學習的差別:

“狀態”對應監督學習中的“示例”,就是去掉標記特征的樣本。
“動作”對應為“標記”
“策略”對應為“分類器”

從這個意義上說,增強學習可以看作具有“延遲標記信息”的監督學習問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM