PS:本文為閱讀周志華《機器學習》筆記
介紹-------任務與獎賞
我們如果要種西瓜,那要經過很多步驟后,才有可能種出一田好瓜,當然也有可能種出的瓜很差,或者直接給種死了。那么將種瓜的過程抽象出來,總結出一系列好的操作,歸為種瓜策略,那么,這個過程,就是“增強學習”。
這是一個簡單的圖示,其中:
機器處於環境中,狀態空間為X,比如此例,狀態空間可以是健康,缺水,凋亡等等,小x為狀態空間X中單個狀態。
機器所能采取的動作為a,比如:澆水,不澆水;所有動作構成動作集合A。
某個動作a作用在某個狀態x上,則潛在的轉移函數P將使得環境從當前狀態按照某種概率轉移到另一個狀態。如:缺水狀態,選擇澆水,則有概率轉移到健康狀態。
那么,在轉移到另一個狀態時(另一個狀態也可以是原本的狀態),環境會根據潛在的“獎賞”函數R反饋給機器一個獎賞,如:健康為+1,缺水為-1,凋亡為-100。
綜合起來,增強學習任務對應了一個四元組E=<X,A,P,R>,
其中,P:X*A*X->R;指定了狀態轉移概率。R:X*A*X->指定了獎賞;
思考:X與A之間的叉叉符號是什么關系?
環境中狀態的轉移、獎賞的返回時不受機器控制的,機器只能通過選擇要執行的動作來影響環境,也只能通過觀察轉移后的狀態和返回的獎賞來感知環境。
下圖給出一個例子:仔細看在每個狀態下,采取的動作a后狀態轉移的概率p和所獲得的獎賞r;
機器要做的就是通過在環境中不斷地嘗試而學得一個“策略”π,根據這個策略,在狀態x下就知道要執行的動作a=π(x),例如:看到缺水狀態,就知道要選擇澆水動作;
策略有兩種表示方法:一是將策略表示為函數π:X->A,確定性策略常用這種表示方法;
另一種是概率表示π:X *A ->概率,隨機性策略常用這種表示;
思考:什么是確定性策略,什么是隨機性策略?
那么,π(x,a)為在一個狀態x下選擇某個動作a的概率,必須有;這里的意思是,在缺水狀態下,選擇澆水這個動作的概率之和為1.概率是指選擇動作的概率;
思考:p是表示狀態轉移概率,為何在狀態x下選擇某個動作的轉移概率之和也為1?巧合還是有關聯
學習的目的就是找到使長期積累獎賞最大化的策略,長期積累有多種計算方式,常用的有“T步累積獎賞”和“伽馬折扣累積獎賞”。其中rt表示第t步獲得的獎賞值,E表示對所有的隨機變量求期望;
與監督學習的差別:
“狀態”對應監督學習中的“示例”,就是去掉標記特征的樣本。
“動作”對應為“標記”
“策略”對應為“分類器”
從這個意義上說,增強學習可以看作具有“延遲標記信息”的監督學習問題。