機器學習 —— 概率圖模型(推理:決策)


  Koller 教授把決策作為一種單獨的模塊進行講解,但我認為,決策和推理本質上是一樣的,都是在假設已知CPD或者勢函數的情況下對模型給出結論。

1、決策==逐利

  決策的基本思想很intuitive,並且非常有用。在賭博行為中,最后獲得的錢與硬幣的正反,賭注的大小有關。硬幣的正反顯然是隨機變量,而賭注的大小卻是決策量。顯而易見的是,決策的最終目的是使得某個期望最大化。再舉一個視覺中的例子,對於雙目配准算法而言,左相機對應右相機的像素可以認為是隨機變量。但是否將兩個像素配在一起卻可以認為是一個決策(假設像素一一對應,如果甲配了乙就不能配丙了,希望配准的最終結果是盡可能正確的)。故決策的數學表達為:

  其中,P(X|A)表示在給定決策下,隨機變量X的概率。U(x,a)表示給定決策下,x發生所獲得的收益。簡單的決策如圖所示:

  

2、決策的方法

  顯然從上面的分析可知,我們要做的決策就是使得期望最大化的那個。換一個角度來看,如果每次的決策都是未知的,決策取決於已知信息,決策影響最終結果,如果決策也是隨機變量,我們應該把獲利最多的那個決策組作為我們所需采取的決策庫。換而言之,凡事應有a,b,c三策,不同的策略對應不同的情況。顯然,我們所需要采取的策略取決於已知的信息(Action的父節點)。而策略組本身就是一個隨機變量。

  

  如圖所示,如果變量真實值無法觀測,只能通過一個傳感器(survey)來進行推測時,決策應該取決於S的值。S的值又和其所有父節點(M)的值相關。MEU表示所選擇的策略。

  

  

  顯然,我們需要P(S)deta(F|S)U(F,M),然后P(S)需要對P(M,S)進行邊際獲得。故表達式如上。帶入數據發現

  如果想要上式最大,則deta(F|S)為正。其正值表示傾向於決定.....

  故,決策為s0->f0,s1->f1,s2->f1

3、決策函數與人性

  決策實際上是非常重要的一個環節,其會影響最終的收益期望。決策的目標是使得收益最大化。但是,人類並不是這樣決策的,古語雲:千羊在望,不如一羊在手。又雲:蚊子肉也有毒死人的時候(比如中國國家隊VS皇馬,大部分人肯定買皇馬贏)。決策函數也是值得研究的。單純的計算期望可能無法模擬人的行為。

  

  圖中實線是人的決策曲線,U表示的是Utility。也就是“人們眼中”決策帶來的收益期望,橫坐標是實際期望。完全理性的情況下,“滿足期望”與實際期望應該是匹配的。但是人在決策的時候如果概率是0.5,人會覺得如果有人出400買自己的彩票就賣了。也就是U = 400與正常情況下p=0.5&線性u是等價的。400~500之間稱為保險收益。

  典型的決策曲線如圖所示:
    古語雲:見小利而忘義,干大事而惜命是也。當損失可能性較小時,人們的容忍程度非常高,當收益較小時,人們可能會保守。實際上,千羊在望與一羊在手也是一個邊際問題,窮人往往會選擇一羊在手,因為他沒有啊。如果我本身有一千頭羊,賭贏了我就有兩千頭,為什么不賭?所以可以把決策作為邊際收益的函數,來構造決策方案。

4、信息的價值

  決策的前提是觀測,觀測往往是有成本的。例如做調研需要資金,做檢查需要資金。甚至實時機器人系統如果需要一個准確的定位可能需要停下來,這也是成本。那么在決策前就需要判斷決策的必要性,如果決策帶來的收益大於決策成本,則決策是划算的。這個多出來的收益稱為信息的價值VPI(value of perfect information).

  1.VPI永遠是大於等於0的。perfect information 表示其不是錯誤的信息,一定正確的信息肯定會使得收益有所增加。

  2.當且僅當決策不變時,VPI為0,比如你提供給我1年的某網站財報,我還是會選擇去谷歌。

  圖中s表示公司狀態,f表示公司所獲得資助。公司1獲得資助期望為0.72,公司2獲得資助期望為0.33.

  如果對公司2進行觀測,當且僅當公司2為s3時,會改變主意,其獲得資助期望變為0.9.

  那么,信息觀測收益就是 (0.9-0.72)*0.1 = 0.018

    

  如果此情況,則觀測收益為(0.4-0.35)*0.5+(0.9-0.35)*0.1 = 0.08

 

  實際上,信息觀測只在兩個狀態旗鼓相當的情況下收益比較高。懸殊很大的時候,信息觀測並沒什么意義。

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM