監督學習的任務就是學習一個模型,應用這個模型,對給定的輸入預測相應的輸出。這個模型一般為決策函數:Y=f(X) 或 條件概率分布:P(Y|X)。
監督學習的學習方法可以分為生成方法(generative approach)和判別方法(discriminative approach)。所學到的模型分別叫生成模型和判別模型。
生成方法
定義
由數據學習聯合概率分布P(X,Y), 然后由P(Y|X)=求出概率分布P(Y|X)。該方法表示了給定輸入X產生輸出Y的生成關系。
典型模型
朴素貝葉斯方法、隱馬爾可夫模型
特點
生成方法可以還原出聯合概率分P(X,Y),而判別方法不能;生成方法的學習收斂速度更快,當樣本容量增加的時候,學到的模型可以更快的收斂於真實模型;當存在隱變量時,仍可以利用生成方法學習,此時判別方法不能用。
注釋
當我們找不到引起某一現象的原因的時候,我們就把這個在起作用,但是,無法確定的因素,叫“隱變量”
判別方法
定義
由數據直接學習決策函數Y=f(X)或條件概率分布P(Y|X)作為預測模型,即判別模型。判別方法關心的是對於給定的輸入X,應該預測什么樣的輸出Y。
典型模型
k近鄰法、感知機、決策樹、邏輯斯諦回歸模型、最大熵模型、支持向量機、提升方法、條件隨機場
特點
判別方法直接學習的是決策函數Y=f(X)或條件概率分布P(Y|X),直接面對預測,往往學習准確率更高;由於直接學習P(Y|X)或f(X),可以對數據進行各種程度上的抽象、定義特征並使用特征,因此可以簡化學習問題。