PAC學習框架


PAC學習框架

 轉自:http://www.cnblogs.com/alphablox/p/5935826.html

PAC學習框架是機器學習的基礎。它主要用來回答以下幾個問題:

  1. 什么問題是可以高效學習的?
  2. 什么問題本質上就難以學習?
  3. 需要多少實例才能完成學習?
  4. 是否存在一個通用的學習模型?

PAC=probably approximately correct,很可能接近正確的

---------------------

什么問題能得到“可能接近正確”的結果呢?原文說的比較抽象,我把他翻譯下:

說一個問題是PAC可學習的,需要定義m個sample組成S空間,其中每個sample服從D分布,並且互相獨立;

如果存在一個算法A,在m(sample個數)有限的情況下,找到假設h;

使得對於任意兩個數x,y,概率P(h對S中sample預測錯誤次數大於x) < y;

xy對應image 中兩個奇怪的符號!注意上面說的是小於,截圖中說的是相反事件的大於。其實是一回事。

那么該問題是PAC可學習的。

----

舉個例子,在二維平面上去學習一個矩陣:

image

目標是找到R,R內部的點是藍色的,外部的點是紅色的。

為了證明上面的問題是PAC可學習的,我們需要找到一個算法A,並且證明只需要m個實例,就可以是的概率等式成立。

首先確定算法:

image

這個算法很簡單,就是所有藍色的點的最小矩形R。那么這個R能不能滿足上面的概率等式呢?假設給定x和y。如果錯誤個數大於x的概率小於y,需要什么條件呢?

不好回答,因此我們需要做一個轉換:

image

我們先沿着R的4條邊,向內部擴展,畫出4個小矩形:r1,2,3,4。每個r的概率x/4。

如果R’的錯誤個數大於x,那么R’必然與r1,2,3,4中的至少一個有交集。(否則錯誤個數必定小於x)

因此有不等式:

image

由於並集的概率小於各自概率的和:

image

由於S中的每個sample的獨立分布的,並且落在r1中的概率為x/4,所以

image

由於我們要求錯誤個數大於x的概率小於y,所以可以定義如下的不等式。

image

推導出m的下限。

這就說明只需要有限個實例就能滿足上面的概率不等式。

------------------------------------------------

這就說明了,上面這個平面圖形中學習矩形的問題是PAC可學習的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM