機器學習(二)概念學習


一.概念

概念學習:是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數。

二.概念學習任務

任何概念學習任務能被描述為:實例的集合、實例集合上的目標函數、候選假設的集合以及訓練樣例的集合。

              EnjoySport概念學習任務

已知:

  實例集X:可能的日子,每個日子由下面的屬性描述:

    sky:(可取值 sunny,Cloudy和Rainy)

    AirTemp:(可取值為Warm和Cold)

    Humidity:(可取值為Normal和High)

    Wind:(可取值為:Strong和Weak)

    Water:(可取值為Warm和Cold)

    Forecast:(可取值為Same和Change)

  假設集H:每個假設描述為6個屬性:Sky,AirTemp,Humidity,Wind,Water和Forecast的值約束的合取。約束可以為“?”(表示接受任意值),“ø”(表示拒絕所有值),或一特定值

  目標概念C:EnjoySport: X->{0,1}

  訓練樣例集D:目標函數的正例和反例

求解:

  H中的一假設h,使對於X中任意x,h(x)=c(x)

 1.術語定義

實例集(X):概念定義的實例集合

目標概念(c):待學習概念或函數

訓練樣例(D):每個樣例為X中的一個實例x以及它的目標概念值c(x)。c(x)=1的實例被稱為正例(positive example),c(x)=0的實例為反例(negative example),經常用序偶<x,c(x)>來描述訓練樣例。

H表示所有可能假設的集合。H中每個假設H表示X上定義的布爾函數,即h:X->{0,1}。機器學習的目標就是尋找一個假設h,使對於X中的所有x,h(x)=c(x)。

歸納學習假設:任一假設如果在足夠大的訓練樣例集中很好地逼近目標函數,它也能在未見實例中很好地逼近目標函數。

 三.作為搜索的概念學習

定義:令hj和hk為在X上定義的布爾函數。稱hj more_general_than_or_equal_to hk(記做hjg hk當且僅當(∨x∈X)[(hk(x)=1)->(hj(x)=1)]

hj more_specific_than hk ,當hk more_general_than hj

四.FIND-S:尋找極大特殊假設

從H中最特殊假設開始,然后在該假設覆蓋正例失敗時將其一般化(當一假設能正確地划分一個正例時,稱該假設“覆蓋”該正例)。

                            FIND-S算法

   1. 將h初始化為H中最特殊假設

   2.對每個正例x

    對h的每個屬性約束ai

    如果x滿足ai

    那么不做任何處理

    否則將h中ai替換為x滿足的下一個更一般的約束

     3. 輸出假設h

五.變換空間和候選消除算法(CANDIDATE-ELIMINATION)

FIND-S輸出的假設只是H中能夠擬合訓練樣例的多個假設中的一個。而在候選消除算法中,輸出的是與訓練樣例一致的所有假設的集合。

1.表示

定義:一個假設h與訓練樣例集合D一致,當且僅當對D中每一個樣例<x,c(x)>都有h(x)=c(x)。

       Consistent(h,D)≡(∨<x,c(x)>∈D) h(x)=c(x)

定義:關於假設空間H和訓練樣例集D的變型空間,標記為VSH,D,是H中與訓練樣例D一致的所有假設構成的子集。

                     VSH,D≡{h∈H|Consistent(h,D)}

2.列表后消除算法(LIST-THEN-ELIMINATE)

                     列表后消除算法

      1.變型空間VersionSpace<-包含H中所有假設的列表

  2.對每個訓練樣例<x,c(x)>

    從變型空間中移除所有h(x)≠c(x)的假設h

      3. 輸出VersionSpace中個假設列表

3.變型空間的更簡潔表示

 

定義:關於假設空間H和訓練數據D的一般邊界(general boundary)G,是在H中與D相一致的極大一般(maximally general)成員的集合。

 

                     

定義:關於假設空間H和訓練數據D的特殊邊界(specific  boundaryS,是在H中與D相一致的極大特殊(maximally specific)成員的集合。

       

變型空間的確切組成是:G中包含的假設,S中包含的假設已經G和S直接偏序結果所規定的假設。

定理2.1:變型空間表示定理 令X為任意的實例集合,H為X上定義的布爾假設的集合。另c:X->{0,1}為X上定義的任一個目標概念,並令D為任一訓練樣例的集合{<x,c(x)>}。對所有的X,H,c,D以及良好定義的S和G:

       

4.候選消除學習算法

 

    使用變型空間的候選消除算法

 

將G集合初始化為H中極大一般假設

 

將S集合初始化為H中極大特殊假設

 

對每個訓練例d,進行以下操作:

 

  • 如果d是一正例

 

      • 從G中移去所有與d不一致的假設

 

      • 對S中每個與d不一致的假設s

 

             •從S中移去s

 

      • 把s的所有的極小一般化式h加入到S中,其中h滿足

 

             •h與d一致,而且G的某個成員比h更一般

 

      • 從S中移去所有這樣的假設:它比S中另一假設更一般

 

  • 如果d是一個反例

 

      • 從S中移去所有d不一致的假設

 

      • 對G中每個與d不一致的假設g

 

             •從G中移去g

 

             •把g的所有的極小特殊化式h加入到G中,其中h滿足

 

                   •h與d一致,而且S的某個成員比h更特殊

 

             •從G中移去所有這樣的假設:它比G中另一假設更特殊

 

5.算法舉例

候選消除算法步驟(EnjoySport

 

訓練樣例:

1.<Sunny,Warm,Normal,Strong,Warm,Same>,EnjoySport=Yes

2.<Sunny,Warm,High,Strong,Warm,Same>,EnjoySport=Yes

S0和G0為最初的邊界集合,分別對應最特殊和最一般假設。訓練樣例1和2使得S邊界變得更一般,如FIND-S算法中一樣,這些樣例對G邊界沒有影響。

訓練樣例:

3.<Rainy,Cold,High,Strong,Warm,Change>,EnjoySport=No

樣例3是一個反例,他把G2邊界特殊化為G3。注意在G3中有多個可選的極大一般假設。

 

訓練樣例:

4.<Sunny,Warm,High,Storage,Cool,Change>,EnjoySport=Yes

正例是S邊界更一般,從S3變為S4。G3的一個成員也必須被刪除,因為它不再比S4更一般。

 

EnjoySprot概念學習問題中的最終的變型空間

 

六.歸納偏置

1.無偏的學習器

冪集(power set)把集合X的所有子集的集合稱為冪集。

新的假設空間H’,它能表示實例的每一個子集,也就是把H’對應到X的冪集。

<Sunny,?,?,?,?,?>∨<Cloudy,?,?,?,?,?>

2.無偏學習的無用性

學習器如果不對目標概念的形式做預先的假定,它從根本上無法對未見實例進行分類。

一般情況下任意的學習算法L以及為任意目標概念提供的任意訓練數據Dc={<x,c(x)>}。訓練過程結束后,L需要對新的實例xi進行分類。令L(xi,DC)表示在對訓練數據Dc學習后L賦予xi的分類(正例或反例),我們可以如下描述L所進行的這一歸納推理過程:

y表示z從y歸納推理得到。

定義:考慮對於實例集合X的概念學習算法L。令c為X上定義的任一概念,並令Dc={<x,c(x)>}為c的任意訓練樣例集合。令L(xi,Dc)表示經過數據Dc的訓練后L賦予實例xi的分類。L的歸納偏置是最小斷言集合B,它使任意目標概念c和相應的訓練樣例Dc滿足:

 

候選消除算法的歸納偏置:目標概念c包含在給定的假設空間H中。

 

使用假設空間H的候選消除算的輸入輸出行為,等價於利用了斷言“H包含目標概念”的演繹定理證明器。該斷言因此被稱為候選消除算法的歸納偏置。用歸納偏置來刻畫歸納系統,可以便於使用等價的演繹系統來模擬它們。這提供了一種對歸納系統進行比較的方法,即通過它們從訓練數據中泛化的策略。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM