一.概念
概念學習:是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數。
二.概念學習任務
任何概念學習任務能被描述為:實例的集合、實例集合上的目標函數、候選假設的集合以及訓練樣例的集合。
EnjoySport概念學習任務
已知:
實例集X:可能的日子,每個日子由下面的屬性描述:
sky:(可取值 sunny,Cloudy和Rainy)
AirTemp:(可取值為Warm和Cold)
Humidity:(可取值為Normal和High)
Wind:(可取值為:Strong和Weak)
Water:(可取值為Warm和Cold)
Forecast:(可取值為Same和Change)
假設集H:每個假設描述為6個屬性:Sky,AirTemp,Humidity,Wind,Water和Forecast的值約束的合取。約束可以為“?”(表示接受任意值),“ø”(表示拒絕所有值),或一特定值
目標概念C:EnjoySport: X->{0,1}
訓練樣例集D:目標函數的正例和反例
求解:
H中的一假設h,使對於X中任意x,h(x)=c(x)
1.術語定義
實例集(X):概念定義的實例集合
目標概念(c):待學習概念或函數
訓練樣例(D):每個樣例為X中的一個實例x以及它的目標概念值c(x)。c(x)=1的實例被稱為正例(positive example),c(x)=0的實例為反例(negative example),經常用序偶<x,c(x)>來描述訓練樣例。
H表示所有可能假設的集合。H中每個假設H表示X上定義的布爾函數,即h:X->{0,1}。機器學習的目標就是尋找一個假設h,使對於X中的所有x,h(x)=c(x)。
歸納學習假設:任一假設如果在足夠大的訓練樣例集中很好地逼近目標函數,它也能在未見實例中很好地逼近目標函數。
三.作為搜索的概念學習
定義:令hj和hk為在X上定義的布爾函數。稱hj more_general_than_or_equal_to hk(記做hj≥g hk),當且僅當(∨x∈X)[(hk(x)=1)->(hj(x)=1)]
hj more_specific_than hk ,當hk more_general_than hj
四.FIND-S:尋找極大特殊假設
從H中最特殊假設開始,然后在該假設覆蓋正例失敗時將其一般化(當一假設能正確地划分一個正例時,稱該假設“覆蓋”該正例)。
FIND-S算法
1. 將h初始化為H中最特殊假設
2.對每個正例x
對h的每個屬性約束ai
如果x滿足ai
那么不做任何處理
否則將h中ai替換為x滿足的下一個更一般的約束
3. 輸出假設h
五.變換空間和候選消除算法(CANDIDATE-ELIMINATION)
FIND-S輸出的假設只是H中能夠擬合訓練樣例的多個假設中的一個。而在候選消除算法中,輸出的是與訓練樣例一致的所有假設的集合。
1.表示
定義:一個假設h與訓練樣例集合D一致,當且僅當對D中每一個樣例<x,c(x)>都有h(x)=c(x)。
Consistent(h,D)≡(∨<x,c(x)>∈D) h(x)=c(x)
定義:關於假設空間H和訓練樣例集D的變型空間,標記為VSH,D,是H中與訓練樣例D一致的所有假設構成的子集。
VSH,D≡{h∈H|Consistent(h,D)}
2.列表后消除算法(LIST-THEN-ELIMINATE)
列表后消除算法
1.變型空間VersionSpace<-包含H中所有假設的列表
2.對每個訓練樣例<x,c(x)>
從變型空間中移除所有h(x)≠c(x)的假設h
3. 輸出VersionSpace中個假設列表
3.變型空間的更簡潔表示
定義:關於假設空間H和訓練數據D的一般邊界(general boundary)G,是在H中與D相一致的極大一般(maximally general)成員的集合。

定義:關於假設空間H和訓練數據D的特殊邊界(specific boundary)S,是在H中與D相一致的極大特殊(maximally specific)成員的集合。
變型空間的確切組成是:G中包含的假設,S中包含的假設已經G和S直接偏序結果所規定的假設。
定理2.1:變型空間表示定理 令X為任意的實例集合,H為X上定義的布爾假設的集合。另c:X->{0,1}為X上定義的任一個目標概念,並令D為任一訓練樣例的集合{<x,c(x)>}。對所有的X,H,c,D以及良好定義的S和G:
4.候選消除學習算法
使用變型空間的候選消除算法
將G集合初始化為H中極大一般假設
將S集合初始化為H中極大特殊假設
對每個訓練例d,進行以下操作:
- 如果d是一正例
• 從G中移去所有與d不一致的假設
• 對S中每個與d不一致的假設s
•從S中移去s
• 把s的所有的極小一般化式h加入到S中,其中h滿足
•h與d一致,而且G的某個成員比h更一般
• 從S中移去所有這樣的假設:它比S中另一假設更一般
- 如果d是一個反例
• 從S中移去所有d不一致的假設
• 對G中每個與d不一致的假設g
•從G中移去g
•把g的所有的極小特殊化式h加入到G中,其中h滿足
•h與d一致,而且S的某個成員比h更特殊
•從G中移去所有這樣的假設:它比G中另一假設更特殊
5.算法舉例
候選消除算法步驟(EnjoySport)
訓練樣例:
1.<Sunny,Warm,Normal,Strong,Warm,Same>,EnjoySport=Yes
2.<Sunny,Warm,High,Strong,Warm,Same>,EnjoySport=Yes
S0和G0為最初的邊界集合,分別對應最特殊和最一般假設。訓練樣例1和2使得S邊界變得更一般,如FIND-S算法中一樣,這些樣例對G邊界沒有影響。
訓練樣例:
3.<Rainy,Cold,High,Strong,Warm,Change>,EnjoySport=No
樣例3是一個反例,他把G2邊界特殊化為G3。注意在G3中有多個可選的極大一般假設。
訓練樣例:
4.<Sunny,Warm,High,Storage,Cool,Change>,EnjoySport=Yes
正例是S邊界更一般,從S3變為S4。G3的一個成員也必須被刪除,因為它不再比S4更一般。
EnjoySprot概念學習問題中的最終的變型空間
六.歸納偏置
1.無偏的學習器
冪集(power set)把集合X的所有子集的集合稱為冪集。
新的假設空間H’,它能表示實例的每一個子集,也就是把H’對應到X的冪集。
<Sunny,?,?,?,?,?>∨<Cloudy,?,?,?,?,?>
2.無偏學習的無用性
學習器如果不對目標概念的形式做預先的假定,它從根本上無法對未見實例進行分類。
一般情況下任意的學習算法L以及為任意目標概念提供的任意訓練數據Dc={<x,c(x)>}。訓練過程結束后,L需要對新的實例xi進行分類。令L(xi,DC)表示在對訓練數據Dc學習后L賦予xi的分類(正例或反例),我們可以如下描述L所進行的這一歸納推理過程:
y表示z從y歸納推理得到。
定義:考慮對於實例集合X的概念學習算法L。令c為X上定義的任一概念,並令Dc={<x,c(x)>}為c的任意訓練樣例集合。令L(xi,Dc)表示經過數據Dc的訓練后L賦予實例xi的分類。L的歸納偏置是最小斷言集合B,它使任意目標概念c和相應的訓練樣例Dc滿足:
候選消除算法的歸納偏置:目標概念c包含在給定的假設空間H中。
使用假設空間H的候選消除算的輸入輸出行為,等價於利用了斷言“H包含目標概念”的演繹定理證明器。該斷言因此被稱為候選消除算法的歸納偏置。用歸納偏置來刻畫歸納系統,可以便於使用等價的演繹系統來模擬它們。這提供了一種對歸納系統進行比較的方法,即通過它們從訓練數據中泛化的策略。