機器學習（二）概念學習

本文轉載自查看原文 2013-05-24 21:55 13533 機器學習

一.概念

概念學習：是指從有關某個布爾函數的輸入輸出訓練樣例中推斷出該布爾函數。

二.概念學習任務

任何概念學習任務能被描述為：實例的集合、實例集合上的目標函數、候選假設的集合以及訓練樣例的集合。

　　　　　　　　　　　　　　EnjoySport概念學習任務

已知：

　　實例集X：可能的日子，每個日子由下面的屬性描述：

　　　　sky:(可取值 sunny,Cloudy和Rainy)

　　　　AirTemp:(可取值為Warm和Cold)

　　　　Humidity:(可取值為Normal和High)

　　　　Wind:(可取值為：Strong和Weak)

　　　　Water：(可取值為Warm和Cold)

　　　　Forecast:(可取值為Same和Change)

　　假設集H：每個假設描述為6個屬性：Sky,AirTemp,Humidity,Wind,Water和Forecast的值約束的合取。約束可以為“？”（表示接受任意值），“ø”（表示拒絕所有值），或一特定值

　　目標概念C:EnjoySport: X->{0,1}

　　訓練樣例集D：目標函數的正例和反例

求解：

　　H中的一假設h，使對於X中任意x，h(x)=c(x)

1.術語定義

實例集（X）:概念定義的實例集合

目標概念（c）：待學習概念或函數

訓練樣例（D）:每個樣例為X中的一個實例x以及它的目標概念值c(x)。c(x)=1的實例被稱為正例（positive example），c(x)=0的實例為反例（negative example），經常用序偶<x,c(x)>來描述訓練樣例。

H表示所有可能假設的集合。H中每個假設H表示X上定義的布爾函數，即h:X->{0,1}。機器學習的目標就是尋找一個假設h，使對於X中的所有x，h(x)=c(x)。

歸納學習假設：任一假設如果在足夠大的訓練樣例集中很好地逼近目標函數，它也能在未見實例中很好地逼近目標函數。

三.作為搜索的概念學習

定義：令h_j和h_k為在X上定義的布爾函數。稱h_jmore_general_than_or_equal_to h_k（記做h_j≥_g h_k）_，當且僅當(∨x∈X)[(h_k(x)=1)->(h_j(x)=1)]

h_j more_specific_than h_k ，當h_k more_general_than h_j

四.FIND-S：尋找極大特殊假設

從H中最特殊假設開始，然后在該假設覆蓋正例失敗時將其一般化（當一假設能正確地划分一個正例時，稱該假設“覆蓋”該正例）。

FIND-S算法

　　　1. 將h初始化為H中最特殊假設

　　　2.對每個正例x

　　　　對h的每個屬性約束a_i

　　　　如果x滿足a_i

　　　　那么不做任何處理

　　　　否則將h中a_i替換為x滿足的下一個更一般的約束

　　 3. 輸出假設h

五.變換空間和候選消除算法（CANDIDATE-ELIMINATION）

FIND-S輸出的假設只是H中能夠擬合訓練樣例的多個假設中的一個。而在候選消除算法中，輸出的是與訓練樣例一致的所有假設的集合。

1.表示

定義：一個假設h與訓練樣例集合D一致，當且僅當對D中每一個樣例<x,c(x)>都有h(x)=c(x)。

　　　　　　　Consistent(h,D)≡(∨<x,c(x)>∈D) h(x)=c(x)

定義:關於假設空間H和訓練樣例集D的變型空間，標記為VS_H,D，是H中與訓練樣例D一致的所有假設構成的子集。

VS_H,D≡{h∈H|Consistent(h,D)}

2.列表后消除算法（LIST-THEN-ELIMINATE）

列表后消除算法

1.變型空間VersionSpace<-包含H中所有假設的列表

　　2.對每個訓練樣例<x,c(x)>

　　　　從變型空間中移除所有h(x)≠c(x)的假設h

3. 輸出VersionSpace中個假設列表

3.變型空間的更簡潔表示

定義：關於假設空間H和訓練數據D的一般邊界（general boundary）G，是在H中與D相一致的極大一般（maximally general）成員的集合。

定義：關於假設空間H和訓練數據D的特殊邊界（specific boundary）S，是在H中與D相一致的極大特殊（maximally specific）成員的集合。

變型空間的確切組成是：G中包含的假設，S中包含的假設已經G和S直接偏序結果所規定的假設。

定理2.1：變型空間表示定理令X為任意的實例集合，H為X上定義的布爾假設的集合。另c:X->{0,1}為X上定義的任一個目標概念，並令D為任一訓練樣例的集合{<x,c(x)>}。對所有的X,H,c,D以及良好定義的S和G:

4.候選消除學習算法

　　　　使用變型空間的候選消除算法

將G集合初始化為H中極大一般假設

將S集合初始化為H中極大特殊假設

對每個訓練例d，進行以下操作：

如果d是一正例

　　　　• 從G中移去所有與d不一致的假設

　　　　 • 對S中每個與d不一致的假設s

　　　　 •從S中移去s

　　　　• 把s的所有的極小一般化式h加入到S中，其中h滿足

　　　　 •h與d一致，而且G的某個成員比h更一般

　　　　 • 從S中移去所有這樣的假設：它比S中另一假設更一般

如果d是一個反例

　　　　• 從S中移去所有d不一致的假設

　　　　 • 對G中每個與d不一致的假設g

　　　　 •從G中移去g

　　　　 •把g的所有的極小特殊化式h加入到G中，其中h滿足

　　　　　　 •h與d一致，而且S的某個成員比h更特殊

　　　　 •從G中移去所有這樣的假設：它比G中另一假設更特殊

5.算法舉例

候選消除算法步驟（EnjoySport）

訓練樣例：

1.<Sunny,Warm,Normal,Strong,Warm,Same>,EnjoySport=Yes

2.<Sunny,Warm,High,Strong,Warm,Same>,EnjoySport=Yes

S0和G0為最初的邊界集合，分別對應最特殊和最一般假設。訓練樣例1和2使得S邊界變得更一般，如FIND-S算法中一樣，這些樣例對G邊界沒有影響。

訓練樣例:

3.<Rainy,Cold,High,Strong,Warm,Change>,EnjoySport=No

樣例3是一個反例，他把G₂邊界特殊化為G₃。注意在G₃中有多個可選的極大一般假設。

訓練樣例：

4.<Sunny,Warm,High,Storage,Cool,Change>,EnjoySport=Yes

正例是S邊界更一般，從S₃變為S₄。G₃的一個成員也必須被刪除，因為它不再比S₄更一般。

EnjoySprot概念學習問題中的最終的變型空間

六.歸納偏置

1.無偏的學習器

冪集（power set）把集合X的所有子集的集合稱為冪集。

新的假設空間H’，它能表示實例的每一個子集，也就是把H’對應到X的冪集。

<Sunny,?,?,?,?,?>∨<Cloudy,?,?,?,?,?>

2.無偏學習的無用性

學習器如果不對目標概念的形式做預先的假定，它從根本上無法對未見實例進行分類。

一般情況下任意的學習算法L以及為任意目標概念提供的任意訓練數據D_c={<x,c(x)>}。訓練過程結束后，L需要對新的實例x_i進行分類。令L(x_i,D_C)表示在對訓練數據D_c學習后L賦予x_i的分類（正例或反例），我們可以如下描述L所進行的這一歸納推理過程：

y表示z從y歸納推理得到。

定義：考慮對於實例集合X的概念學習算法L。令c為X上定義的任一概念，並令Dc={<x,c(x)>}為c的任意訓練樣例集合。令L(x_i,D_c)表示經過數據D_c的訓練后L賦予實例x_i的分類。L的歸納偏置是最小斷言集合B，它使任意目標概念c和相應的訓練樣例Dc滿足：

候選消除算法的歸納偏置：目標概念c包含在給定的假設空間H中。

使用假設空間H的候選消除算的輸入輸出行為，等價於利用了斷言“H包含目標概念”的演繹定理證明器。該斷言因此被稱為候選消除算法的歸納偏置。用歸納偏置來刻畫歸納系統，可以便於使用等價的演繹系統來模擬它們。這提供了一種對歸納系統進行比較的方法，即通過它們從訓練數據中泛化的策略。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 OutputCache概念學習機器學習基本概念機器學習基本概念機器學習的基本概念 Kettle基本概念學習雲平台概念學習概念學習和歸納偏置機器學習之概念漂移-concept drift 機器學習導圖系列（2）：概念機器學習入門之一：基本概念