如何理解假設空間與版本空間?


轉載請注明出處:http://www.cnblogs.com/HongjianChen/p/8383816.html

以書上P4頁的表1.1為例:

我們有這樣一個訓練數據集:

這里假設空間是由形如 “(色澤= ?)^(根蒂=?)^(敲聲=?)” 的可能取值所形成的假設組成。

  • 這里“?”表示尚未確定的取值。
  • 我理解是特征屬性的所有可能取值組合成的假設集合就是假設空間。

假設空間由3部分組成:

  • ① 屬性(特征)色澤,根蒂,敲聲的取值分別有2,3,3種選擇
  • ② 色澤,根蒂,敲聲也許無論取什么值都合適,我們分別用通配符“ * ”來表示,於是取值分別有1,1,1種選擇
    例如:“ 好瓜<—>(色澤= *)^(根蒂=蜷縮)^(敲聲=濁響)”,即“好瓜是根蒂蜷縮、敲聲濁響的瓜,什么色澤都行”
  • ③ 還有一種極端情況,有可能“ 好瓜 ”這個概念根本就不成立,世界上壓根就沒有“好瓜”這種東西,我們用Ø表示這個假設。

所以,表1.1中,色澤有2中取值,根蒂有3中取值,敲聲有3中取值,再加上各自的“通配項”,以及極端情況“好瓜概念根本不成立”的Ø,故假設空間規模大小為:(2+1) * (3+1) * (3+1)+ 1 = 49。

表1.1的訓練數據集對應的假設空間具體內容如下:

1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 Ø
  • 1.我們可以把學習過程看作一個在假設(hypothesis)組成的空間中進行搜索的過程。搜索過程中可以不斷刪除與正例不一致的假設、和(或)與反例一致的假設。最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設,這就是我們學得的結果。
  • 2.現實問題中我們常面臨很大的假設空間,但學習過程是基於有限樣本訓練集進行的,因此有可能有多個假設與訓練集一致,即存在着一個與訓練集一致的“假設集合”,我們稱之為“版本空間(version space)”
    版本空間定義1
    版本空間(version space)是概念學習中與已知數據集一致的所有假設(hypothesis)的子集集合。

    對於二維空間中的“矩形”假設(上圖),綠色加號代表正類樣本,紅色小圈代表負類樣本。 GB 是最大泛化正假設邊界(maximally General positive hypothesis Boundary), SB 是最大精確正假設邊界(maximally Specific positive hypothesis Boundary). GB與SB所圍成的區域中的矩形即為版本空間中的假設,也即GB與SB圍成的區域就是版本空間。
    在一些需要對假設的泛化能力排序的情形下,就可以通過GB與SB這兩個上下界來表示版本空間。在學習的過程中,學習算法就可以只在GB、SB這兩個代表集合上操作。

我理解的是,以表1.1為例,負類樣本相當於在假設空間中,與表1.1與正例不一致的假設、和(或)與反例一致的假設(即與表1.1不吻合的假設)數據集,正類樣本即是表1.1中的數據集。版本空間是邊界GB和邊界SB之間圍成的區域。

按照上述過程進行學習:

(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49
(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除剩余假設空間中的2、10、16、31
(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)
可以刪除剩余假設空間中的1
(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)
剩余假設空間中無可刪除的假設

學習過后剩余的假設為:

4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響

這就是最后的“假設集合”,也就是“版本空間”。

參考資料:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM