1.1 表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間
假設空間:假設數據集有n種屬性,第i個屬性可能的取值有 種,加上該屬性的泛化取值(*),所以可能的假設有
。再用空集表示沒有正例,假設空間中一共
種假設。
版本空間:現實問題中常面臨很大的假設空間,我們可以尋找一個與訓練集一致的假設集合,稱之為版本空間。版本空間從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。
計算:版本空間的可以通過搜索假設空間來得到,這樣需要遍歷完整的假設空間。如果數據集中有正例,則可以先對一個正例進行最大泛化,得到2n個假設,然后再對這些假設進行剔除操作,可以適當精簡計算量。
根據書中圖1.2的做法,當只包含編號1和4的兩個樣例時,正例只有 色澤=青綠 根蒂=蜷縮 敲聲=濁響 ,以此正例進行最大泛化:
【色澤=青綠 ∧ 根蒂=蜷縮 ∧ 敲聲=濁響】
【色澤=* ∧ 根蒂=蜷縮 ∧ 敲聲=濁響】【色澤=青綠 ∧ 根蒂=* ∧ 敲聲=濁響】【色澤=青綠 ∧ 根蒂=蜷縮 ∧ 敲聲=*】
【色澤=* ∧ 根蒂=* ∧ 敲聲=濁響】【色澤=* ∧ 根蒂=蜷縮 ∧ 敲聲=】【色澤=青綠 ∧ 根蒂= ∧ 敲聲=*】
一般情況下版本空間時正例的泛化(不包含樣本正例,譬如書中圖1.2),但由於數據集中只有1個正例,所以在版本空間中依然包含了這個樣本的假設。
1.2 與使用單個合取式來進行假設表示相比,使用“析合范式”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合范式來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設
析取式:用析取真值連接詞“∨”將兩個或兩個以上的命題聯結而成的一種命題形式
合取式:用合取真值連接詞“∧”將兩個或兩個以上的命題聯結而成的一種命題形式
析合范式:多個合取式的析取
參考解答:http://blog.csdn.net/icefire_tyh/article/details/52065626
1.3 若數據包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇
“假設空間中可能不存在與所有訓練樣本都一致的假設”:我的理解是指特征屬性相同但標簽不同。
回答1:
1). 通常認為兩個數據的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個數據的屬性。
2). 也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。
回答2:
1). 定義一個閾值,只要訓練后滿足的樣本數量百分比達到這個閾值即可。
2). 在訓練過程中選擇滿足最多樣本的假設。
1.4 本章1.4節在論述“沒有免費的午餐”定理時,默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量l,試證明沒有免費的午餐”定理仍成立
NFL首先要保證真目標函數f均勻分布。對於X個訓練數據的二分類問題,顯然f共有種情況,其中一半是與假設一致的,也就是P(f(x) = h(x)) = 0.5.
因此,
其中應為常數,如果性能度量為錯誤率,二者各為0.5,則該值為1,如果為其他性能度量,根據網友的想法:
,應當隱含這樣的充分條件。
1.5 試述機器學習在互聯網搜索的哪些環節起什么作用
1). 廣告推薦,內容推薦
2). 網站排名
3). 以圖搜圖
......