【西瓜書】周志華《機器學習》學習筆記與習題探討(一)


【第1章 緒論】


1.1 引言


學習算法:機器學習所研究的主要內容,是關於在計算機上從數據中產生“模型”的算法,即“學習算法”。

學習算法的作用:1.基於提供的經驗數據產生模型

2.面對新情況時,模型可提供相應的判斷。

模型:泛指從數據中學得的結果。

學習器:學習算法在給定數據和參數空間上的實例化。

                        


1.2 基本術語


要進行機器學習,先要有數據。

數據集:一組記錄的集合。

示例/樣本/特征向量:每條記錄(關於一個事件或對象的描述)或空間中的每一個點(對應一個坐標向量)。

屬性/特征:反應事件或對象在某方面的表現或性質的事項。

屬性值:屬性上的取值。

屬性空間/樣本空間/輸入空間:屬性張成的空間。

維數:屬性的個數。

模型需要從數據中學得。

學習/訓練:從數據中學得模型的過程。

訓練數據:訓練過程中使用的數據。

訓練樣本:每個樣本。

訓練集:訓練樣本組成的集合。

假設:學習模型對應了關於數據的某種潛在的規律。

真相/真實:這種潛在規律自身。

學習過程就是為了找出或逼近真相。

獲得訓練樣本的結果信息,才能建立“預測”的模型。

標記:關於示例結果的信息。

樣例:擁有了標記信息的示例。

標記空間:所有標記的集合。

測試:學得模型后,使用其進行預測的過程。

測試樣本:被預測的樣本。

聚類:將訓練集中的訓練樣本分成若干組。

簇:每組稱為一個“簇”,這些自動形成的“簇”可能對應一些潛在的概念划分。

根據訓練數據是否擁有標記信息,學習任務可大致划分為兩類。   

機器學習的目標是使學得的模型能更好地適用於“新樣本”。

泛化:學得模型適用於新樣本的能力。


1.3 假設空間

 

學習過程看作一個在所有假設組成的空間中進行的搜索的過程,搜索目標是找到與訓練集“匹配”的假設。

假設空間:機器學習中可能的函數構成的空間稱為“假設空間”。

版本空間:一個與訓練集一致的“假設集合”。


1.4 歸納偏好


歸納偏好:機器學習算法在學習過程中對某種類型假設的偏好。

任何一個有效的機器學習算法必有其歸納偏好。

“奧卡姆剃刀”原則:“若有多個假設與觀察一致,則選最簡單的那個。”

注意:  奧卡姆剃刀並非唯一可行的原則;

奧克姆剃刀本身存在不同的詮釋。

“沒有免費的午餐”定理(NFL定理)總誤差與學習算法無關。

注意:  脫離具體問題,空泛的談論“什么學習算法更好”,毫無意義。


2
〖二、難點分析〗


P5 假設空間的規模問題

1. 某一屬性值無論取什么都合適,我們用通配符“*”來表示。

2. 世界上沒有,我們用“”來表示。

書中例子為西瓜,為判斷西瓜的好壞,其屬性有三種,即:色澤、根蒂、敲聲。

這三種屬性分別有3、3、3種可能取值,但假設空間的規模卻是4×4×4+1=65。

這是因為,在假設空間中,屬性的“無論取什么屬性值都合適”也是一種屬性值,而不是作為單一屬性的3種可能取值的集合存在。


因為假設空間是機器學習中可能的函數構成的空間,“無論取什么屬性值都合適”意味着這個函數與這一屬性無關。


例如,如果西瓜的三個屬性取值都是“無論取什么屬性值都合適”,那么無論什么瓜,都是好瓜。而不是3×3×3=27個種類的瓜的集合,並不需要依次判斷,需要的判斷僅僅是——它是瓜。


所以其假設空間為:

{青綠,烏黑,淺白,*}×{蜷縮,稍蜷,硬挺,*}×{濁響,清脆,沉悶,*}+1(沒有“好瓜”的定義)=65

3
〖三、習題探討〗


1.1 表1.1中若只包含編號為1和4的兩個樣例,試給出相應的版本空間。

解:  

                                    

如表1.1所示,好瓜和非好瓜的三個屬性的屬性值均不相同,故與訓練集一致的假設集合即版本空間如下圖所示:

   

圖1.1 版本空間

其取值則共有七種,其合取式為:

(色澤=青綠)∧(根蒂=  ∗  )∧(敲聲=  ∗  )

(色澤=  ∗  )∧(根蒂=蜷縮)∧(敲聲=  ∗  )

(色澤=  ∗  )∧(根蒂=  ∗  )∧(敲聲=濁響)

(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=  ∗  )

(色澤=青綠)∧(根蒂=  ∗  )∧(敲聲=濁響)

(色澤=  ∗  )∧(根蒂=蜷縮)∧(敲聲=濁響)

(色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=濁響)


1.2 與使用單個合取式來進行假設表示相比,使用“析合范式”將使得假設空間具有更強的表示能力。例如:

好瓜←→((色澤=*)∧(根蒂=蜷縮)∧(敲聲=*))∨((色澤=烏黑)∧(根蒂=*)∧(敲聲=沉悶))

會把“((色澤=青綠)∧(根蒂=蜷縮)∧(敲聲=清脆))”以及“((色澤=烏黑)∧(根蒂=硬挺)∧(敲聲=沉悶))”都分類為“好瓜”。


若使用最多包含k個合取式的析合范式來表達表1.1西瓜分類問題的假設空間,試估算共有多少種可能的假設。

解:

計算此題,先要計算假設空間的規模,之前筆者一直被P5 中三種屬性的3種屬性值迷惑,以為此表也應如此計算。


但實際上,此表的色澤屬性只有:1.青綠、2.烏黑 兩種屬性值,故其規模大小為: 3×4×4+1=49種。

k的最大值為49。


使用最多包含k個合取式的析合范式有如下多種可能:

p.s.很多博主都分別討論了是否存在冗余的兩種情況,筆者則認為冗余由於分析的步驟不同而不存在。


1.3 若數據包含噪聲,則假設空間中有可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇。

解:

歸納偏好:在訓練過程中選擇滿足最多樣本的假設。


1.4 本章1.4節在論述“沒有免費的午餐”定理時,默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量l,試證明沒有免費的午餐”定理仍成立。

解:

考慮二分類問題,NFL首先要保證真是目標函數f均勻分布,對於有X個樣本的二分類問題,顯然f共有2X種情況。其中一半是與假設一致的,也就 P(f(x)=h(x))=0.5。 此時, ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x))) l(h(x)=f(x))+l(h(x)≠f(x))應該是個常數,隱含的條件就該是(一個比較合理的充分條件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不滿足, NFL 應該就不成立了(或者不那么容易證明)。







免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM