統計學習包括監督學習、非監督學習、半監督學習及強化學習。監督學習(supervised learning)的任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測(注意,這里的輸入、輸出是指某個系統的輸入與輸出,與學習的輸入與輸出不同)。計算機的基本操作就是給定一個輸入產生一個輸出,所以監督學習是極其重要的統計學習分支,也是統計學習中內容最豐富、應用最廣泛的部分。
1.輸入空間、特征空間與輸出空間
在監督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)。輸入與輸出空間可以是有限元素的集合,也可以是整個歐氏空間。輸入空間與輸出空間可以是同一個空間,也可以是不同的空間,但通常輸出空間遠遠小於輸入空間。 每個具體的輸入是一個實例(instance),通常由特征向量(feature vector)表示。這時,所有特征向量存在的空間稱為特征空間(feature space)。特征空間的每一維對應於一個特征。有時假設輸入空間與特征空間為相同的空間,對它們不予區分;有時假設輸入空間與特征空間為不同的空間,將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。 在監督學習過程中,將輸入與輸出看作是定義在輸入(特征)空間與輸出空間上的隨機變量的取值。輸入、輸出變量用大寫字母表示,習慣上輸入變量寫作X,輸出變量寫作Y。輸入、輸出變量所取的值用小寫字母表示,輸入變量的取值寫作x,輸出變量的取值寫作y。變量可以是標量或向量,都用相同類型字母表示。
監督學習從訓練數據(training data)集合中學習模型,對測試數據(test data)進行預測。訓練數據由輸入(或特征向量)與輸出對組成,測試數據也由相應的輸入與輸出對組成。輸入與輸出對又稱為樣本(sample)或樣本點。 輸入變量X和輸出變量Y有不同的類型,可以是連續的,也可以是離散的。人們根據輸入、輸出變量的不同類型,對預測任務給予不同的名稱:
1.1 輸入變量與輸出變量均為連續變量的預測問題稱為回歸問題;
1.2 輸出變量為有限個離散變量的預測問題稱為分類問題;
1.3 輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。
2.聯合概率分布
監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分布P(X,Y)。P(X,Y)表示分布函數,或分布密度函數。注意,在學習過程中,假定這一聯合概率分布存在,但對學習系統來說,聯合概率分布的具體定義是未知的。訓練數據與測試數據被看作是依聯合概率分布P(X,Y)獨立同分布產生的。統計學習假設數據存在一定的統計規律,X和Y具有聯合概率分布的假設就是監督學習關於數據的基本假設。
3.假設空間
監督學習的目的在於學習一個由輸入到輸出的映射,這一映射由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的映射的集合,這個集合就是假設空間(hypothesis space)。假設空間的確定意味着學習范圍的確定。 監督學習的模型可以是概率模型或非概率模型,由條件概率分布P(Y|X)或決策函數(decision function)Y=f(X)表示,隨具體學習方法而定。對具體的輸入進行相應的輸出預測時,寫作P(y|x)或Y=f(x)。
4.問題的一般化
監督學習利用訓練數據集學習一個模型,再用模型對測試樣本集進行預測(prediction)。由於在這個過程中需要訓練數據集,而訓練數據集往往是人工給出的,所以稱為監督學習。監督學習分為學習和預測兩個過程,由學習系統與預測系統完成。首先給定一個訓練數據集 其中(xi,yi),i=1,2,…,N,稱為樣本或樣本點。xi∊x⊆Rn是輸入的觀測值,也稱為輸入或實例,yi∊Y是輸出的觀測值,也稱為輸出。 監督學習中,假設訓練數據與測試數據是依聯合概率分布P(X,Y)獨立同分布產生的。在學習過程中,學習系統利用給定的訓練數據集,通過學習(或訓練)得到一個模型,表示為條件概率分布P(Y|X)或決策函數Y=F(X)。條件概率分布P(Y|X)或決策函數Y=F(X)描述輸入與輸出隨機變量之間的映射關系。學習系統(也就是學習算法)試圖通過訓練數據集中的樣本(xi,yi)帶來的信息學習模型。具體地說,對輸入xi,一個具體的模型y=f(x)可以產生一個輸出f(xi),而訓練數據集中對應的輸出是yi,如果這個模型有很好的預測能力,訓練樣本輸出yi和模型輸出f(xi)之間的差就應該足夠小。學習系統通過不斷的嘗試,選取最好的模型,以便對訓練數據集有足夠好的預測,同時對未知的測試數據集的預測也有盡可能好的推廣。在預測過程中,預測系統對於給定的測試樣本集中的輸入,由模型給出相應的輸出。