監督學習是從標注數據中學習模型的機器學習問題,是統計學習或機器學習的重要組成部分。赫爾伯特·西蒙(Herbert A. Simon)曾對“學習”給出以下定義:“如果一個系統能夠通過執行某個過程改進它的性能,這就是學習。”按照這一觀點,統計學習就是計算機系統通過運用數據及統計方法提高系統性能的機器學習。統計學習的方法是基於數據構建概率統計模型從而對數據進行預測與分析,一般包括監督學習、無監督學習、強化學習。
1、監督學習
監督學習(supervised learning)是指從標注數據中學習預測模型的機器學習問題。標注數據表示輸入輸出的對應關系,預測模型對給定的輸入產生相應的輸出。監督學習的本質是學習輸入到輸出的映射統計規律。
(1) 輸入空間、特征空間與輸出空間
在監督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)。輸入與輸出空間可以是有限元素的集合,也可以是整個歐式空間。輸入空間與輸出空間可以是同一空間,也可以是不同的空間;但通常輸出空間遠遠小於輸入空間。
每個具體的輸入是一個實例(instance),通常由特征向量(feature vector)表示。這時,所有特征向量存在的空間稱為特征空間(feature space)。特征空間的每一維對應於一個特征。有時假設輸入空間與特征空間為相同的空間,對他們不予區分;有時假設輸入空間與特征空間為不同的空間,將實例從輸入空間映射到特征空間。模型實際上都是定義在特征空間上的。
在監督學習過程中,將輸入與輸出看作是定義在輸入空間與輸出空間上的隨機變量的取值。輸入、輸出變量用大寫字母表示,輸入變量寫作X,輸出變量寫作Y。輸入、輸出變量所取得值用小寫字母表示,輸入變量的取值寫作x,輸出變量的取值寫作y。變量可以是標量或者變量,輸出實例x的特征向量記作
x = (x(1),x(2),···,x(i),···,x(n))T
x(i)表示x的第i個特征。xi表示多個輸入變量中的第i個變量,即
xi = (xi(1),xi(1),···,xi(1))T
監督學習從訓練數據(training data)集合中學習模型,對測試數據(test data)進行預測。訓練數據由輸入與輸出對組成,訓練集通常表示為:
T = {(x1,y1),(x2,y2),···,(xN,yN)}
測試數據也由輸入與輸出對組成。輸入與輸出對又稱為樣本(sample)或樣本點。
(2)聯合概率分布
監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分布P(X,Y)。P(X,Y)表示分布函數,或分布密度函數。訓練數據與測試數據被看作是依聯合概率分布P(X,Y)獨立同分布產生的。統計學習假設數據存在一定的統計規律,X和Y具有聯合概率分布的假設就是監督學習關於數據的基本假設。
(3) 假設空間
監督學習的目的在於學習一個由輸入到輸出的映射,這一映射由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的映射的集合,這個集合就是假設空間(hypothesis space)。假設空間的確定意味着學習范圍的確定。
監督學習的模型可以是概率模型或非概率模型,由條件概率分布P(X|Y)或決策函數(decision function) Y=f(X)表示,隨具體學習方法而定。對具體的輸入進行相應的輸出預測時,寫作P(y|x)或y=f(x)。
(4)問題的形式化
監督學習利用訓練數據集學習一個模型,再用模型對測試樣本集進行預測(prediction)。由於在這個過程中需要訓練數據集,而訓練數據集往往是人工給出的,所以稱為監督學習。監督學習分為學習和預測兩個過程,由學習系統與預測系統完成,可用圖1.1來描述。
監督學習中,假設訓練數據與測試數據是依聯合概率分布P(X,Y)獨立分布產生的。
在學習過程中,學習系統利用給定的訓練數據集,通過學習(或訓練)得到一個模型,表示為條件概率分布$\widehat{P}(Y|X)$。條件概率分布$\widehat{P}(Y|X)$描述輸入與輸出隨機變量之間的映射關系。在預測過程中,預測系統對於給定的測試樣本集中的輸入xN+1,由模型$^y{_{N+1}}=\widehat{f}(x_{_{N+1}})$給出相應的輸出yn+1。
學習系統(也就是學習算法)試圖通過訓練數據集中的樣本(xi,yi)帶來的信息學習模型。具體得說,對輸入xi,一個具體的模型y=f(x)可以產生一個輸出f(xi),而訓練數據集中對應的輸出是yi,如果這個模型有很好的預測能力,訓練樣本輸出yi和模型輸出f(xi)之間的差就應該足夠小。學習系統通過不斷的嘗試,選取最好的模型,以便對訓練數據集有足夠好的預測,同時對未知的測試數據集的預測也有盡可能好的推廣。
2、無監督學習
無監督學習(unsupervised learning)是指從無標注數據中學習預測模型的機器學習問題。無標注數據是自然得到的數據,預測模型表示數據的類別、轉換或概率。無監督學習的本質是學習數據中的統計規律或潛在結構。
無監督學習旨在從假設空間中選出在給定評價標准下的最優模型。無監督學習通過使用大量的無標注數據學習或訓練,每一個樣本是一個實例。訓練數據表示為U = {x1,x2,···,xN},其中xi,i=1,2,···,N,是樣本。無監督學習可以用於對已有數據的分析,也可以用於對未來數據的預測,分別由學習系統與分析系統完成,如圖1.2所示。在學習過程中,學習系統從訓練數據集學習,得到一個最優模型,表示為函數$z=\widehat{g}(x)$,條件概率分布$\widehat{P}(z|x)$或者條件概率分布$\widehat{P}(x|z)$。在預測過程中,預測系統對於給定的輸入xN+1,由模型$z_{N+1}=\widehat{g}(x_{N+1})$給出相應的輸出zN+1,進行聚類或降緯,或者由模型$\widehat{P}(x|z)$給出輸入的概率$\widehat{P}(x_{N+1}|z_{N+1})$,進行概率估計。
3、強化學習
強化學習(reinforcement learning)是指智能系統在與環境的連續互動中學習最優行為策略的機器學習問題。假設智能系統與環境的互動基於馬爾科夫決策過程(Markov decision process),智能系統能觀測到的是與環境互動得到的數據序列。強化學習的本質是學習最優的序貫決策。
智能系統與環境的互動如圖1.3所示。在每一步t,智能系統從環境中觀測到一個狀態(state)st與一個獎勵(reward)rt,采取一個動作(action)at。環境根據職能系統選擇的動作,決定下一步t+1的狀態st+1與獎勵rt+1。要學習的策略表示為給定的狀態下采取的動作。智能系統的目標不是短期獎勵的最大化,而是長期積累獎勵的最大化。強化學習過程中,系統不斷試錯(trail and error),已達到學習最優策略的目的。
鳴謝
參考書籍:《統計學習方法(第2版)》 李航 著