統計學習
統計學習是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測與分析的一門學科。統計學習也稱為統計機器學習(statical machine learning)。
統計學習的方法是基於數據構建統計模型從而對數據進行預測和分析。統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。
統計學習方法包括假設空間、模型選擇的准則、模型學習的算法,這些統稱為統計學習方法的三要素:模型(Model)、策略(Strategy)、算法(Algorithm)。
實現統計學習方法的步驟如下:
- 得到有限的訓練數據集合
- 確定包含所有可能的模型的假設空間,即學習模型的集合
- 確定模型選擇的准則(什么是最優模型的標准),即學習的策略
- 實現求解最優模型的算法(如何獲取最優模型),即學習的算法
- 通過學習方法選擇最優模型
- 利用學習到的最優模型對新數據進行預測和分析
監督學習
監督學習是學習一個模型,使模型能夠對任意的輸入,對其相應的輸出做出一個好的預測。
基本概念
訓練數據(training data):一個給定的、有限的、用於學習的數據。
輸入空間(input space):輸入的可能取值的集合;
特征空間(feature space):每個具體的輸入是一個實例,通常由特征向量表示。特征向量存在的空間稱為特征空間。(有時輸入空間和特征空間為相同空間,有時則不同,則需將實例從輸入空間映射到特征空間),模型是定義在特征空間的。

輸出空間(output space):輸出的可能取值的集合;
訓練集:輸入(或特征向量)與輸出對組成。

輸入與輸出對又稱為樣本。
聯合概率分布:監督學習假設輸入和輸出的隨機變量X和Y遵循聯合概率分布P(X,Y),P(X,Y)表示分布函數或分布密度函數。 訓練數據和測試數據是依據P(X,Y)獨立同分布產生的。X 和 Y 具有聯合分布的假設是監督學習關於數據的基本假設。
假設空間(hypothesis space):模型屬於輸入空間到輸出空間的映射的集合,這個集合就是假設空間。模型可以是概率模型也可以使非概率模型。由P(Y|X)或決策函數 Y = f(X)表示。具體的用小寫字母表示。
(PS.輸入、輸出變量用大寫字母表示,輸入輸出變量所取得的值用小寫字母表示。)
問題形式化
監督學習分為學習和預測兩個過程,由學習系統與預測系統組成,如下圖:

統計學習三要素
模型
在監督學習過程中,模型就是索要學習的條件概率或者決策函數。模型的假設空間(hypothesis space)包含所有可能的太哦見概率或決策函數。假設空間用F表示

策略
有了模型的假設空間之后,需要考慮用什么樣的准則來學習或者選擇最優的模型。
統計學習常用的損失函數有:


算法
算法是指學習模型中的具體計算方法。
模型評估與模型選擇
訓練誤差與測試誤差
訓練誤差是模型Y=f(x)關於訓練數據集的平均損失:

過擬合與模型選擇

下圖描述了訓練誤差和測試誤差與模型的復雜度之間的關系:

當模型的復雜度增大時,訓練誤差會逐漸減小並趨向於0,而測試誤差會先減少,達到最小值后又增大。模型選擇的典型方法是正則化與交叉驗證。
正則化與交叉驗證
正則化
模型選擇的典型方法是正則化,正則化的一般形式如下:

其中,第一項是經驗風險,第二項是正則化項,正則化項可以取不同的形式,例如,正則化項可以是模型參數向量的范數。回歸問題中,損失函數是平方損失,正則化項可以是參數向量的L2范數:

交叉驗證
給定樣本充足情況下,進行模型選擇的簡單方法是隨機將數據分為三部分:訓練集、驗證集、測試集,訓練集用來訓練模型,驗證集用於模型的選擇,測試集用於最終對學習方法的評估。
當數據不充足的情況下, 模型選擇的另一種方法是交叉驗證。基本思想是重復使用數據。常見的有簡單交叉驗證、S折交叉驗證和留一交叉驗證。
- 簡單交叉驗證:將數據分為兩部分,一部分為訓練集、另一部分為測試集(如 70% 為訓練集, 30% 為測試集);然后用訓練集在各種條件下訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
- S折交叉驗證:將數據隨機分為S個互不相交的大小相同的子集,然后利用S-1 個子集作為訓練集,剩下1個作為測試集來訓練和測試模型;將這個過程對S種可能重復進行,選擇S次測評中測試誤差最小的模型。
- 留一交叉驗證:S=N的S折交叉驗證(N 為給定數據集的容量),往往在數據缺乏情況下使用。
泛化能力
泛化誤差
學習方法的泛化能力(generalization ability)指該方法學習到的模型對未知數據的預測能力。往往采用通過測試誤差來評價學習方法的泛化能力,問題是過於依賴測試集,並且測試集是有限的,不是很可靠,所以定義泛化誤差來表示泛化能力。
泛化誤差(generalization error),即模型的期望風險

泛化誤差上界
學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的,簡稱為泛化誤差上界(generalization error bound)。通過比較兩種學習方法的泛化誤差上界的大小來比較它們的優劣。
泛化誤差上界的性質:
- 樣本容量增加,泛化上界趨於0;
- 假設空間容量越大,模型越難學,泛化誤差上界也越大。

生成模型與判別模型
監督學習方法可以分為生成方法(generative approach)和判別方法(discriminative approach)。對應的模型的即為生成模型和判別模型。
生成模型是指由數據學習聯合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預測模型,如:朴素貝葉斯和隱馬爾可夫模型等。優點是可以得到聯合概率分布,收斂速度更快,當存在隱變量時,仍可以使用。
判別模型是指由數據直接學習決策函數f(X)或條件概率分布P(Y|X)作為預測模型,如:KNN,感知機,決策樹,邏輯回歸,支持向量等。優點是學習准確率比較高,便於對數據進行抽象,可以簡化學習問題。
判別模型與生成模型的最重要的不同是,訓練時的目標不同,判別模型主要優化條件概率分布,使得x,y更加對應,在分類中就是更可分。而生成模型主要是優化訓練數據的聯合分布概率。而同時,生成模型可以通過貝葉斯得到判別模型,但判別模型無法得到生成模型。
分類問題、標注問題、回歸問題
輸入變量和輸出變量均為連續變量的預測問題稱為回歸問題,如函數擬合;輸出變量為有限個離散變量的預測問題稱為分類問題,學習出的分類模型或分類決策函數稱為分類器(classifier);輸入變量與輸出變量均為變量序列的預測問題稱為標注問題,如詞性標注,輸入詞序列,輸出是(詞,詞性)的標記序列。
對於二分類問題,常用的評價指標是精確率和召回率。通常以關注的類為正類,其他類為負類,分類器在測試數據集上的預測或正確或不正確,4中情況出現的總數分別記為:
- TP——將正類預測為正類數;
- FN——將正類預測為負類數;
- FP——將負類預測為正類數;
- TN——將負類預測為負類數。
則,精確率定義為:
