1.1 統計學習
統計學習也稱統計機器學習
主要特點:
- 以計算機及網絡為平台,建立在計算機及網絡之上
- 以數據為研究對象,是數據驅動的學科
- 統計學習的目的是對數據進行預測和分析
- 統計學習以方法為中心,統計學習方法構建模型並應用模型進行預測和分析
- 統計學習是概率論、統計學、信息論、計算理論、最優化理論及計算機科學等多個領域的交叉學科
統計學習的對象是數據,從數據出發,提取數據特征,抽象出數據的模型,發現數據中的知識,又回到對數據的分析和預測中去。(數據包括各種數字、文字、圖像、視頻、音頻數據以及它們的組合)
統計學習關於數據的基本假設是同類數據具有一定的統計規律性(統計學習的前提)
目的:
用於對數據進行預測與分析,特別是對未知新數據進行預測與分析。對數據進行預測和分析是通過構建概率統計模型實現的。統計學習總的目的是考慮學習什么樣的模型和如何學習模型,以使模型能對數據進行准確的預測與分析,同時盡可能提高學習效率
方法:
統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成,這里主要討論監督學習
統計學習三要素:
模型(model)、策略(strategy)和算法(algorithm)
實現步驟:
- 得到一個有限的訓練數據集合
- 確定包含所有可能的模型的假設空間,即學習模型的集合
- 確定模型選擇的准則,即學習的策略
- 實現求解最優模型的算法,即學習的算法
- 通過學習方法選擇最優模型
- 利用學習的最優模型對新數據進行預測分析
1.2 監督學習
監督學習(supervised learning)的任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測
1.2.1 基本概念
1. 輸入空間、特征空間與輸出空間
在監督學習中,將輸入輸出所有可能取值的集合分別稱為輸入空間與輸出空間。輸入輸出空間可以是有限元素的集合,也可以是整個歐式空間;輸入空間和輸出空間可以是同一個空間,也可以是不同的空間,但通常輸出空間遠小於輸入空間。
每各具體的輸入是一個實例(instance),通常由特征向量表示。這時,所有特征向量存在的空間稱為特征空間。
輸入實例\(x\)的特征向量
訓練集通常表示為
測試數據也由相對應的輸入與輸出對組成,輸入與輸出對又稱為樣本(sample)或樣本點。
根據輸入輸出變量的不同類型,對預測任務給予不同的名稱:
- 回歸問題:輸入與輸出變量均為連續變量
- 分類問題:輸出變量為有限個離散變量
- 標注問題:輸入與輸出變量均為變量序列
2. 聯合概率分布
監督學習假設輸入與輸出的隨機變量\(X\)和\(Y\)遵循聯合概率分布\(P(X,Y)\),\(P(X,Y)\)表示分布函數或者分布密度函數
3.假設空間
由輸入空間到輸出空間的映射的集合稱為假設空間。假設空間的確定意味着學習范圍的確定。
監督學習的模型可以是概率模型或非概率模型,由條件概率分布\(P(Y|X)\)或決策函數(decision function)\(Y = f(x)\)表示。
1.2.2問題的形式化
監督學習分為學習和預測兩個過程,由學習系統與預測系統完成。
1.3 統計學習三要素
統計學習方法都是由模型、策略和算法構成的,即統計學習方法由三要素構成,可以簡單地表示為
1. 損失函數和風險函數
監督學習問題是在假設空間 \(\mathcal { F }\) 中選取模型 \(f\) 作為決策函數,對於給定的輸入 \(X\) ,由 \(f(X)\) 給出的相應的輸出 \(Y\) ,這個輸出的預測值 \(f(X)\) 與真實值 \(Y\) 可能一致也可能不一致,用一個損失函數(loss function)或代價函數(cost function)來度量預測錯誤的程度。損失函數是 \(f(X)\) 和 \(Y\) 的非負實值記錄,記作 \(L(Y,f(X))\) 。
統計學習常用的損失函數有以下幾種:
(1)0-1損失函數(0-1 loss function)
(2)平方損失函數(quadratic loss function)
(3)絕對損失函數(absolute loss function)
(4)對數損失函數(logarithmic loss function)或對數似然損失函數(loglikelihood loss function)
損失函數越小,模型就越好,由於模型的輸入、輸出 \((X,Y)\) 是隨機變量,遵循聯合分布 \(P(X,Y)\) ,所以損失函數的期望是
這是理論上模型 \(f(X)\) 關於聯合分布 \(P(X,Y)\) 的平均意義下的損失,稱為風險函數(risk function)或期望損失(expected loss)。
學習的目標就是選擇期望風險最小的模型。
由於聯合分布\(P(X,Y)\)是未知的,\(R_{exp}(f)\)不能直接計算。而實際上,如果知道聯合分布\(P(X,Y)\),可以直接求出條件概率分布\(P(Y|X)\),也就不需要學習了。這樣一來,一方面根據期望風險最小學習模型要用到聯合分布,另一方面聯合分布又是未知的,所以監督學習就成為一個病態的問題(ill-formed problem)。
設\(R_{emp}\)為\(f(X)\)關於訓練集的平均損失,稱為經驗風險(empirical risk)或經驗損失(empirical loss)。
期望風險是模型關於聯合分布的期望損失,經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量N趨於無窮時,經驗風險區域期望風險,所以我們會很自然的想到用經驗風險估計期望風險。由於現實訓練中樣本數量有限,這一方法常常不理想,需要對經驗風險進行一定的矯正,這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
2.經驗風險最小化與結構風險最小化
經驗風險最小化(empirical risk minimization, ERM)的策略認為,經驗風險最小的模型是最優的模型。根據這一策略,按照經驗風險最小化求最優模型就是求解最優化問題:
例子:
極大似然估計(maximum likelihood estimation)。當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計。
當樣本容量很小時,經驗風險最小化學習效果就未必很好,會產生過擬合(over-fitting)現象。
結構風險最小化(structural risk minimization,SRM)是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化(regularization)。結構風險在經驗風險上加上表示模型復雜度的正則化項(regularizer)或罰項(penalty term)。在假設空間、損失函數以及訓練數據集正確的情況下,結構風險的定義為:
其中\(J(f)\)為模型的復雜度,是定義在假設空間\(\mathcal{F}\)上的泛函。\(\lambda \geq 0\)是系數,用以權衡經驗風險和模型復雜度。
例子:
貝葉斯結構估計中的最大后驗概率估計(maximum posterior probability estimation,MAP)。當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示是,結構風險最小化就等價於最大后驗概率估計。
1.3.3 算法
算法是指學習模型的具體計算方法,用於求解最優化模型。
