統計學習方法筆記——一、統計學習（機器學習）基礎知識（上）

本文轉載自查看原文 2019-02-25 20:24 798 機器學習

1.1 統計學習

統計學習也稱統計機器學習

主要特點：

以計算機及網絡為平台，建立在計算機及網絡之上
以數據為研究對象，是數據驅動的學科
統計學習的目的是對數據進行預測和分析
統計學習以方法為中心，統計學習方法構建模型並應用模型進行預測和分析
統計學習是概率論、統計學、信息論、計算理論、最優化理論及計算機科學等多個領域的交叉學科

統計學習的對象是數據，從數據出發，提取數據特征，抽象出數據的模型，發現數據中的知識，又回到對數據的分析和預測中去。（數據包括各種數字、文字、圖像、視頻、音頻數據以及它們的組合）

統計學習關於數據的基本假設是同類數據具有一定的統計規律性（統計學習的前提）

目的：

用於對數據進行預測與分析，特別是對未知新數據進行預測與分析。對數據進行預測和分析是通過構建概率統計模型實現的。統計學習總的目的是考慮學習什么樣的模型和如何學習模型，以使模型能對數據進行准確的預測與分析，同時盡可能提高學習效率

方法：

統計學習由監督學習（supervised learning）、非監督學習（unsupervised learning）、半監督學習（semi-supervised learning）和強化學習（reinforcement learning）等組成，這里主要討論監督學習

統計學習三要素：

模型（model）、策略（strategy）和算法（algorithm）

實現步驟：

得到一個有限的訓練數據集合
確定包含所有可能的模型的假設空間，即學習模型的集合
確定模型選擇的准則，即學習的策略
實現求解最優模型的算法，即學習的算法
通過學習方法選擇最優模型
利用學習的最優模型對新數據進行預測分析

1.2 監督學習

監督學習（supervised learning）的任務是學習一個模型，使模型能夠對任意給定的輸入，對其相應的輸出做出一個好的預測

1.2.1 基本概念

1. 輸入空間、特征空間與輸出空間

在監督學習中，將輸入輸出所有可能取值的集合分別稱為輸入空間與輸出空間。輸入輸出空間可以是有限元素的集合，也可以是整個歐式空間；輸入空間和輸出空間可以是同一個空間，也可以是不同的空間，但通常輸出空間遠小於輸入空間。
每各具體的輸入是一個實例（instance），通常由特征向量表示。這時，所有特征向量存在的空間稱為特征空間。
輸入實例\(x\)的特征向量

\[x = \left( \begin{matrix} x^{(1)} ,& x^{(2)} ,& \cdots ,& x^{(m)} \\ \end{matrix} \right)^{T} \]

訓練集通常表示為

\[T = \left\{ \begin{matrix} (x_1,y_1),&(x_2,y_2),& \cdots ,& (x_N,y_N) \end{matrix} \right\} \]

測試數據也由相對應的輸入與輸出對組成，輸入與輸出對又稱為樣本（sample）或樣本點。
根據輸入輸出變量的不同類型，對預測任務給予不同的名稱：

回歸問題：輸入與輸出變量均為連續變量
分類問題：輸出變量為有限個離散變量
標注問題：輸入與輸出變量均為變量序列

2. 聯合概率分布

監督學習假設輸入與輸出的隨機變量\(X\)和\(Y\)遵循聯合概率分布\(P(X,Y)\)，\(P(X,Y)\)表示分布函數或者分布密度函數

3.假設空間

由輸入空間到輸出空間的映射的集合稱為假設空間。假設空間的確定意味着學習范圍的確定。

監督學習的模型可以是概率模型或非概率模型，由條件概率分布\(P(Y|X)\)或決策函數（decision function）\(Y = f(x)\)表示。

1.2.2問題的形式化

監督學習問題

監督學習分為學習和預測兩個過程，由學習系統與預測系統完成。

1.3 統計學習三要素

統計學習方法都是由模型、策略和算法構成的，即統計學習方法由三要素構成，可以簡單地表示為

方法=模型+策略+算法 ## 1.3.1 模型統計學習首要考慮的問題事學習什么樣的模型。在監督學習過程中，模型就是索要學習的條件概率分布或決策函數。模型的假設空間(hypothesis space)包含所有可能的條件概率分布或決策函數。 ## 1.3.2 策略獲取模型的假設空間后，接着需要考慮的是按照什么樣的准則學習或選擇最優的模型，統計學習的目的在於從假設空間中選取最優模型。首先引入隨時函數與風險評估函數的概念。損失函數度量模型一次預測的好壞，風險函數度量平均意義下模型預測的好壞。

1. 損失函數和風險函數

監督學習問題是在假設空間 \(\mathcal { F }\) 中選取模型 \(f\) 作為決策函數，對於給定的輸入 \(X\) ,由 \(f(X)\) 給出的相應的輸出 \(Y\) ，這個輸出的預測值 \(f(X)\) 與真實值 \(Y\) 可能一致也可能不一致，用一個損失函數（loss function）或代價函數（cost function）來度量預測錯誤的程度。損失函數是 \(f(X)\) 和 \(Y\) 的非負實值記錄，記作 \(L(Y,f(X))\) 。

統計學習常用的損失函數有以下幾種：

（1）0-1損失函數（0-1 loss function）

\[L(Y,f(X))= \begin{cases} 1,\quad &Y\neq f(X)\\ 0,\quad &Y=f(X) \end{cases} \tag{1.1} \]

（2）平方損失函數（quadratic loss function）

\[L(Y,f(X))=(Y-f(X))^2 \tag{1.2} \]

（3）絕對損失函數（absolute loss function）

\[L(Y,f(X))=|Y-f(X)| \tag{1.3} \]

（4）對數損失函數（logarithmic loss function）或對數似然損失函數（loglikelihood loss function）

\[L(Y,P(Y|X))=-logP(Y|X) \tag{1.4} \]

損失函數越小，模型就越好，由於模型的輸入、輸出 \((X,Y)\) 是隨機變量，遵循聯合分布 \(P(X,Y)\) ，所以損失函數的期望是

\[R_{exp}(f)=E_{P}[L(Y,f(X))]=\int_{\mathcal{x}\times \mathcal{y}}L(y,f(x))P(x,y)dxdy \tag{1.5} \]

這是理論上模型 \(f(X)\) 關於聯合分布 \(P(X,Y)\) 的平均意義下的損失，稱為風險函數（risk function）或期望損失（expected loss）。

學習的目標就是選擇期望風險最小的模型。

由於聯合分布\(P(X,Y)\)是未知的，\(R_{exp}(f)\)不能直接計算。而實際上，如果知道聯合分布\(P(X,Y)\)，可以直接求出條件概率分布\(P(Y|X)\)，也就不需要學習了。這樣一來，一方面根據期望風險最小學習模型要用到聯合分布，另一方面聯合分布又是未知的，所以監督學習就成為一個病態的問題(ill-formed problem)。

設\(R_{emp}\)為\(f(X)\)關於訓練集的平均損失，稱為經驗風險(empirical risk)或經驗損失(empirical loss)。

\[R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) \tag{1.6} \]

期望風險是模型關於聯合分布的期望損失，經驗風險是模型關於訓練樣本集的平均損失。根據大數定律，當樣本容量N趨於無窮時，經驗風險區域期望風險，所以我們會很自然的想到用經驗風險估計期望風險。由於現實訓練中樣本數量有限，這一方法常常不理想，需要對經驗風險進行一定的矯正，這就關系到監督學習的兩個基本策略：經驗風險最小化和結構風險最小化。

2.經驗風險最小化與結構風險最小化

經驗風險最小化（empirical risk minimization, ERM）的策略認為，經驗風險最小的模型是最優的模型。根據這一策略，按照經驗風險最小化求最優模型就是求解最優化問題：

\[\min_{f\in \mathcal{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_i)) \tag{1.7} \]

例子：

極大似然估計（maximum likelihood estimation）。當模型是條件概率分布，損失函數是對數損失函數時，經驗風險最小化就等價於極大似然估計。

當樣本容量很小時，經驗風險最小化學習效果就未必很好，會產生過擬合（over-fitting）現象。

結構風險最小化（structural risk minimization，SRM）是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化（regularization）。結構風險在經驗風險上加上表示模型復雜度的正則化項（regularizer）或罰項（penalty term）。在假設空間、損失函數以及訓練數據集正確的情況下，結構風險的定義為：

\[R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) \tag{1.8} \]

其中\(J(f)\)為模型的復雜度，是定義在假設空間\(\mathcal{F}\)上的泛函。\(\lambda \geq 0\)是系數，用以權衡經驗風險和模型復雜度。

例子：

貝葉斯結構估計中的最大后驗概率估計（maximum posterior probability estimation，MAP）。當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示是，結構風險最小化就等價於最大后驗概率估計。

1.3.3 算法

算法是指學習模型的具體計算方法，用於求解最優化模型。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《統計學習方法》：統計學習機器學習統計機器學習《統計學習方法》學習筆記統計學習方法基礎總結統計學習方法筆記 -- 概論統計學習方法（一）機器學習丨《機器學習》、《統計學習方法》思維導圖機器學習-李航-統計學習方法學習筆記之感知機(2) 機器學習-李航-統計學習方法學習筆記之感知機(1) 機器學習和統計學習的交鋒機器學習統計學習