機器學習系列(一)--術語篇

本文轉載自查看原文 2019-04-01 17:16 1123 機器學習/ 常用術語

機器學習的術語：

機器學習正是這樣一門學科，它致力於研究如何通過計算的手段，利用經驗來改善系統自身的性能.在計算機系統中，“經驗”通常以“數據”形式存在，因此，機器學習所研究的主要內容，是關於在計算機上從數據中產生“模型”（model)的算法，即“學習算法”（learning algorithm).有了學習算法，我們把經驗數據提供給它，它就能基於這些數據產生模型；在面對新的情況時(例如看到一個沒剖開的西瓜)，模型會給我們提供相應的判斷(例如好瓜).如果說計算機科學是研究關於“算法”的學問，那么類似的，可以說機器學習是研究關於“學習算法”的學問。

基本術語：

編號	色澤	根蒂	敲聲	好瓜
1	青綠	蜷縮	濁響	是
2	烏黑	蜷縮	濁響	是
3	青綠	硬挺	清脆	否
4	烏黑	稍蜷	沉悶	否

數據集（data set）

這組記錄的集合稱為一個數據集（data set）

示例”（instance)、樣本”（sample)

其中每條記錄是關於一個事件或對象(這里是一個西瓜)的描述，稱為一個“示例”（instance)或“樣本”（sample).有時整個數據集亦稱一個“樣本”，因為它可看作對樣本空間的一個采樣; 通過上下文可判斷出“樣本”是指單個示例還是數據集。

屬性（attribute）、特征（feature）

反映事件或對象在某方面的表現或性質的事項，例如“色澤” “根蒂”“敲聲”，稱為“屬性”（attribute)或“特征”（feature).

屬性值（attribute value）

屬性上的取值，例如“青綠”“烏黑”，稱為“屬性值”（attribute value)“.

“屬性空間”（attribute space)、“樣本空間”（sample space)或“輸入空間”

屬性合成的空間稱為“屬性空間”（attribute space)、“樣本空間”（sample space)或“輸入空間”

特征向量（feature vector）

例如我們把“色澤” “根蒂” “敲聲”作為三個坐標軸，則它們張成一個用於描述西瓜的三維空間，每個西瓜都可在這個空間中找到自己的坐標位置.由於空間中的每個點對應一個坐標向量，因此我們也把一個示例稱為一個 “特征向量”（feature vector).

維數（dimensionality）

一般地，令* D * = { $x_{1}$

學習、訓練、訓練數據、訓練樣本、訓練集、假設、真相、真實、學習器

從數據中學得模型的過程稱為“學習”（learning)或“訓練”（training), 這個過程通過執行某個學習算法來完成.訓練過程中使用的數據稱為“訓練數據”（training data)，其中每個樣本稱為一個“訓練樣本”（training sample), 訓練樣本組成的集合稱為“訓練集”（training set).學得模型對應了關於數據的某種潛在的規律，因此亦稱假設”（hypothesis);這種潛在規律自身，則稱為“真相”或“真實” (ground-tmth),學習過程就是為了找出或逼近真相.有時將模型稱為“學習器”（learner),可看作學習算法在給定數據和參數空間上的實例化.

“訓練示例” （training instance)、“訓練例”

訓練樣本亦稱“訓練示例” （training instance)或“訓練例”.

預測、標記、樣例、標記空間、輸出空間

學習算法通常有參數需設置，使用不同的參數值和(或)訓練數據，將產生不同的結果.

如果希望學得一個能幫助我們判斷沒剖開的是不是“好瓜”的模型，僅有前面的示例數據顯然是不夠的.要建立這樣的關於“預測”（prediction)的模型，我們需獲得訓練樣本的“結果”信息，例如“((色澤=青綠;根蒂=蜷縮; 敲聲=濁響)，好瓜這里關於示例結果的信息，例如“好瓜”，稱為“標記”（label);擁有了標記信息的示例，則稱為“樣例”（example).—般地，用( $x_{i}$

將“label”譯為“標記”而非“標簽”，是考慮到英文中“label”既可用作名詞、也可用作動詞.若將標記看作對象本身的一部分，則“樣例”有時也稱為“樣本”.

分類、回歸、二分類、正類、反類、多分類

若我們欲預測的是離散值，例如“好瓜”“壞瓜”，此類學習任務稱為“分類”（classification);若欲預測的是連續值，例如西瓜成熟度0.95、0.37, 此類學習任務稱為“回歸”（regression).對只涉及兩個類別的“二分類”（binary classification)任務，通常稱其中一個類為“正類”（positive class), 另一個類為“反類'(negative class);涉及多個類別時，則稱為“多分類”（multi-class classification)任務.一般地，預測任務是希望通過對訓練集{( $x_{1}, y_{1}$

Note:

學得模型后，使用其進行預測的過程稱為“測試”（testing)，被預測的樣本稱為“測試樣本”（testing sample).例如在學得 $f$ 亦稱“測試示例”（testing instance）或“測試例”

聚類、簇

我們還可以對西瓜做“聚類”（clustering)，即將訓練集中的西瓜分成若干組，每組稱為一個“簇”（cluster);這些自動形成的簇可能對應一些潛在的概念划分，例如“淺色瓜”“深色瓜”，甚至“本地瓜”“外地瓜”.這樣的學習過程有助於我們了解數據內在的規律，能為吏深入地分析數據建立基礎.需說明的是，在聚類學習中，“淺色瓜” “本地瓜”這樣的概念我們事先是不知道的，而且學習過程中使用的訓練樣本通常不擁有標記信息.

監督學習、無監督學習

根據訓練數據是否擁有標記信息，學習任務可大致划分為兩大類：“監督學習 ”（supervised learning)和“無監督學習 ”（unsupervised learning),分類和回歸是前者的代表，而聚類則是后者的代表.

亦稱“有導師學習”和“無導師學習”

泛化能力

需注意的是，機器學習的目標是使學得的模型能很好地適用於“新樣本”, 而不是僅僅在訓練樣本上工作得很好；即便對聚類這樣的無監督學習任務，我們也希望學得的簇划分能適用於沒在訓練集中出現的樣本.學得模型適用於新樣本的能力，稱為“泛化”（generalization)能力.具有強泛化能力的模型能很好地適用於整個樣本空間.於是，盡管訓練集通常只是樣本空間的一個很小的采樣，我們仍希望它能很好地反映出樣本空間的特性，否則就很難期望在訓練集上學得的模型能在整個樣本空間上都工作得很好.通常假設樣本空間中全體樣本服從一個未知“分布”（distribution) $D$

$D$

假設空間

歸納(induction)與演繹(deduction)是科學推理的兩大基本手段。前者是從特殊到一般的“泛化”（generalization)過程，即從具體的事實歸結出一般性規律；后者則是從一般到特殊的“特化”（specialization)過程，即從基礎原理推演出具體狀況.例如，在數學公理系統中，基於一組公理和推理規則推導出與之相洽的定理，這是演繹;而“從樣例中學習”顯然是一個歸納的過程，因此亦稱 “歸納學習 ”（inductive learning) 。

歸納學習有狹義與廣義之分，廣義的歸納學習大體相當於從樣例中學習，而狹義的歸納學習則要求從訓練數據中學得概念(concept)，因此亦稱為“概念學習”或“概念形成”.概念學習技術目前研究、應用都比較少，因為要學得泛化性能好且語義明確的概念實在太困難了，現實常用的技術大多是產生“黑箱”模型.然而，對概念學習有所了解，有助於理解機器學習的一些基礎思想.

概念學習中最基本的是布爾概念學習，即對“是”“不是”這樣的可表示為0/1布爾值的目標概念的學習。

編號	色澤	根蒂	敲聲	好瓜
1	青綠	蜷縮	濁響	是
2	烏黑	蜷縮	濁響	是
3	青綠	硬挺	清脆	否
4	烏黑	稍蜷	沉悶	否

(色澤=?)⋀(根蒂=?)⋀(敲聲=?)↔好瓜

學習過程⟶⟶ 在所有假設(hypothesis)組成的空間中進行搜索的過程

目標: 找到與訓練集“匹配”(fit)的假設

以西瓜問題假設為例。色澤屬性可取（青綠，烏黑，淺白，* ），根蒂屬性可取（蜷縮，稍蜷，硬挺，* ），敲聲屬性可取（濁響，清脆，沉悶，* ），以及好瓜假設不存在( $ϕ$

$ϕ$

版本空間

可以有許多策略對這個假設空間進行搜索，例如自頂向下、從一般到特殊，或是自底向上、從特殊到一般，搜索過程中可以不斷刪除與正例不一致的假設、和(或)與反例一致的假設.最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設，這就是我們學得的結果.

需注意的是，現實問題中我們常面臨很大的假設空間，但學習過程是基於有限樣本訓練集進行的，因此，可能有多個假設與訓練集一致，即存在着一個與訓練集一致的“假設集合”，我們稱之為“版本空間”（version space)

歸納偏好

通過學習得到的模型對應了假設空間中的一個假設.於是，上面西瓜版本空間給我們帶來一個麻煩：現在有三個與訓練集一致的假設，但與它們對應的模型在面臨新樣本的時候，卻會產生不同的輸出.例如，對(色澤=青綠; 根蒂=蜷縮；敲聲=沉悶)這個新收來的瓜，如果我們采用的是“好瓜 $⟷$

若僅有以上的訓練樣本，則無法斷定上述三個假設中哪一個“更好”. 然而，對於一個具體的學習算法而言，它必須要產生一個模型.這時，學習算法本身的“偏好”就會起到關鍵的作用.例如，若我們的算法喜歡“盡可能特殊”的模型，則它會選擇“好瓜 $⟷$

歸納偏好

奧卡姆剃刀”（Occam’s razor)是一種常用的、自然科學研究中最基本的原則，即“若有多個假設與觀察一致，則選最簡單的那個”.如果采用這個原則，並且假設我們認為“更平滑”意味着“更簡單”（例如曲線 A更易於描述，其方程式是 $y = - x^{2} + 6 x + 1$

沒有午餐定理

No Free Lunch Theoren 定理，沒有免費的午餐定理，簡稱NFL定理，由美國斯坦福大學的Wolpert和Macready教授提出。

NFL定理：一個算法A若在某些問題上比另一個算法B好，必存在另一些問題B比A好

為簡單起見，假設樣本空間 $X$

$E_{o t e} (L_{a} | X, f) = \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

其中 $I (\cdot)$

考慮二分類問題，且真實目標函數可以是任何函數 $x ⟼ 0, 1$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \sum_{f} I (h (x) \neq f (x))$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \frac{1}{2} 2^{| x |}$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a})$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \cdot 1$

上式顯示出，總誤差和學習算法無關！對於任意兩個學習算法 $L_{a}$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} E_{o t e} (L_{b} | X, f)$

也就是說，無論學習算法 $L_{a}$

總結

NFL定理有一個重要前提：所有“問題”出現的機會相同、或所有問題同等重要.但實際情形並不是這樣.很多時候，我們只關注自己正在試圖解決的問題(例如某個具體應用任務)，希望為它找到一個解決方案，至於這個解決方案在別的問題、甚至在相似的問題上是否為好方案，我們並不關心.例如，為了快速從A地到達B地，如果我們正在考慮的A地是南京鼓樓、B地是南京新街口，那么“騎自行車”是很好的解決方案；這個方案對A 地是南京鼓樓、B地是北京新街口的情形顯然很糟糕，但我們對此並不關心.

NFL定理最重要的寓意，是讓我們清楚地認識到，脫離具體問題，空泛地談論“什么學習算法更好”毫無意義，因為若考慮所有潛在的問題，則所有學習算法都一樣好.要談論算法的相對優劣，必須要針對具體的學習問題；在某些問題上表現好的學習算法，在另一些問題上卻可能不盡如人意，學習算法自身的歸納偏好與問題是否相配，往往會起到決定性的作用.

經驗誤差和過擬合

通常我們把分類錯誤的樣本數占樣本總數的比例稱為“錯誤率”（error rate),即如果在m個樣本中有a個樣本分類錯誤，則錯誤率 $E$

我們實際希望的，是在新樣本上能表現得很好的學習器.為了達到這個目的，應該從訓練樣本中盡可能學出適用於所有潛在樣本的“普遍規律”，這樣才能在遇到新樣本時做出正確的判別.然而,當學習器把訓練樣本學得“太好”了的時候，很可能已經把訓練樣本自身的一些特點當做了所有潛在樣本都會具有的一般性質，這樣就會導致泛化性能下降。這種現象在機器學習中稱為 “過擬合”（overfitting).與“過擬合”相對的是“欠擬合”（underfitting),這是指對訓練樣本的一般性質尚未學好。

過擬合

總結

有多種因素可能導致過擬合，其中最常見的情況是由於學習能力過於強大,以至於把訓練樣本所包含的不太一般的特性都學到了，而欠擬合則通常是由於學習能力低下而造成的.欠擬合比較容易克服，例如在決策樹學習中擴展分支、在神經網絡學習中増加訓練輪數等，而過擬合則很麻煩.在后面的學習中我們將看到，過擬合是機器學習面臨的關鍵障礙，各類學習算法都必然帶有一些針對過擬合的措施;然而必須認識到，過擬合是無法徹底避免的，我們所能做的只是“緩解”，或者說減小其風險.

在現實任務中，我們往往有多種學習算法可供選擇，甚至對同一個學習算法，當使用不同的參數配置時，也會產生不同的模型.那么，我們該選用哪一個學習算法、使用哪一種參數配置呢？這就是機器學習中的“模型選擇”（model selection)問題.理想的解決方案當然是對候選模型的泛化誤差進行評估，然后選擇泛化誤差最小的那個模型.然而如上面所討論的，我們無法直接獲得泛化誤差，而訓練誤差又由於過擬合現象的存在而不適合作為標准，那么，在現實中如何進行模型評估與選擇呢？

如何獲得測試結果？ ⟹⟹ 評估方法

如何評估性能優劣？ ⟹⟹ 性能度量

如何判斷實質差別？ ⟹⟹ 比較檢驗

評估方法

測試集應該與訓練集“互斥”

留出法 (hold-out)
交叉驗證法 (cross validation)
自助法 (bootstrap)

留出法

留出法（hold-out)直接將數據集D划分為兩個互斥的集合，其中一個集合S作為訓練集另一個作為測試集T,即 $D = S \cup T$

交叉驗證法

“交叉驗證法”（cross validation)先將數據集 $D$

10折交叉驗證

假定數據集 $D$

擴展

我們希望評估的是用𝐷D訓練出的模型.但在留出法和交叉驗證法中，由於保留了一部分樣本用於測試，因此實際評估的模型所使用的訓練集比D小，這必然會引入一些因訓練樣本規模不同而導致的估計偏差.留一法受訓練樣本規模變化的影響較小，但計算復雜度又太高了.有沒有什么辦法可以減少訓練樣本規模不同造成的影響，同時還能比較高效地進行實驗估計呢？

自助法

“自助法”（bootstrapping)是一個比較好的解決方案，它直接以自助采樣法(bootstrap sampling)為基礎[Efron and Tibshirani, 1993].給定包含m個樣本的數據集 $D$

$lim_{m \to \infty} (1 - \frac{1}{m})^{m} ⟶ \frac{1}{e} \approx 0.368$

即通過自助釆樣，初始數據集乃中約有36.8%的樣本未出現在釆樣數據集 $D^{'}$

自助法在數據集較小、難以有效划分訓練/測試集時很有用;此外，自助法能從初始數據集中產生多個不同的訓練集，這對集成學習等方法有很大的好處. 然而，自助法產生的數據集改變了初始數據集的分布，這會引入估計偏差.因此,在初始數據量足夠時，留出法和交叉驗證法更常用一些.

性能度量

對學習器的泛化性能進行評估，不僅需要有效可的實驗估計方法，還需要有衡量模型泛化能力的評價標准，這就是性能度量(performance measure).性能度量反映了任務需求，在對比不同模型的能力時，使用不同的性能度量往往會導致不同的評判結果；這意味着模型的“好壞”是相對的，什么樣的模型是好的，不僅取決於算法和數據，還決定於任務需求.

在預測任務中，給定樣例集 $D = (x_{1} ， y_{1}), (x_{2}, y_{2}), \dots, (x_{m} . y_{m})$

回歸任務最常用的性能度量是“均方誤差”（mean squared error)

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$

對於數據分布 $D$

$E (f; D) = \int_{x \sim D} （ f (x) - y ）^{2} p (x) d x$

錯誤率是分類錯誤的樣本數占樣本總數的比例

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) \neq y_{i})$

精度則是分類正確的樣本數占樣本總數的比例

$a c c (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) = y_{i})$

錯誤率：

$E (f; D) = \int_{x \sim D} I （ f (x) \neq y ） p (x) d x$

混淆矩陣

查准率： $P = \frac{T P}{T P + F P}$

查全率： $R = \frac{T P}{T P + F N}$

查准率和查全率是一對予盾的度量，一般來說，查准率高時，查全率往往偏低查全率高時.查准率偏低。

PR圖，BEP（Break-Event Point）

根據學習器的預測結果按正例可能性大小對樣例進行排序，並逐個把樣本作為正例進行預測

pr圖

比 BEP 更常用的 F1 度量：

F1： $F 1 = \frac{2 P R}{P + R} = \frac{2 T P}{样例总数 + T P - T N}$

若對查准率/查全率有不同偏好：

$F_{β} = \frac{(1 + β^{2}) P R}{(β^{2} P) + R}$

$β = 1$

擴展

很多時候我們有多個二分類混淆矩陣

宏

$m a c r o - P = \frac{1}{n} \sum_{i = 1}^{n} P_{i}$

$m a c r o - R = \frac{1}{n} \sum_{i = 1}^{n} R_{i}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

微

$m i c r o - P = \frac{\bar{P T}}{\bar{T P} + \bar{F P}}$

$m i c r o - P = \frac{\bar{T P}}{\bar{T P} + \bar{F N}}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

ROC 與 AUC

ROC全稱是“受試者工作特征”（Receiver Operating Characteristic）。ROC曲線的面積就是AUC（Area Under the Curve）

ROC和AUC

$T P R = \frac{T P}{T P + F N}$

$F P R = \frac{F P}{T N + F P}$

$AUC=\frac{1}{2}\sum^{m-1}{i=1}(x{i+1}-x_i)\cdot(y_i + y_{i+1})$

代價敏感錯誤率與代價曲線

在現實任務中常會遇到這樣的情況：不同類型的錯誤所造成的后果不同. 例如在醫療診斷中，錯誤地把患者診斷為健康人與錯誤地把健康人診斷為患者, 看起來都是犯了“一次錯誤”，但后者的影響是增加了進一步檢查的麻煩，前者的后果卻可能是喪失了拯救生命的最佳時機；再如，門禁系統錯誤地把可通行人員攔在門外，將使得用戶體驗不佳,但錯誤地把陌生人放進門內，則會造成嚴重的安全事故.為權衡不同類型錯誤所造成的不同損失，可為錯誤賦予“非均等代”（unequal cost).

以二分類任務為例，我們可根據任務的領域知識設定一個“代價矩陣”（cost matrix)，其中 $c o s t_{i j}$

代價矩陣

代價敏感（cost-sensitive）錯誤率 $E (f; D; c o s t) = \frac{1}{m} (\sum_{x_{i} \in D^{+}} I (f (x_{i}) \neq y_{i}) \times c o s t_{01} + \sum_{x_{i} \in D^{-}} I (f (x_{i}) \neq y_{i}) \times c o s t_{10})$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習的基本術語機器學習入門二 ----- 機器學習術語表機器學習領域主要術語的英文表達機器學習（04）——常用專業術語《機器學習(周志華)》筆記--緒論（1）--機器學習基本術語、假設空間、歸納偏好機器學習--評估指標篇機器學習回顧篇（6）：KNN算法機器學習之Javascript篇: 介紹機器學習篇：sklearn.datasets 機器學習回顧篇（3）：線性回歸