【模式識別與機器學習】學習筆記


1.1 什么是模式識別

模式識別概念

所謂模式識別的問題就是用計算的方法根據樣本的特征將樣本划分到一定的類別中去。模式識別就是通過計算機用數學技術方法來研究模式的自動處理和判讀,把環境與客體統稱為“模式”。隨着計算機技術的發展,人類有可能研究復雜的信息處理過程,其過程的一個重要形式是生命體對環境及客體的識別。模式識別以圖像處理與計算機視覺、語音語言信息處理、腦網絡組、類腦智能等為主要研究方向,研究人類模式識別的機理以及有效的計算方法。

模式識別的應用實例

  • 計算機視覺領域
    • 手寫體字符識別:OCR
    • 交通標志識別:輔助/無人駕駛
    • 動作識別
  • 人機交互領域
    • 語音識別
  • 醫學領域
    • 心跳異位搏動識別
  • 網絡領域
    • 應用程序識別:基於TCP/IP流量
  • 金融領域
    • 銀行信貸識別
    • 股票價格預測
  • 機器人領域
    • 機械手目標抓取點位姿
  • 無人車領域
    • 無人駕駛

模式識別的基本定義

模式識別的推理過程

1.2 模式識別數學表達

模式識別的數學解釋

模型的定義及組成

判別函數的概念

判別函數是指各個類別的判別區域確定后,可以用一些函數來表示和鑒別某個特征矢量屬於哪個類別,這些函數就稱為判別函數。這些函數不是集群在特征空間形狀的數學描述,而是描述某一位置矢量屬於某個類別的情況,如屬於某個類別的條件概率,一般不同的類別都有各自不同的判別函數。

判別函數用於分類舉例

特征

  • 可以用於區分不同類別模式的、可測量的量。
  • 輸入數據也可以看作是一種原始特征表達。

特征的特性

  • 具有辨別能力:提升不同類別之間的識別性能。
    • 基於統計學規律,而非個例。
  • 魯棒性:針對不同的觀測條件,仍能夠有效表達類別之間的差異性。

特征向量

特征空間

1.3 特征向量的相關性

特征向量點積

  • 點積可以表征兩個特征向量的共線性,即方向上的相似程度。
  • 點積為0,說明兩個向量是正交的。

特征向量投影

殘差向量

特征向量歐氏距離

1.4 機器學習基本概念

訓練樣本與測試樣本

  • 訓練樣本的目的是 數學模型的參數,經過訓練之后,可以認為你的模型系統確立了下來。

  • 建立的模型有多好,和真實事件的差距大不大,既可以認為是測試樣本的目的。

  • 一般訓練樣本和測試樣本相互獨立,使用不同的數據。

線性模型

非線性模型

機器學習流程

機器學習的方式

  • 輸出真值
  • 監督式學習:訓練樣本及其輸出真值都給定情況下的機器學習算法。
  • 無監督式學習:只給定訓練樣本、沒有給輸出真值情況下的機器學習算法。
  • 半監督式學習:既有標注的訓練樣本、又有未標注的訓練樣本情況下的學習算法。
  • 強化學習:需要先后累積多次決策動作。

1.5 模型的泛化能力

訓練集&測試集

模型的泛化能力

1.6 評估方法與性能指標

評估方法

  • 留出法

  • K折交叉驗證

    將數據集隨機分為k份,每次不重復地取一份作為測試集,其余作為訓練集,重復k次,最后取這k次地統計指標作為評估結果。

  • 留一驗證

性能指標度量

  • 基本概念

  • 准確度

  • 精度&召回率

  • F-Score

第一章 學習心得

物體識別實際上是通過模式識別來實現的,現實生活中的很多時候,區分兩個物體的不同,並不是靠最本質的區別來判定的,因為會很復雜或者麻煩。所以要借助一些其他的特征來判定。因此實際上,模式識別並不是根據物體本身來判斷的,而是根據被感知到的某些性質,容易感知到的某些物體特征來進行判別。也就引出了模式的定義——如物體的顏色、厚度、大小、重量等的易被感知到的物體特性,叫做模式。 為了識別物體,也就是進行分類,一般會用分類器這個工具。故而分類器實際上識別的不是物體,而是物體的模式

2.1 MED分類器

MED分類器

MED分類器,即最小歐拉距離(Mininal Euclidean Distance)分類器,它選取類中樣本均值作為類的原型,將待預測樣本判斷為與其歐拉距離最小的類

  • 二分類決策邊界:

    在高維空間中,該決策邊界是一個超平面,且該平面垂直且二分連接兩個類原型的線。

  • 由於只考慮到類原型的距離,不考慮類樣本的分布,可能出現反直覺或錯誤的結果,如:

2.2 特征白化

白化的目的是去除輸入數據的冗余信息。

特征正交白化

  • 將原始特征映射到一個新的特征空間,使得在新空間中特征的協方差矩陣為單位矩陣,從而去除特征變化的不同及特征之間的相關性。
  • 將特征轉換分為兩步:先去除特征之間的相關性(解耦,Decoupling),然后再對特征進行尺度變換(白化,Whitening),使每維特征的方差相等。
  • 令$ W=W_2W_1$
    • 解耦:通過\(W_1\)實現協方差矩陣對角化,去除特征之間的相關性。
    • 白化:通過\(W_2\)對上一步變換后的特征再進行尺度變換,實現所有特征具有相同方差。

特征解耦

特征白化

2.3 MICD分類器

MICD分類器

MICD分類器,即最小類內距離(Minimal Intra-Class Distance)分類器由MED分類器演化而來,同樣采用均值作為類的原型,但采用馬氏距離作為距離度量。將待預測樣本判斷為與其馬氏距離最小的類。

  • 二分類決策邊界:

    決策邊界為超平面、超球面、超橢球面、超拋面或者超雙曲面。

  • 此分類器采用馬氏距離,綜合考慮了類的不同特征之間的相關性和尺度差異

  • 但在均值相同時,趨向於選擇方差較大的類,因為方差較大會使\(∑^{−1}\)較小

第二章 學習心得

學習了基於距離的分類器特征白化的原理和思想,把測試樣本到每個類之間的距離作為決策模型,將測試樣本判定為其距離最近的類。距離衡量為歐式距離的是MED分類器,但是MED分類器沒有排除距離之間的相關性和特征的方差的不同,會造成判別錯誤。 特征白化的目的是去除數據的冗余信息,可以通過特征白化來去除特征相關性,有兩個步驟:解耦、白化。特征白化之后的歐式距離變成了馬氏距離,用馬氏距離作為距離衡量的是MICD分類器。但是MICD分類器的缺點是會選擇方差較大的類。也還是會產生判別錯誤

3.1/3.2 貝葉斯決策與MAP分類器及高斯觀測概率

后驗概率:用於分類決策

貝葉斯規則

MAP分類器

MAP分類器,即最大后驗概率(Maximum posterior probability)分類器,基於貝葉斯規則,利用類的先驗概率和觀測似然概率,計算模式x屬於類C的后驗概率,進而進行分類判別。

其后驗概率公式為:

其二分類決策邊界為:

在單維空間中通常有兩條決策邊界,高維空間則是復雜的非線性邊界。

決策誤差

  • 概率誤差為未選擇的類的后驗概率

  • 平均概率誤差:

高斯觀測概率

  • 單維高斯分布:
  • 決策邊界:
  • 方差相等時傾向於選擇先驗概率較高的類,先驗概率相等時傾向於選擇方差較小的類。

3.3 決策風險與貝葉斯分類器

決策風險的概念

損失的概念

決策風險的評估

貝葉斯分類器

在MAP分類器基礎上,加入決策風險因素,成為貝葉斯分類器

  • 決策損失

  • 決策目標

3.4/3.5 最大似然估計

監督式學習方法

  • 如果給定標簽的訓練樣本,采用監督式學習。
  • 根據概率分布的表達形式,監督式學習方法有以下兩種:
    • 參數化方法:給定概率分布的解析表達,學習這些解析表達函數中的參數。該類方法也稱為參數估計。
    • 非參數化方法:概率密度函數形式為未知,基於概率密度估計技術,估計非參數化的概率密度表達。

常用的參數估計方法

  • 最大似然估計
  • 貝葉斯估計

最大似然估計

  • 先驗概率估計

  • 觀測概率估計:高斯分布

  • 均值估計

  • 協方差估計

3.6/3.7 貝葉斯估計(1)

貝葉斯估計概念

不斷學習能力

貝葉斯估計具備不斷學習的能力

  • 它允許最初的、基於少量訓練樣本的、不太准的估計。
  • 隨着訓練樣本的不斷增加,可以串行的不斷修正參數的估計值,從而達到該參數的期望真值。

貝葉斯估計流程步驟

  • 目的:估計觀測似然概率。

  • 給定量:觀測似然分布的形式、參數的先驗概率、訓練樣本。

  • 貝葉斯估計的步驟:

    • 1.估計參數的后驗概率:

    • 2.估計觀測似然關於\(\theta\)的邊緣概率:

3.8 KNN估計

常用的無參技術主要有:

  • K近鄰法
  • 直方圖技術
  • 核密度估計

KNN估計

  • 優缺點

3.9 直方圖與核密度估計

直方圖估計

  • 原理

  • 優缺點

核密度估計

  • KNN估計:以待估計的任意一個模式為中心,搜尋第K個鄰近點,以此來確定區域,易被噪聲污染。

  • 直方圖估計:手動將特征空間划分為若干個區域,待估計模式只能分配到對應的固定區域,缺乏自適應能力。

  • 原理

  • 優缺點

第三章 學習心得

印象最深刻的應該就是貝葉斯估計方法的學習,在參數估計上經典學派運用的是矩法和極大似然估計,貝葉斯學派則用的是Bayes估計。貝葉斯除了運用經典學派的總體信息和樣本信息外,海涌到了先驗信息,其中的兩個基本概念是先驗分布和后驗分布。完成貝葉斯估計后進一步學習了貝葉斯決策問題,即把損失函數加入到貝葉斯推斷中形成,根據決策者的分析和偏好可以用不同形式的損失函數。損失函數也同樣是貝葉斯估計中的一種重要信息。

貝葉斯估計還具備不斷學習的能力,它允許最初的、基於少量訓練樣本的、不太准的估計。隨着訓練樣本的不斷增加,可以串行的不斷修正參數的估計值,從而達到該參數的期望真值。

4.1/4.2 線性判據

  • 定義

    • 如果判別模型f(x)是線性函數,則f(x)為線性判據。
    • 可以用於兩類分類
    • 也可以用於多類分類,相鄰兩類之間的決策邊界也是線性的。
  • 優勢

    • 計算量少:在學習和分類過程中,線性判據方法都比基於學習概率分布的方法計算量少。
    • 適用於訓練樣本較少的情況。
  • 數學表達

  • 決策邊界

  • w的方向

  • \(w_0\)的作用

4.3/4.4 並行/串行感知機算法

感知機算法:預處理

並行感知機:目標函數

參數更新

並行感知機算法流程

串行感知機

串行感知機算法流程

4.5 Fisher線性判據

原理及概念

最優參數解

  • w最優解

  • \(w_0\)的解

  • Fisher線性判據

決策邊界

訓練算法流程

4.6 支持向量機基本概念

設計動機及思想

支持向量的概念

支持向量機目標函數

4.7 拉格朗日乘數法

拉格朗日乘數法(以數學家約瑟夫·路易斯·拉格朗日命名)是一種尋找變量受一個或多個條件所限制的多元函數的極值的方法。

這種方法將一個有n 個變量與k個約束條件的最優化問題轉換為一個有n + k個變量的方程組的極值問題,其變量不受任何約束。

這種方法引入了一種新的標量未知數,即拉格朗日乘數:約束方程的梯度(gradient)的線性組合里每個向量的系數。此方法的證明牽涉到偏微分,全微分或鏈法,從而找到能讓設出的隱函數的微分為零的未知數的值。

設給定二元函數z=ƒ(x,y)和附加條件φ(x,y)=0,為尋找z=ƒ(x,y)在附加條件下的極值點,先做拉格朗日函數 ,其中λ為參數。
令F(x,y,λ)對x和y和λ的一階偏導數等於零,即
F'x=ƒ'x(x,y)+λφ'x(x,y)=0
F'y=ƒ'y(x,y)+λφ'y(x,y)=0
F'λ=φ(x,y)=0
由上述方程組解出x,y及λ,如此求得的(x,y),就是函數z=ƒ(x,y)在附加條件φ(x,y)=0下的可能極值點。
若這樣的點只有一個,由實際問題可直接確定此即所求的點。

4.8 拉格朗日對偶問題

對偶函數

對偶法的優勢

弱對偶性

強對偶性

第四章 學習心得

學習了線性判據方法的基本概念,並行及串行感知機算法,Fisher線性判據等,尤其對拉格朗日乘數法有了進一步的了解。

線性判據顧名思義,如果判別模型f(x)是線性函數,則稱為線性判據,既可以用於兩類分類,也可以用於多類分類,多類分類中要求相鄰兩類之間的決策邊界也是線性的即可。而拉格朗日乘數法則是一種尋找變量受一個或多個條件所限制的多元函數的極值的方法。

這種方法將一個有n 個變量與k個約束條件的最優化問題轉換為一個有n + k個變量的方程組的極值問題,其變量不受任何約束,對問題的求解有很大的幫助。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM