線性代數和概率論——機器學習基礎


一、線性代數

萬事萬物都可以被抽象成某些特征的組合,線性代數的本質是將具體事物抽象為數學對象,描述其靜態和動態的特征。

常見概念

標量(scalar)

一個標量 a 可以是整數、實數或復數

向量(vector)

多個標量 a1,a2,⋯,an 按一定順序組成一個序列。通常用一維數組表示,例如語音信號

矩陣(matrix)

矩陣包含向量,一個m*n的矩陣,可以看成是由n個m維的列向量構成,也可以看成是由m個n維的行向量構成。通過用二維數組表示,例如灰度圖像

張量(tensor)

張量就是高階的矩陣,如果把三階魔方的每一個小方塊看作一個數,它就是個 3×3×3 的張量,3×3 的矩陣則恰是這個魔方的一個面,也就是張量的一個切片。通過用三維乃至更高維度的數組表示,例如RGB圖像

范數(norm)

對單個向量大小的度量,描述的是向量自身的性質,將向量映射為一個非負的數值。

內積(inner product)

兩個向量之間的相對位置,即向量之間的夾角。計算的則是兩個向量之間的關系

線性空間(linear space)

一個集合,元素是具有相同維數的向量(可以是有限個或無限個), 並且定義了加法和數乘等結構化的運算

內積空間(inner product space)

定義了內積運算的線性空間

正交基(orthogonal basis)

在內積空間中,一組兩兩正交的向量。正交基的作用就是給內積空間定義出經緯度。⼀旦描述內積空間的正交基確定了,向量和點之間的對應關系也就隨之確定。

標准正交基(orthonormal basis)

正交基中基向量的范數單位長度都是1

線性變換(linear mapping)

線性變換描述了向量或者作為參考系的坐標系的變化,可以用矩陣表示;
線性空間中,變化的實現有兩種方式:

  • 點的變化
    Ax=y
    表示向量 x 經過矩陣 A 所描述的變換,變成了向量 y
  • 參考系的變化
    描述矩陣的⼀對重要參數是特征值λ和特征向量x。
    對於給定的矩陣 A,假設其特征值為λ,特征向量為 x,則它們之間的關系如下:
    Ax=λx
    矩陣的特征和特征向量描述了變化速度與方向。
    把矩陣所代表的變化看作奔跑的人,那么特征值λ代表奔跑的速度,特征向量x代表奔跑的方向。

更通俗的理解是:在空間里將一個物體拉伸、旋轉到另外的一個形狀

二、概率論

同線性代數一樣,概率論也代表一種看待世界的方式,關注的焦點是生活中的不確定性和可能性。
概率論是線性代數之外,人工智能的另一個理論基礎,多數機器學習模型采用的都是基於概率論的方法。
由於實際任務中可供使用的訓練數據有限,因而需要對概率分布的參數進行估計,這也是機器學習的核心任務。

兩大學派

頻率學派(Frequentists)

頻率派認為參數是客觀存在,不會改變,雖然未知,但卻是固定值。只是觀察者的我們無從知曉,因此在計算具體事件的概率時,要先確定分布的類型和參數,以此為基礎進行概率推演

貝葉斯學派(Bayesians)

貝葉斯派則認為參數是隨機值,固定的先驗分布是不存在的。假設本身取決於觀察結果,數據的作用就是對假設做出不斷修正,使觀察者對概率的主觀認識更加接近客觀實際。

頻率派最常關心的是似然函數,而貝葉斯派最常關心的是后驗分布。

兩種概率估計方法

極大似然估計法(maximum likelihood estimation)

思想是使訓練數據出現的概率最大化,依此確定概率分布中的未知參數,估計出的概率分布也就符合訓練訓練數據的分布。
極大似然估計中,似然函數被定義為樣本觀測值出現的概率,確定未知參數的准則是讓似然函數最大化,也就是微積分中求解函數最大值的問題。
最大似然估計法估計參數時,只需要使用訓練數據

最大后驗概率法(maximum a posteriori estimation)

思想是根據訓練數據和已知的其他條件,使未知參數出現的可能性最大化,並選取最可能的未知參數取值作為估計值。
最大后驗概率法估計參數時,除了訓練數據外,還需要額外的信息,也就是貝葉斯中的先驗概率

舉例說明

好學生和差學生打架

  1. 極大似然估計:老師認為肯定是差學生的錯,因為差學生愛惹事
  2. 最大后驗概率:老師如果知道優等生和差學生之間的過節(先驗信息),把這些因素考慮進來,就不會簡單地認為是養生挑釁。

極大似然是尋找一組參數使得觀測數據出現的概率最大,最大后驗是尋找當前觀測數據下出現概率最大的一組參數。

兩種隨機變量

離散型隨機變量(discrete random variable)

在一定區間內取值有有限個或者可數個,例如某些地區人口的出生數

連續型隨機變量(continuous random variable)

在一定區間內變量取值有無限個,數值無法一一列舉出來,例如某些地區的房價


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM