一、線性代數
萬事萬物都可以被抽象成某些特征的組合,線性代數的本質是將具體事物抽象為數學對象,描述其靜態和動態的特征。
常見概念
標量(scalar)
一個標量 a 可以是整數、實數或復數
向量(vector)
多個標量 a1,a2,⋯,an 按一定順序組成一個序列。通常用一維數組表示,例如語音信號
矩陣(matrix)
矩陣包含向量,一個m*n的矩陣,可以看成是由n個m維的列向量構成,也可以看成是由m個n維的行向量構成。通過用二維數組表示,例如灰度圖像
張量(tensor)
張量就是高階的矩陣,如果把三階魔方的每一個小方塊看作一個數,它就是個 3×3×3 的張量,3×3 的矩陣則恰是這個魔方的一個面,也就是張量的一個切片。通過用三維乃至更高維度的數組表示,例如RGB圖像
范數(norm)
對單個向量大小的度量,描述的是向量自身的性質,將向量映射為一個非負的數值。
內積(inner product)
兩個向量之間的相對位置,即向量之間的夾角。計算的則是兩個向量之間的關系
線性空間(linear space)
一個集合,元素是具有相同維數的向量(可以是有限個或無限個), 並且定義了加法和數乘等結構化的運算
內積空間(inner product space)
定義了內積運算的線性空間
正交基(orthogonal basis)
在內積空間中,一組兩兩正交的向量。正交基的作用就是給內積空間定義出經緯度。⼀旦描述內積空間的正交基確定了,向量和點之間的對應關系也就隨之確定。
標准正交基(orthonormal basis)
正交基中基向量的范數單位長度都是1
線性變換(linear mapping)
線性變換描述了向量或者作為參考系的坐標系的變化,可以用矩陣表示;
線性空間中,變化的實現有兩種方式:
- 點的變化
Ax=y
表示向量 x 經過矩陣 A 所描述的變換,變成了向量 y - 參考系的變化
描述矩陣的⼀對重要參數是特征值λ和特征向量x。
對於給定的矩陣 A,假設其特征值為λ,特征向量為 x,則它們之間的關系如下:
Ax=λx
矩陣的特征和特征向量描述了變化速度與方向。
把矩陣所代表的變化看作奔跑的人,那么特征值λ代表奔跑的速度,特征向量x代表奔跑的方向。
更通俗的理解是:在空間里將一個物體拉伸、旋轉到另外的一個形狀
二、概率論
同線性代數一樣,概率論也代表一種看待世界的方式,關注的焦點是生活中的不確定性和可能性。
概率論是線性代數之外,人工智能的另一個理論基礎,多數機器學習模型采用的都是基於概率論的方法。
由於實際任務中可供使用的訓練數據有限,因而需要對概率分布的參數進行估計,這也是機器學習的核心任務。
兩大學派
頻率學派(Frequentists)
頻率派認為參數是客觀存在,不會改變,雖然未知,但卻是固定值。只是觀察者的我們無從知曉,因此在計算具體事件的概率時,要先確定分布的類型和參數,以此為基礎進行概率推演
貝葉斯學派(Bayesians)
貝葉斯派則認為參數是隨機值,固定的先驗分布是不存在的。假設本身取決於觀察結果,數據的作用就是對假設做出不斷修正,使觀察者對概率的主觀認識更加接近客觀實際。
頻率派最常關心的是似然函數,而貝葉斯派最常關心的是后驗分布。
兩種概率估計方法
極大似然估計法(maximum likelihood estimation)
思想是使訓練數據出現的概率最大化,依此確定概率分布中的未知參數,估計出的概率分布也就符合訓練訓練數據的分布。
極大似然估計中,似然函數被定義為樣本觀測值出現的概率,確定未知參數的准則是讓似然函數最大化,也就是微積分中求解函數最大值的問題。
最大似然估計法估計參數時,只需要使用訓練數據
最大后驗概率法(maximum a posteriori estimation)
思想是根據訓練數據和已知的其他條件,使未知參數出現的可能性最大化,並選取最可能的未知參數取值作為估計值。
最大后驗概率法估計參數時,除了訓練數據外,還需要額外的信息,也就是貝葉斯中的先驗概率
舉例說明
好學生和差學生打架
- 極大似然估計:老師認為肯定是差學生的錯,因為差學生愛惹事
- 最大后驗概率:老師如果知道優等生和差學生之間的過節(先驗信息),把這些因素考慮進來,就不會簡單地認為是養生挑釁。
極大似然是尋找一組參數使得觀測數據出現的概率最大,最大后驗是尋找當前觀測數據下出現概率最大的一組參數。
兩種隨機變量
離散型隨機變量(discrete random variable)
在一定區間內取值有有限個或者可數個,例如某些地區人口的出生數
連續型隨機變量(continuous random variable)
在一定區間內變量取值有無限個,數值無法一一列舉出來,例如某些地區的房價