機器學習常見算法個人總結（面試用）

本文轉載自查看原文 2017-08-08 21:57 1432 Machine Learning

By Kubi Code

朴素貝葉斯

參考[1]

事件A和B同時發生的概率為在A發生的情況下發生B或者在B發生的情況下發生A

對於給出的待分類項，求解在此項出現的條件下各個目標類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別

工作原理

假設現在有樣本
再假設現在有分類目標
那么
而
因為
而具體的
好的，就是這么工作的^_^

工作流程

准備階段
確定特征屬性，並對每個特征屬性進行適當划分，然后由人工對一部分待分類項進行分類，形成訓練樣本。
訓練階段
計算每個類別在訓練樣本中的出現頻率及每個特征屬性划分對每個類別的條件概率估計
應用階段
使用分類器進行分類，輸入是分類器和待分類樣本，輸出是樣本屬於的分類類別

屬性特征

特征為離散值時直接統計即可（表示統計概率）
特征為連續值的時候假定特征符合高斯分布:

Laplace校准(拉普拉斯校驗)

當某個類別下某個特征划分沒有出現時，會有

遇到特征之間不獨立問題

參考改進的貝葉斯網絡，使用DAG來進行概率圖的描述

優缺點

朴素貝葉斯的優點：

對小規模的數據表現很好，適合多分類任務，適合增量式訓練。
缺點：
對輸入數據的表達形式很敏感（離散、連續，值極大極小之類的）。

邏輯回歸和線性回歸

參考[2,3,4]

LR回歸是一個線性的二分類模型，主要是計算在某個樣本特征下事件發生的概率，比如根據用戶的瀏覽購買情況作為特征來計算它是否會購買這個商品，抑或是它是否會點擊這個商品。然后LR的最終值是根據一個線性和函數再通過一個sigmoid函數來求得，這個線性和函數權重與特征值的累加以及加上偏置求出來的，所以在訓練LR時也就是在訓練線性和函數的各個權重值w。

關於這個權重值w一般使用最大似然法來估計,假設現在有樣本

對這個似然函數取對數之后就會得到的表達式

實際操作中一般會加個負號改為求最小

所以求解問題就變成了這個最大似然函數的最優化問題，這里通常會采樣隨機梯度下降法和擬牛頓迭代法來進行優化

梯度下降法

LR的損失函數為:

梯度下降法的最大問題就是會陷入局部最優，並且每次在對當前樣本計算cost的時候都需要去遍歷全部樣本才能得到cost值，這樣計算速度就會慢很多（雖然在計算的時候可以轉為矩陣乘法去更新整個w值）
所以現在好多框架（mahout）中一般使用隨機梯度下降法，它在計算cost的時候只計算當前的代價，最終cost是在全部樣本迭代一遍之求和得出，還有他在更新當前的參數w的時候並不是依次遍歷樣本，而是從所有的樣本中隨機選擇一條進行計算，它方法收斂速度快（一般是使用最大迭代次數），並且還可以避免局部最優，並且還很容易並行（使用參數服務器的方式進行並行）

這里SGD可以改進的地方就是使用動態的步長

其他優化方法

擬牛頓法（記得是需要使用Hessian矩陣和cholesky分解）
BFGS
L-BFGS

優缺點：無需選擇學習率α，更快，但是更復雜

關於LR的過擬合問題：

如果我們有很多的特性，在訓練集上擬合得很好，但是在預測集上卻達不到這種效果

減少feature個數（人工定義留多少個feature、算法選取這些feature）
正則化（為了方便求解，L2使用較多）
添加正則化之后的損失函數為:

p范數的求解:

關於LR的多分類：softmax

假設離散型隨機變量Y的取值集合是{1,2,..,k},則多分類的LR為

關於softmax和k個LR的選擇

如果類別之間是否互斥（比如音樂只能屬於古典音樂、鄉村音樂、搖滾月的一種）就用softmax
否則類別之前有聯系（比如一首歌曲可能有影視原聲，也可能包含人聲，或者是舞曲），這個時候使用k個LR更為合適

優缺點：
Logistic回歸優點：

實現簡單；
分類時計算量非常小，速度很快，存儲資源低；

缺點：

容易欠擬合，一般准確度不太高
只能處理兩分類問題（在此基礎上衍生出來的softmax可以用於多分類），且必須線性可分；

ps 另外LR還可以參考這篇以及多分類可以看這篇,softmax可以看這篇

KNN算法

給一個訓練數據集和一個新的實例，在訓練數據集中找出與這個新實例最近的k個訓練實例，然后統計最近的k個訓練實例中所屬類別計數最多的那個類，就是新實例的類

三要素：

k值的選擇
距離的度量（常見的距離度量有歐式距離，馬氏距離等）
分類決策規則（多數表決規則）

k值的選擇

k值越小表明模型越復雜，更加容易過擬合
但是k值越大，模型越簡單，如果k=N的時候就表明無論什么點都是訓練集中類別最多的那個類

所以一般k會取一個較小的值，然后用過交叉驗證來確定
這里所謂的交叉驗證就是將樣本划分一部分出來為預測樣本，比如95%訓練，5%預測，然后k分別取1，2，3，4，5之類的，進行預測，計算最后的分類誤差，選擇誤差最小的k

KNN的回歸

在找到最近的k個實例之后，可以計算這k個實例的平均值作為預測值。或者還可以給這k個實例添加一個權重再求平均值，這個權重與度量距離成反比（越近權重越大）。

優缺點：

KNN算法的優點：

思想簡單，理論成熟，既可以用來做分類也可以用來做回歸；
可用於非線性分類；
訓練時間復雜度為O(n)；
准確度高，對數據沒有假設，對outlier不敏感；

缺點：

計算量大；
樣本不平衡問題（即有些類別的樣本數量很多，而其它樣本的數量很少）；
需要大量的內存；

KD樹

KD樹是一個二叉樹，表示對K維空間的一個划分，可以進行快速檢索（那KNN計算的時候不需要對全樣本進行距離的計算了）

構造KD樹

在k維的空間上循環找子區域的中位數進行划分的過程。
假設現在有K維空間的數據集

首先構造根節點，以坐標
構造葉子節點，分別以上面兩個區域中
不斷重復2的操作，深度為j的葉子節點划分的時候，索取的

KD樹的搜索

首先從根節點開始遞歸往下找到包含x的葉子節點，每一層都是找對應的xi
將這個葉子節點認為是當前的“近似最近點”
遞歸向上回退，如果以x圓心，以“近似最近點”為半徑的球與根節點的另一半子區域邊界相交，則說明另一半子區域中存在與x更近的點，則進入另一個子區域中查找該點並且更新”近似最近點“
重復3的步驟，直到另一子區域與球體不相交或者退回根節點
最后更新的”近似最近點“與x真正的最近點

KD樹進行KNN查找

通過KD樹的搜索找到與搜索目標最近的點，這樣KNN的搜索就可以被限制在空間的局部區域上了，可以大大增加效率。

KD樹搜索的復雜度

當實例隨機分布的時候，搜索的復雜度為log(N)，N為實例的個數，KD樹更加適用於實例數量遠大於空間維度的KNN搜索，如果實例的空間維度與實例個數差不多時，它的效率基於等於線性掃描。

后來自己有實現過KD樹，可以看KNN算法中KD樹的應用

SVM、SMO

對於樣本點

函數間隔：
幾何間隔：

svm的基本想法就是求解能正確划分訓練樣本並且其幾何間隔最大化的超平面。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習常見算法面試常見面試之機器學習算法思想簡單梳理機器學習常見算法優缺點總結機器學習面試總結機器學習算法工程師實習面試總結機器學習算法GBDT的面試要點總結-上篇機器學習算法崗面試與提問總結機器學習面試常見問題機器學習&數據挖掘筆記_16（常見面試之機器學習算法思想簡單梳理）機器學習常見算法分類匯總