監督學習算法

本文轉載自查看原文 2020-04-06 09:10 2136 機器學習/ 深度學習/ 人工智能/ AI

本文首發自公眾號：RAIS，點擊直接關注。

前言

本系列文章為《Deep Learning》讀書筆記，可以參看原書一起閱讀，效果更佳。由於各平台 Markdown 解析差異，有些公式顯示效果不好，請到我個人維護網站查看。

監督學習算法

監督學習算法的定義是，給定一組輸入 x 和輸出 y，學習如何將其關聯起來，現在的大部分情況都是監督學習算法的范疇。

邏輯回歸

很多的監督學習算法是基於估計概率分布P(y|x) 的，假設參數服從高斯分布，我們可以使用最大似然估計找到對於有參分布族 P(y|x;θ) 最好的參數向量 θ，即用最大似然估計得到目標函數，優化這個目標函數。線性回歸對應於高斯分布分布族，通過定義一族不同的概率分布，可將線性回歸擴展到分類情況中。

具體的做法就是將線性函數的輸出使用 sigmoid 函數（就是前文說的那個樣子像 S 型）將其壓縮到 (0, 1) 空間內，這就叫做邏輯回歸。注意這個邏輯回歸不是回歸，而是用來解決分類問題。當然，線性回歸也可以推廣為 Softmax 回歸，不是這里的重點。

支持向量機

支持向量機是監督學習中關於分類與回歸問題中重要的算法。與邏輯回歸類似，這個模型也是基於線性函數的，不過輸出有所不同，不輸出概率，而是輸出類別，為正正類，為負負類。

核技巧，其實這是一個數學上的概念，用來增加維度區分不同數據，如下圖，區分下圖中左側的四個點，用的方法是增加一個維度，然后用平面分割，這與用一條曲線去分割沒什么本質的區別，來自視頻：

核技巧

上面這樣做也會有一個問題，在數據量大且維數很多的情況下，會導致計算量急劇增大，這不好。核函數就是用來解決這個問題的，核函數只是用來計算映射到高維空間之后的內積的一種簡便方法，隱含着也從低緯到高維的映射，但其計算量可控，降低計算的復雜度，甚至把不可能的計算變為可能，可以將低緯空間內線性不可分的兩類點變成線性可分的。

機器學習中最常用的核函數是高斯核（也稱徑向基函數），N(x;μ,∑) 是標准正態分布，能夠把原始特征映射到無窮維，能夠比較 u 和 v 的相似度，映射到 0 和 1：

\[k(u,v)=N(u-v;0,\sigma^2I) \]

其他監督學習算法

臨近回歸：前面介紹過最近臨近回歸，這也是一種非概率監督學習算法。K-最近鄰回歸是一種可以用於分類或回歸的算法，K-最近鄰算法就是從訓練集（根本就沒訓練，感覺叫訓練集都不太准確，應該叫樣本集）中找到與測試輸入的點最近的 K 個點，然后采用少數服從多數的思想，誰多就聽誰的（分類），或者求平均（回歸），但是這在 K 取值不同的時候，得到的結果可能不同，因此 K 的選擇是比較重要的。這個方法的特點是訓練集可以趨近於無窮大，在比較好的情況下回收斂到貝葉斯錯誤率。這個方法需要訓練集較大，訓練集較少的情況下泛化程度不夠好；且其由於幾乎沒有訓練的過程，因此也不能學習出特征中哪些是更有識別力的，無法找到關鍵屬性。

決策樹：決策樹會將輸入空間分成不重疊的子區域，葉節點和輸出區域一一對應。構建決策樹前需要根據信息增益的方法進行特征選擇，然后生成決策樹，為防止過擬合可能還需要進行剪枝。

總結

本文介紹了幾種最常見的監督學習算法。

本文首發自公眾號：RAIS，點擊直接關注。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 監督學習常見算法無監督學習算法半監督學習自監督學習監督學習半監督學習半監督學習監督學習半監督學習監督學習與非監督學習的區別