SVM算法實現（一）

本文轉載自查看原文 2014-12-25 10:02 2582

關鍵字(keywords)：SVM 支持向量機 SMO算法實現機器學習

假設對SVM原理不是非常懂的，能夠先看一下入門的視頻，對幫助理解非常實用的，然后再深入一點能夠看看這幾篇入門文章，作者寫得挺具體，看完以后SVM的基礎就了解得差點兒相同了，再然后買本《支持向量機導論》作者是Nello Cristianini 和 John Shawe-Taylor，電子工業出版社的。然后把書本后面的那個SMO算法實現就基本上弄懂了SVM是怎么一回事，最后再編寫一個SVM庫出來，比方說像libsvm等工具使用，呵呵，差點兒相同就這樣。這些是我學習SVM的整個過程，也算是經驗吧。

以下是SVM的簡化版SMO算法，我將結合Java代碼來解釋一下整個SVM的學習訓練過程，即所謂的train訓練過程。那么什么是SMO算法呢？

SMO算法的目的無非是找出一個函數f(x)，這個函數能讓我們把輸入的數據x進行分類。既然是分類肯定須要一個評判的標准，比方分出來有兩種情況A和B,那么怎么樣才干說x是屬於A類的，或不是B類的呢？就是須要有個邊界，就好像兩個國家一樣有邊界，假設邊界越明顯，則就越easy區分，因此，我們的目標是最大化邊界的寬度，使得很easy的區分是A類還是B類。

在SVM中，要最大化邊界則須要最小化這個數值：

w：是參量，值越大邊界越明顯
C代表懲處系數，即假設某個x是屬於某一類，可是它偏離了該類，跑到邊界上后者其它類的地方去了，C越大表明越不想放棄這個點，邊界就會縮小
代表：松散變量
但問題似乎還不好解，又由於SVM是一個凸二次規划問題，凸二次規划問題有最優解，於是問題轉換成下列形式（KKT條件）：

…………(1)

這里的ai是拉格朗日乘子(問題通過拉格朗日乘法數來求解)
對於（a）的情況，表明ai是正常分類，在邊界內部（我們知道正確分類的點yi*f(xi)>=0）
對於（b）的情況，表明了ai是支持向量，在邊界上
對於（c）的情況，表明了ai是在兩條邊界之間
而最優解須要滿足KKT條件，即滿足（a）（b）（c）條件都滿足
下面幾種情況出現將會出現不滿足：

yiui<=1可是ai<C則是不滿足的,而原本ai=C
yiui>=1可是ai>0則是不滿足的而原本ai=0
yiui=1可是ai=0或者ai=C則表明不滿足的，而原本應該是0<ai<C
所以要找出不滿足KKT的這些ai，並更新這些ai，但這些ai又受到另外一個約束，即

因此，我們通過還有一個方法，即同一時候更新ai和aj，滿足下面等式

就能保證和為0的約束。

利用y_ia_i+y_ja_j=常數，消去a_i，可得到一個關於單變量a_j的一個凸二次規划問題，不考慮其約束0<=a_j<=C,能夠得其解為：

………………………………………(2)

這里………………(3)

表示舊值，然后考慮約束0<=a_j<=C可得到a的解析解為：

…………(4)

對於

那么怎樣求得a_i和a_j呢？

對於a_i，即第一個乘子，能夠通過剛剛說的那幾種不滿足KKT的條件來找，第二個乘子a_j能夠找滿足條件

…………………………………………………………………………（5）

b的更新：

在滿足條件：下更新b。……………（6）

最后更新全部ai，y和b，這樣模型就出來了，然后通過函數：

……………………………………………………（7）

輸入是x，是一個數組，組中每個值表示一個特征。

輸出是A類還是B類。（正類還是負類）

下面是基本的代碼段：

/* * 默認輸入參數值 * C: regularization parameter * tol: numerical tolerance * max passes */ double C = 1; //對不在界內的懲處因子 double tol = 0.01;//容忍極限值 int maxPasses = 5; //表示沒有改變拉格朗日乘子的最多迭代次數 /* * 初始化a[], b, passes */ double a[] = new double[x.length];//拉格朗日乘子 this.a = a; //將乘子初始化為0 for (int i = 0; i < x.length; i++) { a[i] = 0; } int passes = 0; while (passes < maxPasses) { //表示改變乘子的次數（基本上是成對改變的） int num_changed_alphas = 0; for (int i = 0; i < x.length; i++) { //表示特定階段由a和b所決定的輸出與真實yi的誤差 //參照公式(7) double Ei = getE(i); /* * 把違背KKT條件的ai作為第一個 * 滿足KKT條件的情況是： * yi*f(i) >= 1 and alpha == 0 (正確分類) * yi*f(i) == 1 and 0<alpha < C (在邊界上的支持向量) * yi*f(i) <= 1 and alpha == C (在邊界之間) * * * * ri = y[i] * Ei = y[i] * f(i) - y[i]^2 >= 0 * 假設ri < 0而且alpha < C 則違反了KKT條件 * 由於原本ri < 0 應該相應的是alpha = C * 同理，ri > 0而且alpha > 0則違反了KKT條件 * 由於原本ri > 0相應的應該是alpha =0 */ if ((y[i] * Ei < -tol && a[i] < C) || (y[i] * Ei > tol && a[i] > 0)) { /* * ui*yi=1邊界上的點 0 < a[i] < C * 找MAX|E1 - E2| */ int j; /* * boundAlpha表示x點處於邊界上所相應的 * 拉格朗日乘子a的集合 */ if (this.boundAlpha.size() > 0) { //參照公式(5) j = findMax(Ei, this.boundAlpha); } else //假設邊界上沒有，就隨便選一個j != i的aj j = RandomSelect(i); double Ej = getE(j); //保存當前的ai和aj double oldAi = a[i]; double oldAj = a[j]; /* * 計算乘子的范圍U, V * 參考公式(4) */ double L, H; if (y[i] != y[j]) { L = Math.max(0, a[j] - a[i]); H = Math.min(C, C - a[i] + a[j]); } else { L = Math.max(0, a[i] + a[j] - C); H = Math.min(0, a[i] + a[j]); } /* * 假設eta等於0或者大於0 則表明a最優值應該在L或者U上 */ double eta = 2 * k(i, j) - k(i, i) - k(j, j);//公式(3) if (eta >= 0) continue; a[j] = a[j] - y[j] * (Ei - Ej)/ eta;//公式(2) if (0 < a[j] && a[j] < C) this.boundAlpha.add(j); if (a[j] < L) a[j] = L; else if (a[j] > H) a[j] = H; if (Math.abs(a[j] - oldAj) < 1e-5) continue; a[i] = a[i] + y[i] * y[j] * (oldAj - a[j]); if (0 < a[i] && a[i] < C) this.boundAlpha.add(i); /* * 計算b1， b2 * 參照公式(6) */ double b1 = b - Ei - y[i] * (a[i] - oldAi) * k(i, i) - y[j] * (a[j] - oldAj) * k(i, j); double b2 = b - Ej - y[i] * (a[i] - oldAi) * k(i, j) - y[j] * (a[j] - oldAj) * k(j, j); if (0 < a[i] && a[i] < C) b = b1; else if (0 < a[j] && a[j] < C) b = b2; else b = (b1 + b2) / 2; num_changed_alphas = num_changed_alphas + 1; } } if (num_changed_alphas == 0) { passes++; } else passes = 0; } return new SVMModel(a, y, b);

執行后的結果還算能夠吧，測試數據主要是用了libsvm的heart_scale的數據。

預測的正確率達到73%以上。

假設我把核函數從線性的改為基於RBF將會更好點。

最后，說到SVM算法實現包，應該有非常多，包含svm light，libsvm，有matlab本身自帶的svm工具包等。

另外，完整的代碼，我將上傳到CSDN下載地址上提供下載。

點擊這里下載。

如理解有誤敬請指正！謝謝！

我的郵箱：chen-hongqin@163.com

我的其它博客：

百度：http://hi.baidu.com/futrueboy/home

javaeye：http://futrueboy.javaeye.com/

CSDN: http://blog.csdn.net/techq

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python實現SVM算法 Svm算法原理及實現 <轉>SVM實現之SMO算法支持向量機（SVM）算法的matlab的實現 spark算法實現——svm支持向量機 SVM算法原理分類算法二（SVM） SVM之Python實現 python實現簡單的SVM SVM的代碼實現-python