一、任務
這次我們將了解在機器學習中支持向量機的使用方法以及一些參數的調整。支持向量機的基本原理就是將低維不可分問題轉換為高維可分問題,在前面的博客具體介紹過了,這里就不再介紹了。
首先導入相關標准庫:
%matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy import stats import seaborn as sns;sns.set() # 使用seaborn的默認設置
作為一個例子,首先我們隨機生成一些數據,考慮分類任務的簡單情況,其中兩個類別的點是良好分隔的:
# 隨機來點數據 make_blobs為聚類產生數據集 from sklearn.datasets.samples_generator import make_blobs # center:產生數據的中心點,默認值3 X, y = make_blobs(n_samples=50, centers=2, random_state=0, cluster_std=0.60) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
畫出的散點圖為當前數據的分布情況

我們將嘗試繪制分離兩組數據的直線,從而創建分類模型。對於這里所示的二維數據,這是我們可以手動完成的任務。 但是立刻我們看到一個問題:有兩個以上的可能的分界線可以完美地區分兩個類!
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plt.plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10)
for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]:
plt.plot(xfit, m * xfit + b, '-k')
plt.xlim(-1, 3.5)
這些是三個不同的分隔直線,然而,這些分隔直線能夠完全區分這些樣例。 顯然,我們簡單的直覺,“在分類之間划線”是不夠的,我們需要進一步思考,根據支持向量機的思想,這樣划分的效果不太理想。

支持向量機提供了一種改進方法。 直覺是這樣的:我們並非在分類之間,簡單繪制一個零寬度的直線,而是畫出邊距為一定寬度的直線,直到最近的點。 這是一個例子:
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]:
yfit = m * xfit + b
plt.plot(xfit, yfit, '-k')
plt.fill_between(xfit, yfit - d, yfit + d, edgecolor='none',
color='#AAAAAA', alpha=0.4) # alpha透明度
plt.xlim(-1, 3.5);
如圖所示

在支持向量機中,邊距最大化的直線是我們將選擇的最優模型。 支持向量機是這種最大邊距估計器的一個例子。
二、訓練一個基本的SVM
我們來看看這個數據的實際結果:我們將使用 sklearn 的支持向量分類器,對這些數據訓練 SVM 模型。 目前,我們將使用一個線性核並將C參數設置為一個默認的數值。
from sklearn.svm import SVC # Support Vector Classifier model = SVC(kernel='linear') # 線性核函數 model.fit(X, y)
得到的SVM模型為
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
kernel='linear', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)
為了更好展現這里發生的事情,讓我們創建一個輔助函數,為我們繪制 SVM 的決策邊界。
#繪圖函數
def plot_svc_decision_function(model, ax=None, plot_support=True):
"""Plot the decision function for a 2D SVC"""
if ax is None:
ax = plt.gca() # get子圖
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# create grid to evaluate model
x = np.linspace(xlim[0], xlim[1], 30)
y = np.linspace(ylim[0], ylim[1], 30)
Y, X = np.meshgrid(y, x) # 生成網格點和坐標矩陣
xy = np.vstack([X.ravel(), Y.ravel()]).T # 堆疊數組
P = model.decision_function(xy).reshape(X.shape)
# plot decision boundary and margins
ax.contour(X, Y, P, colors='k',
levels=[-1, 0, 1], alpha=0.5,
linestyles=['--', '-', '--']) # 生成等高線 - -
# plot support vectors
if plot_support:
ax.scatter(model.support_vectors_[:, 0],
model.support_vectors_[:, 1],
s=300, linewidth=1, facecolors='none');
ax.set_xlim(xlim)
ax.set_ylim(ylim)
繪出決策邊界
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(model);
如圖所示:

這是最大化兩組點之間的間距的分界線,那中間這條線就是我們最終的決策邊界了。 請注意,一些訓練點碰到了邊緣, 這些點是這種擬合的關鍵要素,被稱為支持向量。 在 Scikit-Learn 中,這些點存儲在分類器的support_vectors_屬性中:
model.support_vectors_
得到的支持向量的結果
array([[0.44359863, 3.11530945],
[2.33812285, 3.43116792],
[2.06156753, 1.96918596]])
在支持向量機只有位於支持向量上面的點才會對決策邊界有影響,也就是說不管有多少的點是非支持向量,那對最終的決策邊界都不會產生任何影響。我們可以看到這一點,例如,如果我們繪制該數據集的前 60 個點和前120個點獲得的模型:
def plot_svm(N=10, ax=None):
X, y = make_blobs(n_samples=200, centers=2,
random_state=0, cluster_std=0.60)
X = X[:N]
y = y[:N]
model = SVC(kernel='linear', C=1E10)
model.fit(X, y)
ax = ax or plt.gca()
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
ax.set_xlim(-1, 4)
ax.set_ylim(-1, 6)
plot_svc_decision_function(model, ax)
fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for axi, N in zip(ax, [60, 120]):
plot_svm(N, axi)
axi.set_title('N = {0}'.format(N))
觀察可以發現分別使用60個和120個數據點,決策邊界卻沒有發生變化。所有只要支持向量沒變,其他的數據怎么加無所謂!

三、引入核函數的SVM
首先我們先用線性的核來看一下在下面這樣比較難的數據集上還能分了嗎?
from sklearn.datasets.samples_generator import make_circles X, y = make_circles(100, factor=.1, noise=.1) # 二維圓形數據 factor 內外圓比例 (0,1) clf = SVC(kernel='linear').fit(X, y) plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') plot_svc_decision_function(clf, plot_support=False);
數據集如圖所示:

很明顯,用線性分類分不了了,那咋辦呢?試試高維核變換吧!
#加入了新的維度r
from mpl_toolkits import mplot3d
r = np.exp(-(X ** 2).sum(1))
def plot_3D(elev=30, azim=30, X=X, y=y):
ax = plt.subplot(projection='3d')
ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap='autumn')
ax.view_init(elev=elev, azim=azim) # 設置3D視圖的角度 一般都為45
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('r')
plot_3D(elev=45, azim=45, X=X, y=y)
畫出剛才的數據集的一個3維圖像

在 Scikit-Learn 中,我們可以通過使用kernel模型超參數,將線性核更改為 RBF(徑向基函數,也叫高斯核函數)核來進行核變換,先暫時不管C參數:
#加入徑向基函數 clf = SVC(kernel='rbf', C=1E6) clf.fit(X, y)
得到的SVM模型為
SVC(C=1000000.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
kernel='rbf', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)
再次進行分類任務
#這回牛逼了!
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(clf)
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
s=300, lw=1, facecolors='none');
分類結果如圖

使用這種核支持向量機,我們學習一個合適的非線性決策邊界。這種核變換策略在機器學習中經常被使用!
四、軟間隔問題
軟間隔問題主要是調節C參數, 當C趨近於無窮大時:意味着分類嚴格不能有錯誤, 當C趨近於很小的時:意味着可以有更大的錯誤容忍
X, y = make_blobs(n_samples=100, centers=2,
random_state=0, cluster_std=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn');
先看看有噪聲點的數據的分布

上面的分布看起來要嚴格地進行划分的話,似乎不太可能,我們可以進行軟間隔調整看看
X, y = make_blobs(n_samples=100, centers=2,
random_state=0, cluster_std=0.8)
fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for axi, C in zip(ax, [10.0, 0.1]):
model = SVC(kernel='linear', C=C).fit(X, y)
axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(model, axi)
axi.scatter(model.support_vectors_[:, 0],
model.support_vectors_[:, 1],
s=300, lw=1, facecolors='none');
axi.set_title('C = {0:.1f}'.format(C), size=14)
可以比較不同C參數模型地結果,在實際應用中可以適當調整以提高模型的泛化能力。

下面再看另一個參數gamma值,這個參數只是在高斯核函數里面才有。這個參數控制着模型的復雜程度,這個值越大,模型越復雜,值越小,模型就越精簡。
X, y = make_blobs(n_samples=100, centers=2,
random_state=0, cluster_std=1.1)
fig, ax = plt.subplots(1, 2, figsize=(16, 6))
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1)
for axi, gamma in zip(ax, [10.0, 0.1]):
model = SVC(kernel='rbf', gamma=gamma).fit(X, y)
axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn')
plot_svc_decision_function(model, axi)
axi.scatter(model.support_vectors_[:, 0],
model.support_vectors_[:, 1],
s=300, lw=1, facecolors='none');
axi.set_title('gamma = {0:.1f}'.format(gamma), size=14)
可以比較一下,當這個參數較大時,可以看出模型分類效果很好,但泛化不太好。當這個參數較小時,可以看出模型里面有些分類是有錯誤的,但是這個泛化能力更好,一般也應有的更多。

四、總結
通過這次簡單的練習,對支持向量機模型有了更加深刻的理解,學習了在支持向量機中SVM的基本使用,以及軟間隔參數的調整,還有核函數變化和gamma值等一些參數的比較。
