1 什么是隨機森林?
作為新興起的、高度靈活的一種機器學習算法,隨機森林(Random Forest,簡稱RF)擁有廣泛的應用前景,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。最初,我是在參加校外競賽時接觸到隨機森林算法的。最近幾年的國內外大賽,包括2013年百度校園電影推薦系統大賽、2014年阿里巴巴天池大數據競賽以及Kaggle數據科學競賽,參賽者對隨機森林的使用占有相當高的比例。此外,據我的個人了解來看,一大部分成功進入答辯的隊伍也都選擇了Random Forest 或者 GBDT 算法。所以可以看出,Random Forest在准確率方面還是相當有優勢的。
那說了這么多,那隨機森林到底是怎樣的一種算法呢?
如果讀者接觸過決策樹(Decision Tree)的話,那么會很容易理解什么是隨機森林。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質屬於機器學習的一大分支——集成學習(Ensemble Learning)方法。隨機森林的名稱中有兩個關鍵詞,一個是“隨機”,一個就是“森林”。“森林”我們很好理解,一棵叫做樹,那么成百上千棵就可以叫做森林了,這樣的比喻還是很貼切的,其實這也是隨機森林的主要思想--集成思想的體現。“隨機”的含義我們會在下邊部分講到。
其實從直觀角度來解釋,每棵決策樹都是一個分類器(假設現在針對的是分類問題),那么對於一個輸入樣本,N棵樹會有N個分類結果。而隨機森林集成了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出,這就是一種最簡單的 Bagging 思想。
2 隨機森林的特點
我們前邊提到,隨機森林是一種很靈活實用的方法,它有如下幾個特點:
- 在當前所有算法中,具有極好的准確率/It is unexcelled in accuracy among current algorithms;
- 能夠有效地運行在大數據集上/It runs efficiently on large data bases;
- 能夠處理具有高維特征的輸入樣本,而且不需要降維/It can handle thousands of input variables without variable deletion;
- 能夠評估各個特征在分類問題上的重要性/It gives estimates of what variables are important in the classification;
- 在生成過程中,能夠獲取到內部生成誤差的一種無偏估計/It generates an internal unbiased estimate of the generalization error as the forest building progresses;
- 對於缺省值問題也能夠獲得很好得結果/It has an effective method for estimating missing data and maintains accuracy when a large proportion of the data are missing
- ... ...
實際上,隨機森林的特點不只有這六點,它就相當於機器學習領域的Leatherman(多面手),你幾乎可以把任何東西扔進去,它基本上都是可供使用的。在估計推斷映射方面特別好用,以致都不需要像SVM那樣做很多參數的調試。具體的隨機森林介紹可以參見隨機森林主頁:Random Forest。
3 隨機森林的相關基礎知識
隨機森林看起來是很好理解,但是要完全搞明白它的工作原理,需要很多機器學習方面相關的基礎知識。在本文中,我們簡單談一下,而不逐一進行贅述,如果有同學不太了解相關的知識,可以參閱其他博友的一些相關博文或者文獻。
1)信息、熵以及信息增益的概念
這三個基本概念是決策樹的根本,是決策樹利用特征來分類時,確定特征選取順序的依據。理解了它們,決策樹你也就了解了大概。
引用香農的話來說,信息是用來消除隨機不確定性的東西。當然這句話雖然經典,但是還是很難去搞明白這種東西到底是個什么樣,可能在不同的地方來說,指的東西又不一樣。對於機器學習中的決策樹而言,如果帶分類的事物集合可以划分為多個類別當中,則某個類(xi)的信息可以定義如下:
I(x)用來表示隨機變量的信息,p(xi)指是當xi發生時的概率。
熵是用來度量不確定性的,當熵越大,X=xi的不確定性越大,反之越小。對於機器學習中的分類問題而言,熵越大即這個類別的不確定性更大,反之越小。
信息增益在決策樹算法中是用來選擇特征的指標,信息增益越大,則這個特征的選擇性越好。
這方面的內容不再細述,感興趣的同學可以看 信息&熵&信息增益 這篇博文。
2)決策樹
決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。常見的決策樹算法有C4.5、ID3和CART。
3)集成學習
集成學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。這些預測最后結合成單預測,因此優於任何一個單分類的做出預測。
隨機森林是集成學習的一個子類,它依靠於決策樹的投票選擇來決定最后的分類結果。你可以在這找到用python實現集成學習的文檔:Scikit 學習文檔。
4 隨機森林的生成
前面提到,隨機森林中有許多的分類樹。我們要將一個輸入樣本進行分類,我們需要將輸入樣本輸入到每棵樹中進行分類。打個形象的比喻:森林中召開會議,討論某個動物到底是老鼠還是松鼠,每棵樹都要獨立地發表自己對這個問題的看法,也就是每棵樹都要投票。該動物到底是老鼠還是松鼠,要依據投票情況來確定,獲得票數最多的類別就是森林的分類結果。森林中的每棵樹都是獨立的,99.9%不相關的樹做出的預測結果涵蓋所有的情況,這些預測結果將會彼此抵消。少數優秀的樹的預測結果將會超脫於芸芸“噪音”,做出一個好的預測。將若干個弱分類器的分類結果進行投票選擇,從而組成一個強分類器,這就是隨機森林bagging的思想(關於bagging的一個有必要提及的問題:bagging的代價是不用單棵決策樹來做預測,具體哪個變量起到重要作用變得未知,所以bagging改進了預測准確率但損失了解釋性。)。下圖可以形象地描述這個情況:
有了樹我們就可以分類了,但是森林中的每棵樹是怎么生成的呢?
每棵樹的按照如下規則生成:
1)如果訓練集大小為N,對於每棵樹而言,隨機且有放回地從訓練集中的抽取N個訓練樣本(這種采樣方式稱為bootstrap sample方法),作為該樹的訓練集;
從這里我們可以知道:每棵樹的訓練集都是不同的,而且里面包含重復的訓練樣本(理解這點很重要)。
為什么要隨機抽樣訓練集?(add @2016.05.28)
如果不進行隨機抽樣,每棵樹的訓練集都一樣,那么最終訓練出的樹分類結果也是完全一樣的,這樣的話完全沒有bagging的必要;
為什么要有放回地抽樣?(add @2016.05.28)
我理解的是這樣的:如果不是有放回的抽樣,那么每棵樹的訓練樣本都是不同的,都是沒有交集的,這樣每棵樹都是"有偏的",都是絕對"片面的"(當然這樣說可能不對),也就是說每棵樹訓練出來都是有很大的差異的;而隨機森林最后分類取決於多棵樹(弱分類器)的投票表決,這種表決應該是"求同",因此使用完全不同的訓練集來訓練每棵樹這樣對最終分類結果是沒有幫助的,這樣無異於是"盲人摸象"。
2)如果每個樣本的特征維度為M,指定一個常數m<<M,隨機地從M個特征中選取m個特征子集,每次樹進行分裂時,從這m個特征中選擇最優的;
3)每棵樹都盡最大程度的生長,並且沒有剪枝過程。
一開始我們提到的隨機森林中的“隨機”就是指的這里的兩個隨機性。兩個隨機性的引入對隨機森林的分類性能至關重要。由於它們的引入,使得隨機森林不容易陷入過擬合,並且具有很好得抗噪能力(比如:對缺省值不敏感)。
隨機森林分類效果(錯誤率)與兩個因素有關:
- 森林中任意兩棵樹的相關性:相關性越大,錯誤率越大;
- 森林中每棵樹的分類能力:每棵樹的分類能力越強,整個森林的錯誤率越低。
減小特征選擇個數m,樹的相關性和分類能力也會相應的降低;增大m,兩者也會隨之增大。所以關鍵問題是如何選擇最優的m(或者是范圍),這也是隨機森林唯一的一個參數。
5 袋外錯誤率(oob error)
上面我們提到,構建隨機森林的關鍵問題就是如何選擇最優的m,要解決這個問題主要依據計算袋外錯誤率oob error(out-of-bag error)。
隨機森林有一個重要的優點就是,沒有必要對它進行交叉驗證或者用一個獨立的測試集來獲得誤差的一個無偏估計。它可以在內部進行評估,也就是說在生成的過程中就可以對誤差建立一個無偏估計。
我們知道,在構建每棵樹時,我們對訓練集使用了不同的bootstrap sample(隨機且有放回地抽取)。所以對於每棵樹而言(假設對於第k棵樹),大約有1/3的訓練實例沒有參與第k棵樹的生成,它們稱為第k棵樹的oob樣本。
而這樣的采樣特點就允許我們進行oob估計,它的計算方式如下:
(note:以樣本為單位)
1)對每個樣本,計算它作為oob樣本的樹對它的分類情況(約1/3的樹);
2)然后以簡單多數投票作為該樣本的分類結果;
3)最后用誤分個數占樣本總數的比率作為隨機森林的oob誤分率。
(文獻原文:Put each case left out in the construction of the kth tree down the kth tree to get a classification. In this way, a test set classification is obtained for each case in about one-third of the trees. At the end of the run, take j to be the class that got most of the votes every time case n was oob. The proportion of times that j is not equal to the true class of n averaged over all cases is the oob error estimate. This has proven to be unbiased in many tests.)
oob誤分率是隨機森林泛化誤差的一個無偏估計,它的結果近似於需要大量計算的k折交叉驗證。
6 隨機森林工作原理解釋的一個簡單例子
描述:根據已有的訓練集已經生成了對應的隨機森林,隨機森林如何利用某一個人的年齡(Age)、性別(Gender)、教育情況(Highest Educational Qualification)、工作領域(Industry)以及住宅地(Residence)共5個字段來預測他的收入層次。
收入層次 :
Band 1 : Below $40,000
Band 2: $40,000 – 150,000
Band 3: More than $150,000
隨機森林中每一棵樹都可以看做是一棵CART(分類回歸樹),這里假設森林中有5棵CART樹,總特征個數N=5,我們取m=1(這里假設每個CART樹對應一個不同的特征)。
CART 1 : Variable Age
CART 2 : Variable Gender
CART 3 : Variable Education
CART 4 : Variable Residence
CART 5 : Variable Industry
我們要預測的某個人的信息如下:
1. Age : 35 years ; 2. Gender : Male ; 3. Highest Educational Qualification : Diploma holder; 4. Industry : Manufacturing; 5. Residence : Metro.
根據這五棵CART樹的分類結果,我們可以針對這個人的信息建立收入層次的分布情況:
最后,我們得出結論,這個人的收入層次70%是一等,大約24%為二等,6%為三等,所以最終認定該人屬於一等收入層次(小於$40,000)。
7 隨機森林的Python實現
利用Python的兩個模塊,分別為pandas和scikit-learn來實現隨機森林。
from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier import pandas as pd import numpy as np iris = load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75 df['species'] = pd.Factor(iris.target, iris.target_names) df.head() train, test = df[df['is_train']==True], df[df['is_train']==False] features = df.columns[:4] clf = RandomForestClassifier(n_jobs=2) y, _ = pd.factorize(train['species']) clf.fit(train[features], y) preds = iris.target_names[clf.predict(test[features])] pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])
分類結果:
與其他機器學習分類算法進行對比:
import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap from sklearn.cross_validation import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.datasets import make_moons, make_circles, make_classification from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier from sklearn.naive_bayes import GaussianNB from sklearn.lda import LDA from sklearn.qda import QDA h = .02 # step size in the mesh names = ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Decision Tree", "Random Forest", "AdaBoost", "Naive Bayes", "LDA", "QDA"] classifiers = [ KNeighborsClassifier(3), SVC(kernel="linear", C=0.025), SVC(gamma=2, C=1), DecisionTreeClassifier(max_depth=5), RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1), AdaBoostClassifier(), GaussianNB(), LDA(), QDA()] X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, random_state=1, n_clusters_per_class=1) rng = np.random.RandomState(2) X += 2 * rng.uniform(size=X.shape) linearly_separable = (X, y) datasets = [make_moons(noise=0.3, random_state=0), make_circles(noise=0.2, factor=0.5, random_state=1), linearly_separable ] figure = plt.figure(figsize=(27, 9)) i = 1 # iterate over datasets for ds in datasets: # preprocess dataset, split into training and test part X, y = ds X = StandardScaler().fit_transform(X) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4) x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5 y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5 xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) # just plot the dataset first cm = plt.cm.RdBu cm_bright = ListedColormap(['#FF0000', '#0000FF']) ax = plt.subplot(len(datasets), len(classifiers) + 1, i) # Plot the training points ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright) # and testing points ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6) ax.set_xlim(xx.min(), xx.max()) ax.set_ylim(yy.min(), yy.max()) ax.set_xticks(()) ax.set_yticks(()) i += 1 # iterate over classifiers for name, clf in zip(names, classifiers): ax = plt.subplot(len(datasets), len(classifiers) + 1, i) clf.fit(X_train, y_train) score = clf.score(X_test, y_test) # Plot the decision boundary. For that, we will assign a color to each # point in the mesh [x_min, m_max]x[y_min, y_max]. if hasattr(clf, "decision_function"): Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()]) else: Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1] # Put the result into a color plot Z = Z.reshape(xx.shape) ax.contourf(xx, yy, Z, cmap=cm, alpha=.8) # Plot also the training points ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright) # and testing points ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6) ax.set_xlim(xx.min(), xx.max()) ax.set_ylim(yy.min(), yy.max()) ax.set_xticks(()) ax.set_yticks(()) ax.set_title(name) ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).lstrip('0'), size=15, horizontalalignment='right') i += 1 figure.subplots_adjust(left=.02, right=.98) plt.show()
這里隨機生成了三個樣本集,分割面近似為月形、圓形和線形的。我們可以重點對比一下決策樹和隨機森林對樣本空間的分割:
1)從准確率上可以看出,隨機森林在這三個測試集上都要優於單棵決策樹,90%>85%,82%>80%,95%=95%;
2)從特征空間上直觀地可以看出,隨機森林比決策樹擁有更強的分割能力(非線性擬合能力)。
更多有關隨機森林的代碼:
2)OpenCV版本
3)Matlab版本
4)R版本
一、決策樹
決策樹是機器學習最基本的模型,在不考慮其他復雜情況下,我們可以用一句話來描述決策樹:如果得分大於等於60分,那么你及格了。
這是一個最最簡單的決策樹的模型,我們把及格和沒及格分別附上標簽,及格(1),沒及格(0),那么得到的決策樹是這樣的
但是我們幾乎不會讓計算機做這么簡單的工作,我們把情況變得復雜一點
引用別的文章的一個例子
這是一張女孩對於不同條件的男性是否會選擇見面的統計表,圖中是否見面作為我們需要分類的結果,因此最后我們的結果無非就只是是和否兩種情況。這是一個二分類的問題,但是需要判斷的條件多了很多,現在不僅僅只是一個判斷就能得出結果了,但是從上圖我們找到了一個結果為否的記錄,因此如果一個男性在城市無房產、年收入小於 17w 且離過婚,則可以預測女孩不會跟他見面。
那么問題就來了,在這種復雜的情況下,決策樹怎么構建?
先通過城市是否擁有房產這條特征,把這10個人划分為2類
這個分類結果並不是很好,因為它沒有將見面與不見面完全的分開,在算法中,當然不能憑我們的“感覺”去評價分類結果的好壞。我們需要用一個數去表示。
二、Gini不純度
Gini不純度是對分類結果好壞的度量標准(還可以用信息熵和增益去表示,可自行了解)
他的值是:1-每個標簽占總數的比例的平方和。即1–∑mi=1fi2
對於上述的結果來講,總的集合D被分為兩個集合D1,D2,假設見面為1,不見面為0。
那么D1的不純度為1-f1^2-f0^2,總數為5,見面的占了全部,則f1=1,f0=0,結果為0
D2的不純度為1-f1^2-f0^2,f1=0.8,f0=0.2,結果為0.32
ok,那么整個分類結果的Gini不純度就是D1/D與0的乘積 加上 D2/D與0.32的乘積,為0.16
Gini值代表了某一個分類結果的“純度”,我們希望結果的純度很高,這樣就不需要對這一結果進行處理了。
從以上分析可以看出,Gini值越小,純度越高,結果越好。
三、決策樹的生成
在第一個例子中“如果得分大於等於60分,那么你及格了”中,生成決策樹步驟是首先選擇特征,“得分”,然后確定臨界值,“>=60”
1.復雜的情況下也是一樣,對於每一個特征,找到一個使得Gini值最小的分割點(這個分割點可以是>,<,>=這樣的判斷,也可以是=,!=),然后比較每個特征之間最小的Gini值,作為當前最優的特征的最優分割點(這實際上涉及到了兩個步驟,選擇最優特征以及選擇最優分割點)。
2.在第一步完成后,會生成兩個葉節點,我們對這兩個葉節點做判斷,計算它的Gini值是否足夠小(若是,就將其作為葉子不再分類)
3.將上步得到的葉節點作為新的集合,進行步驟1的分類,延伸出兩個新的葉子節點(當然此時該節點變成了父節點)
4.循環迭代至不再有Gini值不符合標准的葉節點
四、決策樹的缺陷
我們用決策樹把一個平面上的眾多點分為兩類,每一個點都有(x1,x2)兩個特征,下面展示分類的過程
最后生成的決策樹,取了四個分割點,在圖上的顯示如下,只要是落在中央矩形區域內默認是綠色,否則為紅色
不過這種情況是分類參數選擇比較合理的情況(它不介意某些綠色的點落在外圍),但是當我們在訓練的時候需要將所有的綠點無差錯的分出來(即參數選擇不是很合理的情況),決策樹會產生過擬合的現象,導致泛化能力變弱。
五、隨機森林
鑒於決策樹容易過擬合的缺點,隨機森林采用多個決策樹的投票機制來改善決策樹,我們假設隨機森林使用了m棵決策樹,那么就需要產生m個一定數量的樣本集來訓練每一棵樹,如果用全樣本去訓練m棵決策樹顯然是不可取的,全樣本訓練忽視了局部樣本的規律,對於模型的泛化能力是有害的
產生n個樣本的方法采用Bootstraping法,這是一種有放回的抽樣方法,產生n個樣本
而最終結果采用Bagging的策略來獲得,即多數投票機制
隨機森林的生成方法:
1.從樣本集中通過重采樣的方式產生n個樣本
2.假設樣本特征數目為a,對n個樣本選擇a中的k個特征,用建立決策樹的方式獲得最佳分割點
3.重復m次,產生m棵決策樹
4.多數投票機制來進行預測
(需要注意的一點是,這里m是指循環的次數,n是指樣本的數目,n個樣本構成訓練的樣本集,而m次循環中又會產生m個這樣的樣本集)
轉自:http://blog.csdn.net/mao_xiao_feng/article/details/52728164
六、隨機森林模型的總結
隨機森林是一個比較優秀的模型,在我的項目的使用效果上來看,它對於多維特征的數據集分類有很高的效率,還可以做特征重要性的選擇。運行效率和准確率較高,實現起來也比較簡單。但是在數據噪音比較大的情況下會過擬合,過擬合的缺點對於隨機森林來說還是較為致命的。
Bagging and Boosting 概念和區別
Bagging和Boosting都是將已有的分類或回歸算法通過一定方式組合起來,形成一個性能更加強大的分類器,更准確的說這是一種分類算法的組裝方法。即將弱分類器組裝成強分類器的方法。
首先介紹Bootstraping,即自助法:它是一種有放回的抽樣方法(可能抽到重復的樣本)。
1、Bagging (bootstrap aggregating)
Bagging即套袋法,其算法過程如下:
A)從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中)。共進行k輪抽取,得到k個訓練集。(k個訓練集之間是相互獨立的)
B)每次使用一個訓練集得到一個模型,k個訓練集共得到k個模型。(注:這里並沒有具體的分類算法或回歸方法,我們可以根據具體問題采用不同的分類或回歸方法,如決策樹、感知器等)
C)對分類問題:將上步得到的k個模型采用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最后的結果。(所有模型的重要性相同)
2、Boosting
其主要思想是將弱分類器組裝成一個強分類器。在PAC(概率近似正確)學習框架下,則一定可以將弱分類器組裝成一個強分類器。
關於Boosting的兩個核心問題:
1)在每一輪如何改變訓練數據的權值或概率分布?
通過提高那些在前一輪被弱分類器分錯樣例的權值,減小前一輪分對樣例的權值,來使得分類器對誤分的數據有較好的效果。
2)通過什么方式來組合弱分類器?
通過加法模型將弱分類器進行線性組合,比如AdaBoost通過加權多數表決的方式,即增大錯誤率小的分類器的權值,同時減小錯誤率較大的分類器的權值。
而提升樹通過擬合殘差的方式逐步減小殘差,將每一步生成的模型疊加得到最終模型。
3、Bagging,Boosting二者之間的區別
Bagging和Boosting的區別:
1)樣本選擇上:
Bagging:訓練集是在原始集中有放回選取的,從原始集中選出的各輪訓練集之間是獨立的。
Boosting:每一輪的訓練集不變,只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。
2)樣例權重:
Bagging:使用均勻取樣,每個樣例的權重相等
Boosting:根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大。
3)預測函數:
Bagging:所有預測函數的權重相等。
Boosting:每個弱分類器都有相應的權重,對於分類誤差小的分類器會有更大的權重。
4)並行計算:
Bagging:各個預測函數可以並行生成
Boosting:各個預測函數只能順序生成,因為后一個模型參數需要前一輪模型的結果。
4、總結
這兩種方法都是把若干個分類器整合為一個分類器的方法,只是整合的方式不一樣,最終得到不一樣的效果,將不同的分類算法套入到此類算法框架中一定程度上會提高了原單一分類器的分類效果,但是也增大了計算量。
下面是將決策樹與這些算法框架進行結合所得到的新的算法:
1)Bagging + 決策樹 = 隨機森林
2)AdaBoost + 決策樹 = 提升樹
3)Gradient Boosting + 決策樹 = GBDT
5、Adaptive Boosting是一種迭代算法。
每輪迭代中會在訓練集上產生一個新的學習器,然后使用該學習器對所有樣本進行預測,以評估每個樣本的重要性(Informative)。換句話來講就是,算法會為每個樣本賦予一個權重,每次用訓練好的學習器標注/預測各個樣本,如果某個樣本點被預測的越正確,則將其權重降低;否則提高樣本的權重。權重越高的樣本在下一個迭代訓練中所占的比重就越大,也就是說越難區分的樣本在訓練過程中會變得越重要;整個迭代過程直到錯誤率足夠小或者達到一定的迭代次數為止。
Adaboost算法可以簡述為三個步驟:
(1)首先,是初始化訓練數據的權值分布D1。假設有N個訓練樣本數據,則每一個訓練樣本最開始時,都被賦予相同的權值:w1=1/N。
(2)然后,訓練弱分類器hi。具體訓練過程中是:如果某個訓練樣本點,被弱分類器hi准確地分類,那么在構造下一個訓練集中,它對應的權值要減小;相反,如果某個訓練樣本點被錯誤分類,那么它的權值就應該增大。權值更新過的樣本集被用於訓練下一個分類器,整個訓練過程如此迭代地進行下去。
(3)最后,將各個訓練得到的弱分類器組合成一個強分類器。各個弱分類器的訓練過程結束后,加大分類誤差率小的弱分類器的權重,使其在最終的分類函數中起着較大的決定作用,而降低分類誤差率大的弱分類器的權重,使其在最終的分類函數中起着較小的決定作用。
換而言之,誤差率低的弱分類器在最終分類器中占的權重較大,否則較小。
二、AdaBoost算法過程
給定訓練數據集:,其中
用於表示訓練樣本的類別標簽,i=1,...,N。Adaboost的目的就是從訓練數據中學習一系列弱分類器或基本分類器,然后將這些弱分類器組合成一個強分類器。
相關符號定義:
Adaboost的算法流程如下:
相關說明:
綜合上面的推導,可得樣本分錯與分對時,其權值更新的公式為:
三、AdaBoost實例講解
例:給定如圖所示的訓練樣本,弱分類器采用平行於坐標軸的直線,用Adaboost算法的實現強分類過程。
數據分析:
將這10個樣本作為訓練數據,根據 X 和Y 的對應關系,可把這10個數據分為兩類,圖中用“+”表示類別1,用“O”表示類別-1。本例使用水平或者垂直的直線作為分類器,圖中已經給出了三個弱分類器,即:
初始化:
首先需要初始化訓練樣本數據的權值分布,每一個訓練樣本最開始時都被賦予相同的權值:wi=1/N,這樣訓練樣本集的初始權值分布D1(i):
令每個權值w1i = 1/N = 0.1,其中,N = 10,i = 1,2, ..., 10,然后分別對於t= 1,2,3, ...等值進行迭代(t表示迭代次數,表示第t輪),下表已經給出訓練樣本的權值分布情況:
第1次迭代t=1:
初試的權值分布D1為1/N(10個數據,每個數據的權值皆初始化為0.1),
D1=[0.1, 0.1, 0.1, 0.1, 0.1, 0.1,0.1, 0.1, 0.1, 0.1]
在權值分布D1的情況下,取已知的三個弱分類器h1、h2和h3中誤差率最小的分類器作為第1個基本分類器H1(x)(三個弱分類器的誤差率都是0.3,那就取第1個吧)
在分類器H1(x)=h1情況下,樣本點“5 7 8”被錯分,因此基本分類器H1(x)的誤差率為:
可見,被誤分類樣本的權值之和影響誤差率e,誤差率e影響基本分類器在最終分類器中所占的權重α。
然后,更新訓練樣本數據的權值分布,用於下一輪迭代,對於正確分類的訓練樣本“1 2 3 4 6 9 10”(共7個)的權值更新為:
這樣,第1輪迭代后,最后得到各個樣本數據新的權值分布:
D2=[1/14,1/14,1/14,1/14,1/6,1/14,1/6,1/6,1/14,1/14]
由於樣本數據“5 7 8”被H1(x)分錯了,所以它們的權值由之前的0.1增大到1/6;反之,其它數據皆被分正確,所以它們的權值皆由之前的0.1減小到1/14,下表給出了權值分布的變換情況:
可得分類函數:f1(x)= α1H1(x) = 0.4236H1(x)。此時,組合一個基本分類器sign(f1(x))作為強分類器在訓練數據集上有3個誤分類點(即5 7 8),此時強分類器的訓練錯誤為:0.3
第二次迭代t=2:
在權值分布D2的情況下,再取三個弱分類器h1、h2和h3中誤差率最小的分類器作為第2個基本分類器H2(x):
① 當取弱分類器h1=X1=2.5時,此時被錯分的樣本點為“5 7 8”:
誤差率e=1/6+1/6+1/6=3/6=1/2;
② 當取弱分類器h2=X1=8.5時,此時被錯分的樣本點為“3 4 6”:
誤差率e=1/14+1/14+1/14=3/14;
③ 當取弱分類器h3=X2=6.5時,此時被錯分的樣本點為“1 2 9”:
誤差率e=1/14+1/14+1/14=3/14;
因此,取當前最小的分類器h2作為第2個基本分類器H2(x)
顯然,H2(x)把樣本“3 4 6”分錯了,根據D2可知它們的權值為D2(3)=1/14,D2(4)=1/14, D2(6)=1/14,所以H2(x)在訓練數據集上的誤差率:
這樣,第2輪迭代后,最后得到各個樣本數據新的權值分布:
D3=[1/22,1/22,1/6,1/6,7/66,1/6,7/66,7/66,1/22,1/22]
下表給出了權值分布的變換情況:
可得分類函數:f2(x)=0.4236H1(x) + 0.6496H2(x)。此時,組合兩個基本分類器sign(f2(x))作為強分類器在訓練數據集上有3個誤分類點(即3 4 6),此時強分類器的訓練錯誤為:0.3
第三次迭代t=3:
在權值分布D3的情況下,再取三個弱分類器h1、h2和h3中誤差率最小的分類器作為第3個基本分類器H3(x):
① 當取弱分類器h1=X1=2.5時,此時被錯分的樣本點為“5 7 8”:
誤差率e=7/66+7/66+7/66=7/22;
② 當取弱分類器h2=X1=8.5時,此時被錯分的樣本點為“3 4 6”:
誤差率e=1/6+1/6+1/6=1/2=0.5;
③ 當取弱分類器h3=X2=6.5時,此時被錯分的樣本點為“1 2 9”:
誤差率e=1/22+1/22+1/22=3/22;
因此,取當前最小的分類器h3作為第3個基本分類器H3(x):
這樣,第3輪迭代后,得到各個樣本數據新的權值分布為:
D4=[1/6,1/6,11/114,11/114,7/114,11/114,7/114,7/114,1/6,1/38]
下表給出了權值分布的變換情況:
可得分類函數:f3(x)=0.4236H1(x) + 0.6496H2(x)+0.9229H3(x)。此時,組合三個基本分類器sign(f3(x))作為強分類器,在訓練數據集上有0個誤分類點。至此,整個訓練過程結束。
整合所有分類器,可得最終的強分類器為:
這個強分類器Hfinal對訓練樣本的錯誤率為0!
本例Matlab代碼,如下:
先建立Matlab函數文件,定義h1,h2和h3三個弱分類器
-
function kind = wcH1( X,TH )
-
%h1弱分類器
-
X1=X(1);
-
X2=X(2);
-
if X1<TH
-
kind=1;
-
else
-
kind=-1;
-
end
-
end
-
-
function kind = wcH2( X,TH )
-
%h2弱分類器
-
X1=X(1);
-
X2=X(2);
-
if X1<TH
-
kind=1;
-
else
-
kind=-1;
-
end
-
end
-
function kind = wcH3( X,TH )
-
%h3弱分類器
-
X1=X(1);
-
X2=X(2);
-
if X2<TH
-
kind=-1;
-
else
-
kind=1;
-
end
-
end
-
主程序Matlab代碼:
-
clc,clear all;
-
%% 訓練樣本數據
-
xData=[ 1 5;2 2;3 1;4 6;6 8;6 5;7 9;8 7;9 8;10 2] %樣本數據點,對應編號為1,2,...10
-
Y=[ 1 1 -1 -1 1 -1 1 1 -1 -1]'; %對應的樣本類別,用1和-1表示
-
xNum=1:10; %編號
-
format rat
-
%% 繪制樣本分布圖
-
L1=find(Y==1);
-
x=xData(L1,1);y=xData(L1,2);
-
plot(x,y,'b+','LineWidth',3,'MarkerSize',12);
-
hold on;
-
L2=find(Y==-1);
-
x=xData(L2,1);y=xData(L2,2);
-
plot(x,y,'ro','LineWidth',3,'MarkerSize',12);
-
xlabel('X1');ylabel('X2');axis([0 10 0 10])
-
%% ***********************************初試過程************************************
-
H1=zeros(10,1);H2=H1;H3=H1
-
for i=1:10
-
X=xData(i,:);
-
H1(i) = wcH1( X,2.5 );%弱分類器h1
-
H2(i) = wcH2( X,8.5 );%弱分類器h2
-
H3(i) = wcH3( X,6.5 );%弱分類器h3
-
end
-
errDataH1=find(H1~=Y);%找到被h1錯分的樣本點的序號
-
errDataH2=find(H2~=Y);%找到被h2錯分的樣本點的序號
-
errDataH3=find(H3~=Y);%找到被h3錯分的樣本點的序號
-
accDataH1=find(H1==Y);%找到被h1正確分的樣本點的序號
-
accDataH2=find(H2==Y);%找到被h2正確分的樣本點的序號
-
accDataH3=find(H3==Y);%找到被h3正確分的樣本點的序號
-
errDataAll=[errDataH1,errDataH2,errDataH3];
-
accDataAll=[accDataH1,accDataH2,accDataH3];
-
-
N=10;
-
D1=zeros(10,1)+1/N % 初始化權值分布
-
%% ***********************************第一次迭代***********************************
-
err1=sum(D1(errDataH1,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
err2=sum(D1(errDataH2,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
err3=sum(D1(errDataH3,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
errAll=[err1,err2,err3];
-
[minErr,minIndex]=min(errAll);
-
%根據誤差率e1計算H1的系數:
-
a1=0.5*log((1-minErr)/minErr)
-
minErrData=errDataAll(:,minIndex);
-
minAccData=accDataAll(:,minIndex);
-
D2=D1;
-
for i=minAccData'
-
D2(i)=D2(i)/( 2*(1-minErr));
-
end
-
for i=minErrData'
-
D2(i)=D2(i)/(2*minErr);
-
end
-
D2
-
%分類函數
-
f1=a1.*H1;
-
kindFinal=sign(f1)%此時強分類器的分類結果
-
-
%% ***********************************第二次迭代***********************************
-
err1=sum(D2(errDataH1,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
err2=sum(D2(errDataH2,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
err3=sum(D2(errDataH3,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
errAll=[err1,err2,err3];
-
[minErr,minIndex]=min(errAll);
-
% 根據誤差率e2計算H2的系數:
-
a2=0.5*log((1-minErr)/minErr)
-
minErrData=errDataAll(:,minIndex);
-
minAccData=accDataAll(:,minIndex);
-
D3=D2;
-
for i=minAccData'
-
D3(i)=D3(i)/( 2*(1-minErr));
-
end
-
for i=minErrData'
-
D3(i)=D3(i)/(2*minErr);
-
end
-
D3
-
% 分類函數
-
f2=a1.*H1+a2*H2;
-
kindFinal=sign(f2)%此時強分類器的分類結果
-
-
%% ***********************************第三次迭代***********************************
-
err1=sum(D3(errDataH1,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
err2=sum(D3(errDataH2,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
err3=sum(D3(errDataH3,:));%所有被錯分類的樣本點的權值之和即為誤差率
-
errAll=[err1,err2,err3];
-
[minErr,minIndex]=min(errAll);
-
% 根據誤差率e3計算G3的系數:
-
a3=0.5*log((1-minErr)/minErr)
-
minErrData=errDataAll(:,minIndex);
-
minAccData=accDataAll(:,minIndex);
-
D4=D3;
-
for i=minAccData'
-
D4(i)=D4(i)/( 2*(1-minErr));
-
end
-
for i=minErrData'
-
D4(i)=D4(i)/(2*minErr);
-
end
-
D4
-
% 分類函數
-
f3=a1.*H1+a2*H2+a3*H3;
-
kindFinal=sign(f3)%此時強分類器的分類結果
-
%%
Adaboost算法的某些特性是非常好的,這里主要介紹Adaboost的兩個特性。(1)是訓練的錯誤率上界,隨着迭代次數的增加,會逐漸下降;(2)是Adaboost算法即使訓練次數很多,也不會出現過擬合的問題。關於這兩方面的研究和分析,我建議各大網友,還是看看大神的博客:http://blog.csdn.net/v_july_v/article/details/40718799
四、AdaBoost的優點和缺點
優點
(1)Adaboost提供一種框架,在框架內可以使用各種方法構建子分類器。可以使用簡單的弱分類器,不用對特征進行篩選,也不存在過擬合的現象。
(2)Adaboost算法不需要弱分類器的先驗知識,最后得到的強分類器的分類精度依賴於所有弱分類器。無論是應用於人造數據還是真實數據,Adaboost都能顯著的提高學習精度。
(3)Adaboost算法不需要預先知道弱分類器的錯誤率上限,且最后得到的強分類器的分類精度依賴於所有弱分類器的分類精度,可以深挖分類器的能力。Adaboost可以根據弱分類器的反饋,自適應地調整假定的錯誤率,執行的效率高。
(4)Adaboost對同一個訓練樣本集訓練不同的弱分類器,按照一定的方法把這些弱分類器集合起來,構造一個分類能力很強的強分類器,即“三個臭皮匠賽過一個諸葛亮”。
缺點:
在Adaboost訓練過程中,Adaboost會使得難於分類樣本的權值呈指數增長,訓練將會過於偏向這類困難的樣本,導致Adaboost算法易受噪聲干擾。此外,Adaboost依賴於弱分類器,而弱分類器的訓練時間往往很長。
GBDT實例
GBDT是迭代多棵回歸樹來共同決策。當采用平方誤差損失函數時,每一棵回歸樹學習的是之前所有樹的結論和殘差,擬合得到一個當前的殘差回歸樹,殘差的意義如公式:殘差 = 真實值 - 預測值 。參考一篇博客的例子,訓練一個GBDT模型來預測年齡:訓練集是4個人,A,B,C,D年齡分別是14,16,24,26。樣本中有購物金額、上網時長、經常到百度知道提問等特征。提升樹的過程如下:

預測值等於所有樹值得累加:
- A: 14歲高一學生,購物較少,經常問學長問題;預測年齡A = 15 – 1 = 14
- B: 16歲高三學生;購物較少,經常被學弟問問題;預測年齡B = 15 + 1 = 16
- C: 24歲應屆畢業生;購物較多,經常問師兄問題;預測年齡C = 25 – 1 = 24
- D: 26歲工作兩年員工;購物較多,經常被師弟問問題;預測年齡D = 25 + 1 = 26
2.2 GBDT算法
GBDT是集成學習Boosting家族的成員,但是卻和傳統的Adaboost有很大的不同。Adaboost是利用前一輪迭代弱學習器的誤差率來更新訓練集的權重,這樣一輪輪的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱學習器限定了只能使用CART回歸樹模型,同時迭代思路和Adaboost也有所不同。在GBDT的迭代中,假設我們前一輪迭代得到的強學習器是ft−1(x)ft−1(x), 損失函數是L(y,ft−1(x))L(y,ft−1(x)) ,,我們本輪迭代的目標是找到一個CART回歸樹模型的弱學習器ht(x)ht(x),讓本輪的損失損失L(y,ft(x))=L(y,ft−1(x))+ht(x)L(y,ft(x))=L(y,ft−1(x))+ht(x)最小。也就是說,本輪迭代找到決策樹,要讓樣本的損失盡量變得更小。
GBDT利用加法模型和前向分步算法實現學習的優化過程。當損失函數是平方損失和指數損失函數時,每一步的優化很簡單。但對於一般的損失函數,往往每一步優化沒那么容易,如下圖中的絕對值損失函數和Huber損失函數。針對這一問題,Freidman提出了用損失函數的負梯度來擬合本輪損失的近似值,進而擬合一個CART回歸樹。

第m輪的第i個樣本的損失函數的負梯度可表示為:
- rim=−[∂L(yi,f(xi))∂f(xi)]f(xi)=fm−1(xi)rim=−[∂L(yi,f(xi))∂f(xi)]f(xi)=fm−1(xi)
算法流程如下:

- 初始化:估計使損失函數極小化的常數值γγ,它是只有一個根節點的樹。
- M輪迭代(生成M棵樹)
- 在第m輪,對於每一個樣本ii,計算損失函數的負梯度在當前模型的值rimrim,將它作為殘差的估計
- 利用樣本集(x,rim)(x,rim)生成一棵回歸樹,以擬合殘差的近似值。其中RjmRjm為第m棵樹的第j個葉子節點,JmJm為回歸樹的葉子節點的個數
- 利用線性搜索估計葉節點區域的值,使損失函數極小化
- 更新模型
- 得到輸出的最終GBDT模型 f(x)f(x)
GBDT算法的scikit-learn實現以及調參可參考:scikit-learn GBDT類庫概述
2.3 GBDT分類算法
GBDT的分類算法從思想上和GBDT的回歸算法沒有區別,但是由於樣本輸出不是連續的值,而是離散的類別,導致我們無法直接從輸出類別去擬合類別輸出的誤差。為了解決這個問題,主要有兩個方法,一個是用指數損失函數,此時GBDT退化為Adaboost算法。另一種方法是用類似於邏輯回歸的對數似然損失函數的方法。也就是說,我們用的是類別的預測概率值和真實概率值的差來擬合損失。於對數似然損失函數,我們又有二元分類和多元分類的區別,具體介紹見:梯度提升樹(GBDT)原理小結。
2.4 GBDT的正則化
和Adaboost一樣,我們也需要對GBDT進行正則化,防止過擬合。GBDT的正則化主要有三種方式:
第一種是和Adaboost類似的正則化項,即步長(learning rate)。定義為νν,對於前面的弱學習器的迭代
- fk(x)=fk−1(x)+hk(x)fk(x)=fk−1(x)+hk(x)
如果我們加上了正則化項,則有:
- fk(x)=fk−1(x)+νhk(x)fk(x)=fk−1(x)+νhk(x)
νν 的取值范圍為0<ν≤10<ν≤1 。對於同樣的訓練集學習效果,較小的νν意味着我們需要更多的弱學習器的迭代次數。通常我們用步長和迭代最大次數一起來決定算法的擬合效果。
第二種正則化的方式是通過子采樣比例(subsample)。取值為(0,1]。注意這里的子采樣和隨機森林不一樣,隨機森林使用的是放回抽樣,而這里是不放回抽樣。如果取值為1,則全部樣本都使用,等於沒有使用子采樣。如果取值小於1,則只有一部分樣本會去做GBDT的決策樹擬合。選擇小於1的比例可以減少方差,即防止過擬合,但是會增加樣本擬合的偏差,因此取值不能太低。推薦在[0.5, 0.8]之間。由於使用了子采樣,程序可以通過采樣分發到不同的任務去做boosting的迭代過程,最后形成新樹,從而減少弱學習器難以並行迭代的弱點。
第三種是對於弱學習器即CART回歸樹進行正則化剪枝。
8 參考內容
[1] Random Forest's homepage (by Leo Breiman and Adele Cutler)
[2] Introduction to Random forest - Simplified
[3] Comparing a Random Forest to a CART model (Part 2)
[4] Introduction to Random forest (博主:愛67)
[5] Python實現隨機森林
[6] 隨機森林之oob error估計
[7] 隨機森林
[9] Ensemble methods