RF,SVM和NN的優缺點


1. 隨機森林優缺點

隨機森林(RF)是Bagging的一個擴展變體。RF在以決策樹為基分類器進行集成的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。

Bagging就是對數據集訓練多個基分類器,然后將基分類器得到的結果進行投票表決作為最終分類的結果。基分類器在構建過程中需要盡可能保證訓練出的基分類器有比較大的差異性,這就需要用對訓練樣本集進行采樣,不同的基分類器訓練不同的樣本集。但是樣本過少會導致基分類器的性能較差,我們可以通過使用相互有交疊的采樣子集。

 

那么,隨機森林有什么優點呢?

 

1. 簡單,容易實現,計算開銷小,並且它在很多現實任務中展現出來了強大的性能。它相對於Bagging能夠收斂於更小的泛化誤差,且訓練效率要優於Bagging,被譽為“代表集成學習技術水平的方法”。

2、它能夠處理很高維度(feature很多)的數據,並且不用做特征選擇 (特征子集是隨機的) 

3、在訓練完后,它能夠給出哪些feature比較重要 

4、在創建隨機森林的時候,對generlization error使用的是無偏估計,模型泛化能力強 

5、訓練速度快,容易做成並行化方法 (訓練時樹與樹之間是相互獨立的) 

6、 在訓練過程中,能夠檢測到feature間的互相影響 

7、 實現比較簡單 

8、 對於不平衡的數據集來說,它可以平衡誤差。 

9、如果有很大一部分的特征遺失,仍可以維持准確度。

 

缺點: 

1、隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬合 
2、對於有不同取值的屬性的數據,取值划分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種數據上產出的屬性權值是不可信的。

2. SVM優缺點

SVM有如下主要幾個特點:

(1)非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射; 
(2)對特征空間划分的最優超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心; 
(3)支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。 
(4)SVM 是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同於現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題。 
(5)SVM 的最終決策函數只由少數的支持向量所確定,計算的復雜性取決於支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。 
(6)少數支持向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種“魯棒”性主要體現在: 
①增、刪非支持向量樣本對模型沒有影響; 
②支持向量樣本集具有一定的魯棒性; 
③有些成功的應用中,SVM 方法對核的選取不敏感

兩個不足:

(1) SVM算法對大規模訓練樣本難以實施 
由於SVM是借助二次規划來求解支持向量,而求解二次規划將涉及m階矩陣的計算(m為樣本的個數),當m數目很大時該矩陣的存儲和計算將耗費大量的機器內存和運算時間。針對以上問題的主要改進有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、張學工的CSVM以及O.L.Mangasarian等的SOR算法 
(2) 用SVM解決多分類問題存在困難 
經典的支持向量機算法只給出了二類分類的算法,而在數據挖掘的實際應用中,一般要解決多類的分類問題。可以通過多個二類支持向量機的組合來解決。主要有一對多組合模式、一對一組合模式和SVM決策樹;再就是通過構造多個分類器的組合來解決。主要原理是克服SVM固有的缺點,結合其他算法的優勢,解決多類問題的分類精度。如:與粗集理論結合,形成一種優勢互補的多類問題的組合分類器。

3. 神經網絡優缺點

多層前向BP網絡的優點:

網絡實質上實現了一個從輸入到輸出的映射功能,而數學理論已證明它具有實現任何復雜非線性映射的功能。這使得它特別適合於求解內部機制復雜的問題; 
網絡能通過學習帶正確答案的實例集自動提取“合理的”求解規則,即具有自學習能力; 
網絡具有一定的推廣、概括能力。

多層前向BP網絡的缺點:

(1)BP算法的學習速度很慢,其原因主要有:

由於BP算法本質上為梯度下降法,而它所要優化的目標函數又非常復雜,因此,必然會出現“鋸齒形現象”,這使得BP算法低效; 
存在麻痹現象,由於優化的目標函數很復雜,它必然會在神經元輸出接近0或1的情況下,出現一些平坦區,在這些區域內,權值誤差改變很小,使訓練過程幾乎停頓; 
為了使網絡執行BP算法,不能用傳統的一維搜索法求每次迭代的步長,而必須把步長的更新規則預先賦予網絡,這種方法將引起算法低效。 


(2)網絡訓練失敗的可能性較大,其原因有:

從數學角度看,BP算法為一種局部搜索的優化方法,但它要解決的問題為求解復雜非線性函數的全局極值,因此,算法很有可能陷入局部極值,使訓練失敗; 
網絡的逼近、推廣能力同學習樣本的典型性密切相關,而從問題中選取典型樣本實例組成訓練集是一個很困難的問題。 
難以解決應用問題的實例規模和網絡規模間的矛盾。這涉及到網絡容量的可能性與可行性的關系問題,即學習復雜性問題; 
網絡結構的選擇尚無一種統一而完整的理論指導,一般只能由經驗選定。為此,有人稱神經網絡的結構選擇為一種藝術。而網絡的結構直接影響網絡的逼近能力及推廣性質。因此,應用中如何選擇合適的網絡結構是一個重要的問題; 
新加入的樣本要影響已學習成功的網絡,而且刻畫每個輸入樣本的特征的數目也必須相同; 
網絡的預測能力(也稱泛化能力、推廣能力)與訓練能力(也稱逼近能力、學習能力)的矛盾。一般情況下,訓練能力差時,預測能力也差,並且一定程度上,隨訓練能力地提高,預測能力也提高。但這種趨勢有一個極限,當達到此極限時,隨訓練能力的提高,預測能力反而下降,即出現所謂“過擬合”現象。此時,網絡學習了過多的樣本細節,而不能反映樣本內含的規律。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM