http://www.cnblogs.com/tornadomeet/p/3395593.html
朴素貝葉斯的優點:
對小規模的數據表現很好,適合多分類任務,適合增量式訓練。
缺點:
對輸入數據的表達形式很敏感。
決策樹的優點:
計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關的特征;
缺點:
容易過擬合(后續出現了隨機森林,減小了過擬合現象);
Logistic回歸優點:
1、實現簡單;
2、分類時計算量非常小,速度很快,存儲資源低;
缺點:
1、容易欠擬合,一般准確度不太高
2、只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分;
線性回歸優點:
實現簡單,計算簡單;
缺點:
不能擬合非線性數據;
KNN算法的優點:
1. 思想簡單,理論成熟,既可以用來做分類也可以用來做回歸;
2. 可用於非線性分類;
3. 訓練時間復雜度為O(n);
4. 准確度高,對數據沒有假設,對outlier不敏感;
缺點:
1. 計算量大;
2. 樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少);
3. 需要大量的內存;
SVM算法優點:
可用於線性/非線性分類,也可以用於回歸;
低泛化誤差;
容易解釋;
計算復雜度較低;
缺點:
對參數和核函數的選擇比較敏感;
原始的SVM只比較擅長處理二分類問題;
Boosting算法的優點:
低泛化誤差;
容易實現,分類准確率較高,沒有太多參數可以調;
缺點:
對outlier比較敏感;
k-means算法的優點:
(1)k-means算法是解決聚類問題的一種經典算法,算法簡單、快速。
(2)對處理大數據集,該算法是相對可伸縮的和高效率的,因為它的復雜度大約是O(nkt),其中n是所有對象的數目,k是簇的數目,t是迭代的次數。通常k<<n。這個算法通常局部收斂。
(3)算法嘗試找出使平方誤差函數值最小的k個划分。當簇是密集的、球狀或團狀的,且簇與簇之間區別明顯時,聚類效果較好。
缺點:
(1)k-平均方法只有在簇的平均值被定義的情況下才能使用,且對有些分類屬性的數據不適合。
(2)要求用戶必須事先給出要生成的簇的數目k。
(3)對初值敏感,對於不同的初始值,可能會導致不同的聚類結果。
(4)不適合於發現非凸面形狀的簇,或者大小差別很大的簇。
(5)對於"噪聲"和孤立點數據敏感,少量的該類數據能夠對平均值產生極大影響。