1.基於樹的模型比線性模型更好嗎？

　　如果我可以使用邏輯回歸解決分類問題和線性回歸解決回歸問題，為什么需要使用樹模型？我們很多人都有這個問題。實際上，你可以使用任何算法。這取決於你要解決的問題類型。其中有一些關鍵因素，它們將幫助你決定使用哪種算法：

2.樹建模的關鍵參數是什么？如何避免決策樹過度擬合？

　　過度擬合是決策樹建模時面臨的主要挑戰之一。如果沒有限制，它將為您提供100％的訓練集准確性，因為在最壞的情況下，它最終會為每個觀察結果制作1片葉子。因此，在對決策樹進行建模時，防止過度擬合是關鍵，可以通過兩種方式完成：

讓我們簡單地討論這兩個問題。

這可以通過使用用於定義樹的各種參數來完成。首先，讓我們看一下決策樹的一般結構：

- 定義終端節點或葉子中所需的最小樣本（或觀察值）。
- 用於控制過度擬合，類似於min_samples_split。
- 一般來說，應該選擇較低的值來解決不平衡的階級問題，因為少數群體占多數的地區將占很大比例。

- 搜索最佳拆分數量時要考慮的特征數量，這些特征應該被隨機選擇。
- 功能總數的平方根效果很好，但我們應該檢查特征總數的30-40％。
- 較高的值可能導致過度擬合。

樹修剪（Tree pruning）

　　通過修剪可以進一步提高樹的性能。它刪除不重要性的特征的分支，這樣，我們降低了樹的復雜性，從而通過減少過度擬合來提高其預測能力。

修剪可以從根或葉開始。最簡單的修剪方法從葉子開始，並刪除該葉子中所屬類的每個節點，如果不降低精度，則保持這種變化。它也稱為減少錯誤修剪。可以使用更復雜的修剪方法，例如成本復雜性修剪，其中使用學習參數（α）來權衡是否可以基於子樹的大小來移除節點。這也被稱為最薄弱的鏈接修剪。

CART的優點

CART的缺點

　　在這種方法中，可用數據被分成兩組：用於形成學習假設的訓練集和用於評估該假設的准確性的單獨驗證集，特別是用於評估修剪這個假設的影響。

動機是這樣的：即使學習者可能被訓練集內的隨機錯誤和巧合規律誤導，驗證集也不太可能表現出相同的隨機波動。因此，可以預期驗證集可以提供針對過度擬合的安全檢查。

　　當然，驗證集必須足夠大，以便自身提供統計上顯着的實例樣本。一種常見的啟發式方法是保留驗證集中可用示例的三分之一，使用其他三分之二進行訓練。

　　一種稱為減少錯誤修剪（Quinlan 1987）的方法是將樹中的每個決策節點視為修剪的候選者。修剪決策節點包括刪除以該節點為根的子樹，使其成為葉節點，並為其分配與該節點關聯的訓練示例的最常見分類。

　　僅當生成的修剪樹在驗證集上執行的情況不比原始情況差時，才會刪除節點。迭代地修剪節點，總是選擇其移除最多地增加決策樹精度而不是驗證集的節點。節點的修剪繼續，直到進一步修剪是有害的（即，降低樹在驗證集上的准確性）。

　　減少錯誤修剪在決策樹學習中的作用：隨着節點從樹中刪除，測試集的准確度會提高。這里，用於修剪的驗證集與訓練集和測試集都不同。未顯示用於修剪的驗證集的准確性。

　　另外，可用數據被分成三個子集：訓練樣例，用於修剪樹的驗證示例，以及一組用於在未來看不見的示例中提供無偏估計精度的測試示例。

如果有大量數據可用，則使用一組單獨的數據來指導修剪是一種有效的方法。一種常見的啟發式方法是：訓練集占所有數據的60％，驗證集占20％，測試集占20％。這種方法的主要缺點是，當數據有限時，為驗證集扣留部分數據會減少甚至還有可用於培訓的例子。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹的一些總結和理解決策樹（一）決策樹分類決策樹（二）決策樹回歸邏輯回歸與決策樹在分類上的一些區別決策樹回歸決策樹決策樹模型決策樹（一）決策樹算法 sklearn之決策樹