1、決策樹概念
決策樹是基於樹的結構來進行決策的,這與人類的認知方法類似,例如:今天會下雨么?針對此問題我們首先會進行一系列的判斷或者決策;今天陰天么,如果陰天,大概率
會下雨;如果晴天,大概率不下雨。如圖1。
圖1
2、文本分類
所謂文本分類,就是基於文本的特征將其划分到具體的類別當中,與決策樹類似。只需要將文本的特征實例化,就可以將決策樹的概念融合到文本分類中。
圖2
3、xgboost
XGBoost(eXtreme Gradient Boosting)全名叫極端梯度提升,本質上是一種高級的決策樹(其實應該較回歸樹)。XGBoost是集成學習方法的王牌,在Kaggle數據挖掘比賽中,大部分獲勝者用了XGBoost,XGBoost在絕大多數的回歸和分類問題上表現的十分頂尖。
4、
參考資料:《西瓜書》
參考代碼:https://github.com/dongguadan/recommender-system/tree/master/xgboost-Based_Filter
數據集采用bbc提供的文本語料庫:bbc.terms、bbc.classes、bbc.mtx。代碼根據語料庫將數據組織成特征矩陣,如圖3:
圖3
然后將特征矩陣隨機划分成訓練集(70%)、測試集(30%),進行訓練、測試:文章共分為5類分別用0-4來表示;圖4表示每篇文章所屬分類;圖5表示每篇文章歸入某一類別的概率。

圖4

圖5
