推薦系統系列3-基於決策樹做推薦系統的方法

本文轉載自查看原文 2019-06-15 19:45 623 python/ 協同過濾/ xgboost

1、決策樹概念

決策樹是基於樹的結構來進行決策的，這與人類的認知方法類似，例如：今天會下雨么？針對此問題我們首先會進行一系列的判斷或者決策；今天陰天么，如果陰天，大概率

會下雨；如果晴天，大概率不下雨。如圖1。

圖1

2、文本分類

所謂文本分類，就是基於文本的特征將其划分到具體的類別當中，與決策樹類似。只需要將文本的特征實例化，就可以將決策樹的概念融合到文本分類中。

圖2

3、xgboost

XGBoost（eXtreme Gradient Boosting）全名叫極端梯度提升，本質上是一種高級的決策樹（其實應該較回歸樹）。XGBoost是集成學習方法的王牌，在Kaggle數據挖掘比賽中，大部分獲勝者用了XGBoost，XGBoost在絕大多數的回歸和分類問題上表現的十分頂尖。

4、

參考資料：《西瓜書》

參考代碼：https://github.com/dongguadan/recommender-system/tree/master/xgboost-Based_Filter

數據集采用bbc提供的文本語料庫：bbc.terms、bbc.classes、bbc.mtx。代碼根據語料庫將數據組織成特征矩陣，如圖3：

圖3

然后將特征矩陣隨機划分成訓練集（70%）、測試集（30%），進行訓練、測試：文章共分為5類分別用0-4來表示；圖4表示每篇文章所屬分類；圖5表示每篇文章歸入某一類別的概率。

圖4

圖5

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹系列（二）——剪枝決策樹如何做剪枝決策樹系列（三）——ID3 決策樹繪圖（一）決策樹-過程決策樹決策樹決策樹與熵構建決策樹決策樹