推薦系統系列3-基於決策樹做推薦系統的方法


1、決策樹概念
    決策樹是基於樹的結構來進行決策的,這與人類的認知方法類似,例如:今天會下雨么?針對此問題我們首先會進行一系列的判斷或者決策;今天陰天么,如果陰天,大概率
會下雨;如果晴天,大概率不下雨。如圖1。
    
 圖1
 
2、文本分類
    所謂文本分類,就是基於文本的特征將其划分到具體的類別當中,與決策樹類似。只需要將文本的特征實例化,就可以將決策樹的概念融合到文本分類中。
                                                                                                                                              圖2
 
3、xgboost
    XGBoost(eXtreme Gradient Boosting)全名叫極端梯度提升,本質上是一種高級的決策樹(其實應該較回歸樹)。XGBoost是集成學習方法的王牌,在Kaggle數據挖掘比賽中,大部分獲勝者用了XGBoost,XGBoost在絕大多數的回歸和分類問題上表現的十分頂尖。
 
4、
    參考資料:《西瓜書》
    參考代碼:https://github.com/dongguadan/recommender-system/tree/master/xgboost-Based_Filter
    數據集采用bbc提供的文本語料庫:bbc.terms、bbc.classes、bbc.mtx。代碼根據語料庫將數據組織成特征矩陣,如圖3:
                                                                                                                               圖3
    然后將特征矩陣隨機划分成訓練集(70%)、測試集(30%),進行訓練、測試:文章共分為5類分別用0-4來表示;圖4表示每篇文章所屬分類;圖5表示每篇文章歸入某一類別的概率。

                                                                                                                                  圖4

                                                                                                                                  圖5


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM