用戶畫像系統


用戶標簽和標簽的數學描述:

標簽是特征空間中的緯度

每個標簽都是特征空間中的基向量,基向量之間有關聯,不一定是正交的

用戶畫像是特征空間中的高維向量

 

 特征工程:

數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已

特征:對所需解決問題有用的屬性

特征的提取、選擇和構造

  針對鎖解決的問題選擇最有用的特征集合

  通過相關系數等方式來計算特征的重要性

    人工篩選,有些算法輸出特性:Random Forest維度過多,PCA自動降維

算法和模型:

LR:只要認為問題時線性可分的,就可采用LR

模型比較抗噪,而且可以通過L1,L2范數來做參數選擇

效率高,可以應用於數據特別大的場景

很容易分布式實現

Ensemble方法:

根據訓練集訓練多個分類器,然后綜合多個分類器的結果,做出預測

 

算法和模型評價:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM