用戶標簽和標簽的數學描述:
標簽是特征空間中的緯度
每個標簽都是特征空間中的基向量,基向量之間有關聯,不一定是正交的
用戶畫像是特征空間中的高維向量
特征工程:
數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已
特征:對所需解決問題有用的屬性
特征的提取、選擇和構造
針對鎖解決的問題選擇最有用的特征集合
通過相關系數等方式來計算特征的重要性
人工篩選,有些算法輸出特性:Random Forest維度過多,PCA自動降維
算法和模型:
LR:只要認為問題時線性可分的,就可采用LR
模型比較抗噪,而且可以通過L1,L2范數來做參數選擇
效率高,可以應用於數據特別大的場景
很容易分布式實現
Ensemble方法:
根據訓練集訓練多個分類器,然后綜合多個分類器的結果,做出預測
算法和模型評價: