看了半年論文,第一次上手實踐CTR任務。研一上半年比較忙,初學姑且調用一下現成的deepfm做一些實踐上的嘗試。
今天第一天,整理數據集,數據集一共五個文件,包含app信息、用戶信息、訓練集、測試集、輸出格式樣本。首先拿到數據先分析特征,做一些特征工程。思路大致如下:
需要one hot 編碼的部分:
Train.txt:視頻推薦位置
User.txt:用戶畫像(tag+outtag),用戶等級,劣質用戶,性別
Filed:
用戶:用戶的設備id,用戶的注冊id,用戶擁有app,用戶畫像(tag+outtag),用戶等級,劣質用戶,好友分,個人分,性別
設備:操作系統版本,設備版本,設備廠商
網絡:網絡類型
App:app版本
視頻:視頻id、視頻推薦位置
經度
緯度
時間:點擊時間戳、曝光時間戳(多維特征衍生)
對於時間部分這個數據集還有很多組合特征可以挖掘,一天先想了這么多。