看了半年论文,第一次上手实践CTR任务。研一上半年比较忙,初学姑且调用一下现成的deepfm做一些实践上的尝试。
今天第一天,整理数据集,数据集一共五个文件,包含app信息、用户信息、训练集、测试集、输出格式样本。首先拿到数据先分析特征,做一些特征工程。思路大致如下:
需要one hot 编码的部分:
Train.txt:视频推荐位置
User.txt:用户画像(tag+outtag),用户等级,劣质用户,性别
Filed:
用户:用户的设备id,用户的注册id,用户拥有app,用户画像(tag+outtag),用户等级,劣质用户,好友分,个人分,性别
设备:操作系统版本,设备版本,设备厂商
网络:网络类型
App:app版本
视频:视频id、视频推荐位置
经度
纬度
时间:点击时间戳、曝光时间戳(多维特征衍生)
对于时间部分这个数据集还有很多组合特征可以挖掘,一天先想了这么多。