Wide & Deep算法解決的問題
在推薦系統中LR算法應用的非常廣泛,但是LR是一種線性模型,沒法學到特征交叉(高階組合特征),為了解決這個問題,在實際中我們常常需要做特征工程提取高階特征,一種常用的做法就是求特征的cross-product,如(“gender=female” and “language=en”)。但是在推薦系統中我們一般回對離散特征進行one-hot編碼得到高維稀疏特征,也就是說許多特征組合在訓練數據中可能從來沒有出現過,模型沒法學的這部分組合特征的權重。
深度學習+embedding可以不依賴人工特征學到高階特征,但是容易過度泛化。
本文提出Wide & Deep模型,結合了LR和deep model的優點,旨在使得訓練得到的模型能夠同時獲得記憶(memorization)和泛化(generalization)能力:
記憶(memorization)即從歷史數據中發現item或者特征之間的相關性。
泛化(generalization)即相關性的傳遞,發現在歷史數據中很少或者沒有出現的新的特征組合。
泛化(generalization)即相關性的傳遞,發現在歷史數據中很少或者沒有出現的新的特征組合。
在推薦系統中,記憶體現的准確性,而泛化體現的是新穎性。
Wide & Deep模型結構
模型表達式:
wide模型輸入:
原始輸入特征和交叉特征。
deep模型輸入:
原始輸入特征