背景
這是阿里發的一篇 Multi-Domain CTR 預估論文,本質上就是一個multitask模型
模型結構
star模型結構如上圖所示,和普通的ctr模型對比,主要有以下幾個區別:
1. BN層換成了PN,簡單來說就是對不同domain的樣本采用了不同的BN
2. Star Topology FCN,不同domain有一個共享的FCN,每個domain也有自己的FCN
3. 加了一個輔助任務,強化模型區分不同domian
Partitioned Normalization
batch normalization (BN) 是模型中常見的一種結構
訓練時:
預估時:
BN假設了所有的樣本都是服從相同分布的,BN適合單domain的任務,對於多domain的任務,阿里star提出了partitioned normalization結構
訓練時:
預估時:
和普通BN相比,PN有以下幾點不同:
1. 每個mini batch的樣本要屬於同一個domain
2. 訓練時,不僅學習了所有domain共享的一對參數(γ,β),對於每個domain還另外學習了一對參數(γp,βp)
3. 預估時,每個domain都要計算它的期望和方差
Star Topology FCN
Star Topology FCN的結構如上圖所示,由一個每個domian共享的FCN和多個每個domain私有的FCN組成
Auxiliary Network
為了加強模型對各個domain的區分能力,阿里star網路引入了一個輔助任務。每個domain的標識是一個ID特征,也會學習它的embedding,concat到其它特征上,然后通過兩層的FCN得到一個1維的值
這里標記主任務的輸出為sm,輔助任務的輸出時sa,那么最終的輸出是:
這個輔助任務可以理解為為每個子任務學習了一個bias
Loss