-
概述:隱式語義模型將query與document映射到低維空間,把二者的相關性問題轉化為低維空間向量的距離。DSSM使用深度結構實現此映射過程,同時提出word hashing技術使得模型適用於大規模數據
-
經典的隱式語義模型:
1)無監督,目標函數與評價指標耦合關系較弱,效果不佳
1.latent semantic analysis: 對document-term利用SVD進行分解,映射doc或term到低維空間
2.probabilistic latent semantic analysis
3.latent dirichlet allocation
2)拓展隱式語義模型:利用用戶點擊數據
1.Bi-Lingual Topic Models: 生成模型
2.Discriminative Projective Mdoels:使用S2Net算法進行學習
3)拓展隱式語義模型:利用自動編碼器,生成模型
-
DSSN模型:
1)結構:


2)計算:


3)DSSM模型學習過程:
1.給定query時點擊文檔的后延概率:


2.最小化目標函數:D+正樣本、隨機采樣未點擊D-負樣本


4)word hashing: 解決term vector太大問題,對bag-of-word向量降維
1.方法:以單詞good為例,先為其添加起止符號為#good#,然后拆分為n-gram,典型的trigrams為(#go,goo,ood,od#),最后單詞被表示為n-gram字符的向量
2.優點:將低term vector的維度
3.不足:碰撞問題