DSSM:深度語義模型


  • 概述:隱式語義模型將query與document映射到低維空間,把二者的相關性問題轉化為低維空間向量的距離。DSSM使用深度結構實現此映射過程,同時提出word hashing技術使得模型適用於大規模數據
  • 經典的隱式語義模型:
1)無監督,目標函數與評價指標耦合關系較弱,效果不佳
1.latent semantic analysis: 對document-term利用SVD進行分解,映射doc或term到低維空間
2.probabilistic latent semantic analysis
3.latent dirichlet allocation
2)拓展隱式語義模型:利用用戶點擊數據
1.Bi-Lingual Topic Models: 生成模型
2.Discriminative Projective Mdoels:使用S2Net算法進行學習
3)拓展隱式語義模型:利用自動編碼器,生成模型
  • DSSN模型:
1)結構:
2)計算:
3)DSSM模型學習過程:
1.給定query時點擊文檔的后延概率:
2.最小化目標函數:D+正樣本、隨機采樣未點擊D-負樣本
4)word hashing: 解決term vector太大問題,對bag-of-word向量降維
 
1.方法:以單詞good為例,先為其添加起止符號為#good#,然后拆分為n-gram,典型的trigrams為(#go,goo,ood,od#),最后單詞被表示為n-gram字符的向量
2.優點:將低term vector的維度
3.不足:碰撞問題
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM