Word2Vec總結


摘要:

  1.算法概述

  2.算法要點與推導

  3.算法特性及優缺點

  4.注意事項

  5.實現和具體例子

  6.適用場合

內容:

  1.算法概述

  Word2Vec是一個可以將語言中的字詞轉換為向量表達(Vector Respresentations)的模型,Word2vec可以將字詞轉為連續值的向量表達,並且其中意義相近的詞將被映射到向量空間中相近的位置。其主要依賴的假設是Distributional Hypothesis,即在相同語境中出現的詞其語義也相近。Word2vec主要分為CBOW(Continuous Bag of Words)和Skip Gram兩種模式,其中CBOW是從原始數據推測目標字詞;而Skip-Gram是從目標字詞推測原始語句,其中CBOW對小型數據比較合適,而Skip-Gram在大型預料中表現得更好。

  2.算法要點與推導

  Word2Vec的CBOW模型是一個二分類模型,用來區分真是的目標詞匯和噪聲詞匯兩類,其中噪聲詞匯是通過負樣本采樣(Negative Sampling,隨機選擇k個詞匯)方法構造得來。Word2Vec使用Noise-Constrastive Estimation Loss,在tf.nn.nce_loss()方法中有實現。

  3.算法特性及優缺點

  4.注意事項

  5.實現和具體例子

    《TensorFlow實戰》實現Word2Vec

  6.適用場合

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM