自然語言處理詞向量模型-word2vec


自然語言處理與深度學習:

語言模型:

N-gram模型:

 

N-Gram模型:在自然語言里有一個模型叫做n-gram,表示文字或語言中的n個連續的單詞組成序列。在進行自然語言分析時,使用n-gram或者尋找常用詞組,可以很容易的把一句話分解成若干個文字片段

詞向量:

神經網絡模型:

注:初始化向量,可以先隨機初始化。

傳統神經神經網絡只需要優化輸入層與隱層,隱層與輸出層之間的參數。

 

 

神經網絡模型的優勢:一方面可以得到詞語之間近似的含義,另一方面求解出的空間符合真實邏輯規律

CBOW求解目標:

預備知識:

樹的帶權路徑長度規定為所有葉子結點的帶權路徑長度之和,記為WPL。

分層的softmax設計思想:詞頻中出現詞概率高的盡可能往前放,可以用哈夫曼樹來設計。

自然語言哈夫曼樹詳解,包含構造和編碼:https://blog.csdn.net/shuangde800/article/details/7341289

Hierarchical Softmax是用哈夫曼樹構造出很多個二分類。

 

 

負采樣模型:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM