原文鏈接:https://blog.csdn.net/qq_35290785/article/details/98231826
主要用於發現主題,解決詞向量相近關系的表示; 將共現矩陣行(列)作為詞向量
例如:語料庫如下:
• I like deep learning.
• I like NLP.
• I enjoy flying.
則共現矩陣表示如下:(使用對稱的窗函數(左右window length都為1) )
例如:“I like”出現在第1,2句話中,一共出現2次,所以=2。
對稱的窗口指的是,“like I”也是2次
將共現矩陣行(列)作為詞向量表示后,可以知道like,enjoy都是在I附近且統計數目大約相等,他們意思相近
但是共現矩陣也存在很多問題
面臨稀疏性問題、向量維數隨着詞典大小線性增長
解決:SVD、PCA降維,但是計算量大