漫談Word2vec之skip-gram模型

本文轉載自查看原文 2019-06-25 10:32 1029

https://zhuanlan.zhihu.com/p/30302498

復旦大學計算機應用技術博士

【作者】劉書龍，現任達觀數據技術部工程師，興趣方向主要為自然語言處理和數據挖掘。

word2vec是Google研究團隊的成果之一，它作為一種主流的獲取分布式詞向量的工具，在自然語言處理、數據挖掘等領域有着廣泛的應用。達觀數據的文本挖掘業務有些地方就使用了該項技術。本文從以下幾個方面簡要介紹Word2vec的skip-gram模型：

第一部分對比word2vec詞向量和one-hot詞向量，引出word2vec詞向量的優勢所在；第二部分給出skip-gram模型的相關內容；第三部分簡單介紹模型求解時優化方面的內容；第四部分通過例子簡單給出詞向量模型的效果；第五部分作出總結。

1. 優勢

word2vec詞向量與傳統的one-hot詞向量相比，主要有以下兩個優勢。

（1）低維稠密

一般來說分布式詞向量的維度設置成100-500就足夠使用，而one-hot類型的詞向量維度與詞表的大小成正比，是一種高維稀疏的表示方法，這種表示方法導致其在計算上具有比較低效率。

Fig.1. one-hot詞向量

（2）蘊含語義信息

one-hot這種表示方式使得每一個詞映射到高維空間中都是互相正交的，也就是說one-hot向量空間中詞與詞之間沒有任何關聯關系，這顯然與實際情況不符合，因為實際中詞與詞之間有近義、反義等多種關系。Word2vec雖然學習不到反義這種高層次語義信息，但它巧妙的運用了一種思想：“具有相同上下文的詞語包含相似的語義”，使得語義相近的詞在映射到歐式空間后中具有較高的余弦相似度。

Fig.2. word2vec詞向量

2. skip-gram模型

（1）訓練樣本

怎么把“具有相同上下文的詞語包含相似的語義”這種思想融入模型是很關鍵的一步，在模型中，兩個詞是否出現在一起是通過判斷這兩個詞在上下文中是否出現在一個窗口內。例如，原始樣本“達觀數據是一家做人工智能的公司”在送入模型前會經過圖3所示處理（這里為了繪圖簡單假設窗口為2，一般窗口是設置成5）。

如圖3所示，skip-gram模型的輸入是當前詞，輸出是當前詞的上下文，雖然我們訓練模型的時候喂的是一個個分詞好的句子，但內部其實是使用一個個word pair來訓練。同樣是之前的case“達觀數據是一家做人工智能的公司”，假如窗口改為5，則（達觀數據，人工智能）這個word pair會成為一個訓練樣本。

假如再過來一個case“Google是一家人工智能公司”，則（Google，人工智能）也會成為一個訓練樣本。如果用來訓練的語料庫中會產生多個（達觀數據，人工智能）、（Google，人工智能）這種的訓練樣本，則可以推測“達觀數據”和“Google”會有較高的相似度，因為在訓練樣本中這兩個詞具有相同的輸出，推而廣之，也就是說這兩個詞具有相同的上下文。一言以蔽之“假如兩個詞具有相同的輸出，則可反推出作為輸入的兩個詞之間具有較高相似性”，接下來就是如何使用模型來實現上述目標。

Fig.3. 訓練樣本

（2）skip-gram模型

skip-gram模型與自編碼器（Autoencoder）類似，唯一的區別在於自編碼器的輸出等於輸入，而skip-gram模型的輸出是輸入的上下文。那么，作為訓練樣本的word pair應該以什么樣的方式輸入給模型？答案是one-hot向量，為了得到one-hot向量，必須首先知道訓練語料中包含了多少詞。因此，在訓練之前會首先對語料進行統計，得到詞表。假設詞表長度為10000，詞向量為300維，則skip-gram模型可表示為圖4。

Fig.4. skip-gram 模型

如圖4所示，假設輸入的word pair為（ants, able），則模型擬合的目標是 $Max P(able|ants)$ ,同時也需要滿足 $Min P (other words 丨ants)$ ，這里利用的是對數似然函數作為目標函數。上述表述中 $P（able 丨ants）$ 可表示為：

根據 $P（able丨ants）$ 和 $P(other words丨ants)$ ，可構建似然函數:

則：

將 $P(word_{i}丨ants)$ 代入有：

式中{*}表示如果表達式*為true，則{*}=1，否則{*}=0。接下來要做的是最大化似然函數，也即：

$Max LogL(W)$

要實現上述目標，可利用梯度上升法，首先對參數求偏導：

接下來根據學習率對進行更新：

現在問題來了，模型訓練完成后詞向量在哪呢？隱藏層的參數矩陣 $W_{10000×300}$ 就包含了所有詞的詞向量，該矩陣的行為詞表長度，列為詞向量維度，矩陣中的每一行表示一個詞的詞向量。由於輸入層 $X_{ants1×10000}$ 是one-hot向量，與隱藏層 $W_{10000×300}$ 點乘后其實是選中了該矩陣中的一行，如圖5所示，這一行表示的是ants的詞向量，而輸出層其實是以ants的詞向量為特征，以ants的上下文詞作為類別來訓練softmax分類器。

Fig.5.詞的one-hot向量點乘隱藏層權值矩陣得到該詞的詞向量

回到上文，為什么說（達觀數據，人工智能）、（Google，人工智能）這種樣本多了之后會得出達觀數據和Google的相似度會比較高？當時解釋的是因為這兩個詞有相同的輸出，更深一步講是因為輸出層參數矩陣 $W_{300×10000}$ 是所有詞向量共享的。具體來說，模型訓練完成后會達到類似下面的效果：

由上面可直接看出來 $wv(達觀數據)≈wv(google)$ ，其中 $wv(*)$ 表示*的詞向量，約等於是指兩個向量所指的方向在空間中比較接近。

3. 模型優化

（1）欠采樣 subsample

圖3中的例子中“是”、“的”這種詞在任何場景中都可能出現，它們並不包含多少語義，而且出現的頻率特別高，如果不加處理會影響詞向量的效果。欠采樣就是為了應對這種現象，它的主要思想是對每個詞都計算一個采樣概率，根據概率值來判斷一個詞是否應該保留。概率計算方法為：

其中f(*)表示*出現的概率，0.001為默認值，具體函數走勢如圖6所示，可以看出，詞語出現的概率越高，其被采樣到的概率就越低。這里有一點IDF的味道，不同的是IDF是為了降低詞的特征權重，欠采樣是為了降低詞的采樣概率。

（2）負采樣 negative sample

以圖4所示的模型為例，對每一個訓練樣本需要更新的參數個數有三百萬（准確的說是三百萬零三百，由於輸入是one-hot，隱藏層每次只需要更新輸入詞語的詞向量），這還是假設詞表只有一萬的情況下，實際情況會有五十萬甚至更多，這時候參數就達到了億級。訓練過程中要對每個參數計算偏導，然后進行更新，這需要很大的計算資源。

負采樣是加快訓練速度的一種方法，這里的負可以理解為負樣本。針對訓練樣本（ants, able），able這個詞是正樣本，詞表中除able外的所有詞都是負樣本。負采樣是對負樣本進行采樣，不進行負采樣時，對每一個訓練樣本模型需要擬合一個正樣本和九千九百九十九個負樣本。加入負采樣后，只需要從這九千九百九十九個負樣本中挑出來幾個進行擬合，大大節省了計算資源。那么應該挑幾個負樣本，根據什么進行挑呢？Google給出的建議是挑5-20個，怎么挑是根據詞在語料中出現的概率，概率越大越有可能被選中，具體計算公式為：

其中f(*)表示*出現的概率。

（3）層次softmax

層次softmax的目的和負采樣一樣，也是為了加快訓練速度，但它相對復雜，沒有負采樣這種來的簡單粗暴。具體來說，使用層次softmax時圖4中的模型輸出層不再是使用one-hot加softmax回歸，而是使用Huffman樹加softmax回歸。在模型訓練的時候首先統計語料中詞語的詞頻，然后根據詞頻來構建Huffman樹，如圖7所示，樹的根節點可理解為輸入詞的詞向量，葉子節點表示詞表中的詞，其它節點沒有什么實際含義，僅起到輔助作用。

Fig.7.Huffman樹

為什么使用Huffman樹可以加快訓練速度？答案是輸出層不使用one-hot來表示，softmax回歸就不需要對那么多0（也即負樣本）進行擬合，僅僅只需要擬合輸出值在Huffman樹中的一條路徑。假設詞表大小為N，一條路徑上節點的個數可以用來估計，就是說只需要擬合次，這給計算量帶來了指數級的減少。此外，由於Huffman編碼是不等長編碼，頻率越高的詞越接近根節點，這也使計算量有所降低。

怎么對樹中的節點進行擬合呢？如圖7所示，假設訓練樣本的輸出詞是 $w_{2}$ ，則從根節點走到 $w_{2}$ 經過了 $n(w_{2},2),n(w_{3},3)$ 這兩個節點。由於Huffman樹是二叉樹，這意味着只需要判斷向左還是向右就可以從根節點走到 $w_{2}$ ，判斷向左還是向右其實就是進行二分類。圖7中的例子，“root(input)->left->left->right()”這條路徑的概率可表示為：

其中 $θ_{i}$ 表示路徑中第i個節點的權值向量。注意一點，softmax regression 做二分類的時候就退化為了logistic regression，因此雖然叫層次softmax但公式中其實用的是logistic function。根據上述公式就可構建根據Huffman樹來進行softmax回歸的cost function，進而根據梯度下降對模型進行訓練求解。

4. word2vec應用

Google開源了word2vec源碼，可以很方便的訓練詞向量，這里不再贅述。簡單看個例子：

可以看出，當輸入北京這個詞時，與之相似的詞語有“上海、廣州、杭州、深圳…”，模型幾乎學習到了一線城市的概念，效果還是可以的。

達觀應用案例

特征降維：特征維度過高的時候，很容易出現特征之間具有較高的相關性。這種情況下可以利用詞向量工具對特征進行聚類，將相關的特征歸到一個維度里面。

特征擴展：針對短文本處理時，一個case往往提不出很多表意較強的特征，導致類別間區分度不強。這種情況下可以利用詞向量工具對主要特征進行擴展，在不損失精度的前提下提高召回。

5. 總結

本文從例子出發，簡單介紹了Word2vec的skip-gram模型，只作拋磚引玉。文中若有不當之處，歡迎指正。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 word2vec模型cbow與skip-gram的比較 word2vec原理(一) CBOW與Skip-Gram模型基礎 NLP中word2vec的CBOW模型和Skip-Gram模型一文詳解 Word2vec 之 Skip-Gram 模型（結構篇） word2vec之tensorflow（skip-gram）實現使用 Pytorch 實現 skip-gram 的 word2vec Word2Vec之Skip-Gram模型實現代碼詳解 DL4NLP——詞表示模型（二）基於神經網絡的模型：NPLM；word2vec（CBOW/Skip-gram） DL4NLP——詞表示模型（三）word2vec（CBOW/Skip-gram）的加速：Hierarchical Softmax與Negative Sampling 4 關於word2vec的skip-gram模型使用負例采樣nce_loss損失函數的源碼剖析