Word2vec ------算法崗面試題

本文轉載自查看原文 2019-06-03 20:52 1810

● Word2Vec中skip-gram是什么,Negative Sampling怎么做

參考回答：

Word2Vec通過學習文本然后用詞向量的方式表征詞的語義信息,然后使得語義相似的單詞在嵌入式空間中的距離很近。而在Word2Vec模型中有Skip-Gram和CBOW兩種模式,Skip-Gram是給定輸入單詞來預測上下文,而CBOW與之相反,是給定上下文來預測輸入單詞。Negative Sampling是對於給定的詞,並生成其負采樣詞集合的一種策略,已知有一個詞,這個詞可以看做一個正例,而它的上下文詞集可以看做是負例,但是負例的樣本太多,而在語料庫中,各個詞出現的頻率是不一樣的,所以在采樣時可以要求高頻詞選中的概率較大,低頻詞選中的概率較小,這樣就轉化為一個帶權采樣問題,大幅度提高了模型的性能。

● .FastText和Glovec原理

參考回答：

FastText是將句子中的每個詞通過一個lookup層映射成詞向量,對詞向量疊加取平均作為句子的向量,然后直接用線性分類器進行分類,FastText中沒有非線性的隱藏層,結構相對簡單而且模型訓練的更快。

Glovec融合了矩陣分解和全局統計信息的優勢,統計語料庫的詞-詞之間的共現矩陣,加快模型的訓練速度而且又可以控制詞的相對權重。

● word2vec實施過程

參考回答：

詞向量其實是將詞映射到一個語義空間，得到的向量。而word2vec是借用神經網絡的方式實現的，考慮文本的上下文關系，有兩種模型CBOW和Skip-gram，這兩種模型在訓練的過程中類似。Skip-gram模型是用一個詞語作為輸入，來預測它周圍的上下文，CBOW模型是拿一個詞語的上下文作為輸入，來預測這個詞語本身。

詞向量訓練的預處理步驟：

1.對輸入的文本生成一個詞匯表，每個詞統計詞頻，按照詞頻從高到低排序，取最頻繁的V個詞，構成一個詞匯表。每個詞存在一個one-hot向量，向量的維度是V，如果該詞在詞匯表中出現過，則向量中詞匯表中對應的位置為1，其他位置全為0。如果詞匯表中不出現，則向量為全0

2.將輸入文本的每個詞都生成一個one-hot向量，此處注意保留每個詞的原始位置，因為是上下文相關的

3.確定詞向量的維數N

Skip-gram處理步驟：

1.確定窗口大小window，對每個詞生成2*window個訓練樣本，(i, i-window)，(i, i-window+1)，...，(i, i+window-1)，(i, i+window)

2.確定batch_size，注意batch_size的大小必須是2*window的整數倍，這確保每個batch包含了一個詞匯對應的所有樣本

3.訓練算法有兩種：層次Softmax和Negative Sampling

4.神經網絡迭代訓練一定次數，得到輸入層到隱藏層的參數矩陣，矩陣中每一行的轉置即是對應詞的詞向量

CBOW的處理步驟：

1.確定窗口大小window，對每個詞生成2*window個訓練樣本，(i-window, i)，(i-window+1, i)，...，(i+window-1, i)，(i+window, i)

2.確定batch_size，注意batch_size的大小必須是2*window的整數倍，這確保每個batch包含了一個詞匯對應的所有樣本

3.訓練算法有兩種：層次Softmax和Negative Sampling

4.神經網絡迭代訓練一定次數，得到輸入層到隱藏層的參數矩陣，矩陣中每一行的轉置即是對應詞的詞向量

參數矩陣解釋：

對輸入層到隱藏層的參數包含W和b，我們需要的是W，這里的W是一個矩陣，shape=(N,V)。其中V是上文所述的詞表的大小，N是需要生成的詞向量的維數。N同樣也是隱藏層（第一層）中的隱藏節點個數。

每次一個batch_size輸入其實一個矩陣(batch_size, V)，記為X，隱藏層輸出為Y，公式為

。所有的輸入共享一個W，每次迭代的時候都在修改W，由於one-hot的性質，每次修改W只修改1對應的那一行。而這一行也就是詞向量（轉置后）

神經網絡像是一個黑盒子，這其中的概念很難理解，這里給出我對詞向量訓練的個人理解：對於每個詞s，訓練數據對應的標記是另一個詞t，訓練其實是想找到一種映射關系，讓s映射到t。但很顯然我們不是希望找到一個線性函數，使得給定s一定能得到t，我們希望的是能夠通過s得到一類詞T，包含t。對於T中的每個t，由於在s上下文中出現的頻次不同，自然能得到一個概率，頻次越高說明s與t相關性越高。

對於詞向量，或者說參數矩陣W，可以認為是一個將詞映射到語義空間的橋梁，s與t相關性越高，則認為其在語義空間中越近，那么對應的橋梁也越靠近。如果用向量來理解的話就是向量之前的夾角越小，我們使用向量來表示這個詞的信息，重要的是得到了語義信息。在實際應用中，生成一段文本，我們可以判斷詞與詞的向量之間相似度，如果過低則就需要懷疑是否正確了。