Distributed Representation 這種表示,它最早是 Hinton 於 1986 年提出的,可以克服 one-hot representation 的缺點。
其基本想法是:
通過訓練將某種語言中的每一個詞映射成一個固定長度的短向量(當然這里的“短”是相對於 one-hot representation 的“長”而言的),將所有這些向量放在一起形成一個詞向量空間,而每一向量則為該空間中的一個點,在這個空間上引入“距離”,則可以根據詞之間的距離來判斷它們之間的(詞法、語義上的)相似性了。
為更好地理解上述思想,我們來舉一個通俗的例子:假設在二維平面上分布有 N 個不同的點,給定其中的某個點,現在想在平面上找到與這個點最相近的一個點,我們是怎么做的呢?首先,建立一個直角坐標系,基於該坐標系,其上的每個點就唯一地對應一個坐標 (x,y);接着引入歐氏距離;最后分別計算這個詞與其他 N-1 個詞之間的距離,對應最小距離值的那個詞便是我們要找的詞了。
上面的例子中,坐標(x,y) 的地位相當於詞向量,它用來將平面上一個點的位置在數學上作量化。坐標系建立好以后,要得到某個點的坐標是很容易的,然而,在 NLP 任務中,要得到詞向量就復雜得多了,而且詞向量並不唯一,其質量也依賴於訓練語料、訓練算法和詞向量長度等因素。
一種生成詞向量的途徑是利用神經網絡算法,當然,詞向量通常和語言模型捆綁在一起,即訓練完后兩者同時得到。用神經網絡來訓練語言模型的思想最早由百度 IDL (深度學習研究院)的徐偉提出。 這方面最經典的文章要數 Bengio 於 2003 年發表在 JMLR 上的 A Neural Probabilistic Language Model,其后有一系列相關的研究工作。
考慮英語和西班牙語兩種語言,通過訓練分別得到它們對應的詞向量空間 E 和 S。從英語中取出五個詞 one,two,three,four,five,設其在 E 中對應的詞向量分別為 v1,v2,v3,v4,v5,為方便作圖,利用主成分分析(PCA)降維,得到相應的二維向量 u1,u2,u3,u4,u5,在二維平面上將這五個點描出來,如下圖左圖所示。類似地,在西班牙語中取出(與 one,two,three,four,five 對應的) uno,dos,tres,cuatro,cinco,設其在 S 中對應的詞向量分別為 s1,s2,s3,s4,s5,用 PCA 降維后的二維向量分別為 t1,t2,t3,t4,t5,將它們在二維平面上描出來(可能還需作適當的旋轉),如下圖右圖所示:

Tomas Mikolov在Google的時候發的這兩篇paper:“Efficient Estimation of Word Representations in Vector Space”、“Distributed Representations of Words and Phrases and their Compositionality”。
這兩篇paper中提出了一個word2vec的工具包,里面包含了幾種word embedding的方法,這些方法有兩個特點。一個特點是速度快,另一個特點是得到的embedding vectors具備analogy性質。analogy性質類似於“A-B=C-D”這樣的結構,舉例說明:“北京-中國 = 巴黎-法國”。Tomas Mikolov認為具備這樣的性質,則說明得到的embedding vectors性質非常好,能夠model到語義。
這兩篇paper是2013年的工作,至今(2017.3),這兩篇paper的引用量早已經超好幾千,足以看出其影響力很大。當然,word embedding的方案還有很多
常見的word embedding的方法有:
1. Distributed Representations of Words and Phrases and their Compositionality
2. Efficient Estimation of Word Representations in Vector Space
3. GloVe Global Vectors forWord Representation
4. Neural probabilistic language models
5. Natural language processing (almost) from scratch
6. Learning word embeddings efficiently with noise contrastive estimation
7. A scalable hierarchical distributed language model
8. Three new graphical models for statistical language modelling
9. Improving word representations via global context and multiple word prototypes
paper list
2. Linguistic Regularities in Sparse and Explicit Word Representation
3. Random Walks on Context Spaces Towards an Explanation of the Mysteries of Semantic Word Embeddings
4. word2vec Explained Deriving Mikolov et al.’s Negative Sampling Word Embedding Method
鏈接:https://www.zhihu.com/question/21714667/answer/19433618
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。