導讀

最近在做中文詞向量相關工作，其中看了一些中文詞向量的相關論文，在這篇文章，將把近幾年的中文詞向量進展及其模型結構加以簡述，大概要寫3-4篇綜述，每篇包含2-3篇論文。續 --- 中文詞向量論文綜述（三）。

一、Enriching Word Vectors with Subword Information

論文來源

這是一篇2017年發表在ACL(Association for Computational Linguistics)會議上的論文，作者來自於Facebook AI Research --- Piotr Bojanowski ，Edouard Grave 。

Abstract

這篇論文雖然是針對英文等西方語言提出的想法，但是后面cw2vec將這個idea在中文詞向量上進行了應用，在這里還是簡單的介紹一下。

在英文中，每一個單詞由若干個字母組成，單詞的詞義和其中的組成是有很大的關系的，這篇論文的核心思想就是采用單詞的n-gram特征學習詞向量的表示，並取得了很好的實驗效果。

Model

這篇論文提出的方法也很簡單，在每個word的前后分別添加< 與 >字符，作為這個單詞的開始於結束，還有就是對於只有一個字母的word進行表示，然后抽取其n-gram詞袋特征，具體來說，以3-gram為例，單詞where，可以被表示成<wh，whe，her，ere，re>，單詞a，可以表示為<a>，這篇論文抽取的是3 至 6的n-gram，那么where的所有表示就是，3-ngram：<wh，whe，her，ere，re>，<whe，4-gram：<whe，wher，here，ere>，5-gram：<wher，where，here>，6-gram：<where，where>，以上就是where的所有表示，除此之外，還把原單詞<where>加入到n-gram中，最后word采用的是所有的n-gram的和。

這篇論文沒有提供模型結構圖，但是都是基於CBOW和skipgram進行的改善。

Experiment Result

這篇論文的實驗部分，不僅僅在Human similarity judgement 和 Word analogy tasks兩個任務上面做了比較，還包含了其他的對比實驗，並且是在多種語言進行了實驗，具體的實驗結果如下圖所示，其中sg代表skipram，sisg-代表的是對那些不在評測文件中出現的詞采用不做處理，sisg代表的是不在評測文件中的詞采用n-gram加和表示。

Human similarity judgement
Word analogy tasks

二、 cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information

論文來源

這是一篇2018年發表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)會議上的論文，作者來自於螞蟻金服人工智能部 --- 曹紹升。

詳解

這篇我在前面已經對其理論進行了總結，並且實現了一個C++版本，具體的可以查看，cw2vec理論及其實現。

三、Radical Enhanced Chinese Word Embedding

論文來源

這是一篇2018年發表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)會議上的論文，作者來自於電子科技大學 --- Zheng Chen 和 Keqi Hu 。

Abstract

這篇論文是我最近整理的時候看到的，也算是最新的中文詞向量論文了，在這里也簡單的看一下。
在這篇論文中，考慮了中文漢字內部豐富的語義信息，通過新的方法抽取特征，提出了新的學習中文詞向量的方法，在Word Similarity 和 Word Analogy上面驗證其效果。

Model

模型是基於CBOW來進行的改進，通過Radical（部首）來增強word embedding，稱之為RECWE模型，具體的模型結構如下圖所示，模型結構分為了兩個部分：
左邊的是word prediction module，是一個典型的CBOW模型結構，其中w_i代表的是目標詞，w_i+1、w_i-1代表的是上下文詞，h_i1代表是的上下文詞的隱層表示。
右邊是 sub-information prediction module，它與 word prediction module並行存在，其中的c、s、r與word prediction module 中的w相對應，分別是上下文詞與目標詞的character、component、radical，h_i2代表的是左右的特征隱層表示。在這部分，也存在CWE模型中一字多義，音譯詞等影響，他們考慮使用word來構建h_i2。

為了能夠充分的挖掘內部語義信息，對radical進行了轉換處理，如下圖，

目標函數變化的不大，具體如下圖，對 h_i1 和 h_i2 都采用了average處理。

Experiment Result

在 Word Similarity 和 Word Analogy 上驗證了其實驗效果。
為了驗證sub-information特征的影響，實驗部分考慮了三種sub-information特征，分別為p1、p2、p3，其中p1代表的是僅僅使用上下文詞的sub-information，p2代表的是僅僅使用目標詞的sub-information，p3代表的是使用目標詞和上下文詞的sub-information。
Word Similarity采用的評測文件是wordsim-240，wordsim-296，具體的實驗結果如下圖。

Word Analogy采用的是Chen 2015年構造的評測文件，具體的實驗結果如下圖。

References

[1] Enriching Word Vectors with Subword Information
[2] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[3] Radical Enhanced Chinese Word Embedding

個人信息

[1] Blog ： https://bamtercelboo.github.io/
[2] Github ： https://github.com/bamtercelboo
[3] 知乎：https://www.zhihu.com/people/bamtercelboo/activities
[4] 博客園： http://www.cnblogs.com/bamtercelboo/

轉載請注明出處

https://www.cnblogs.com/bamtercelboo/p/9491329.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 中文詞向量論文綜述（一）中文詞向量論文綜述（三）中文詞向量訓練訓練中文詞向量使用BERT獲取中文詞向量使用BERT獲取中文詞向量使用word2vec訓練中文詞向量 word2vec 構建中文詞向量 word2vec 構建中文詞向量