中文詞向量論文綜述(四)


導讀

最近在做中文詞向量相關工作,其中看了一些中文詞向量的相關論文,在這篇文章,將把近幾年的中文詞向量進展及其模型結構加以簡述,大概要寫3-4篇綜述,每篇包含2-3篇論文。續 --- 中文詞向量論文綜述(三)

一、Enriching Word Vectors with Subword Information

論文來源

這是一篇2017年發表在ACL(Association for Computational Linguistics)會議上的論文,作者來自於Facebook AI Research --- Piotr Bojanowski ,Edouard Grave 。

Abstract

這篇論文雖然是針對英文等西方語言提出的想法,但是后面cw2vec將這個idea在中文詞向量上進行了應用,在這里還是簡單的介紹一下。

在英文中,每一個單詞由若干個字母組成,單詞的詞義和其中的組成是有很大的關系的,這篇論文的核心思想就是采用單詞的n-gram特征學習詞向量的表示,並取得了很好的實驗效果。

Model

這篇論文提出的方法也很簡單,在每個word的前后分別添加< 與 >字符,作為這個單詞的開始於結束,還有就是對於只有一個字母的word進行表示,然后抽取其n-gram詞袋特征,具體來說,以3-gram為例,單詞where,可以被表示成<wh,whe,her,ere,re>,單詞a,可以表示為<a>,這篇論文抽取的是3 至 6的n-gram,那么where的所有表示就是,3-ngram:<wh,whe,her,ere,re>,<whe4-gram:<whe,wher,here,ere>5-gram:<wher,where,here>6-gram:<where,where>,以上就是where的所有表示,除此之外,還把原單詞<where>加入到n-gram中,最后word采用的是所有的n-gram的和。

這篇論文沒有提供模型結構圖,但是都是基於CBOW和skipgram進行的改善。

Experiment Result

這篇論文的實驗部分,不僅僅在Human similarity judgementWord analogy tasks兩個任務上面做了比較,還包含了其他的對比實驗,並且是在多種語言進行了實驗,具體的實驗結果如下圖所示,其中sg代表skipram,sisg-代表的是對那些不在評測文件中出現的詞采用不做處理,sisg代表的是不在評測文件中的詞采用n-gram加和表示。

  1. Human similarity judgement

  2. Word analogy tasks

二、 cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information

論文來源

這是一篇2018年發表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)會議上的論文,作者來自於螞蟻金服人工智能部 --- 曹紹升 。

詳解

這篇我在前面已經對其理論進行了總結,並且實現了一個C++版本,具體的可以查看,cw2vec理論及其實現

三、Radical Enhanced Chinese Word Embedding

論文來源

這是一篇2018年發表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)會議上的論文,作者來自於電子科技大學 --- Zheng Chen 和 Keqi Hu 。

Abstract

這篇論文是我最近整理的時候看到的,也算是最新的中文詞向量論文了,在這里也簡單的看一下。
在這篇論文中,考慮了中文漢字內部豐富的語義信息,通過新的方法抽取特征,提出了新的學習中文詞向量的方法,在Word SimilarityWord Analogy上面驗證其效果。

Model

模型是基於CBOW來進行的改進,通過Radical(部首)來增強word embedding,稱之為RECWE模型,具體的模型結構如下圖所示,模型結構分為了兩個部分:
左邊的是word prediction module,是一個典型的CBOW模型結構,其中w_i代表的是目標詞,w_i+1、w_i-1代表的是上下文詞,h_i1代表是的上下文詞的隱層表示。
右邊是 sub-information prediction module,它與 word prediction module並行存在,其中的c、s、r與word prediction module 中的w相對應,分別是上下文詞與目標詞的character、component、radical,h_i2代表的是左右的特征隱層表示。在這部分,也存在CWE模型中一字多義,音譯詞等影響,他們考慮使用word來構建h_i2。

為了能夠充分的挖掘內部語義信息,對radical進行了轉換處理,如下圖,

目標函數變化的不大,具體如下圖,對 h_i1 和 h_i2 都采用了average處理。

Experiment Result

Word SimilarityWord Analogy 上驗證了其實驗效果。
為了驗證sub-information特征的影響, 實驗部分考慮了三種sub-information特征,分別為p1、p2、p3,其中p1代表的是僅僅使用上下文詞的sub-information,p2代表的是僅僅使用目標詞的sub-information,p3代表的是使用目標詞和上下文詞的sub-information。
Word Similarity采用的評測文件是wordsim-240wordsim-296,具體的實驗結果如下圖。

Word Analogy采用的是Chen 2015年構造的評測文件,具體的實驗結果如下圖。

References

[1] Enriching Word Vectors with Subword Information
[2] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[3] Radical Enhanced Chinese Word Embedding

個人信息

[1] Blog : https://bamtercelboo.github.io/
[2] Github : https://github.com/bamtercelboo
[3] 知乎 :https://www.zhihu.com/people/bamtercelboo/activities
[4] 博客園: http://www.cnblogs.com/bamtercelboo/

轉載請注明出處

https://www.cnblogs.com/bamtercelboo/p/9491329.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM