AAAI 2019 | 基於圖卷積網絡的文本分類


AAAI 2019 | 基於圖卷積網絡的文本分類

版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
本文鏈接: https://blog.csdn.net/a609640147/article/details/97665388

文本分類任務是NLP領域一個重要和經典的問題,先前的工作利用CNN進行了很多嘗試,但是卻鮮有使用GCN來建模。作者提出了使用Text GCN來進行文本分類任務,基於詞共現和文檔詞關系為一個語料建立一個單獨的文本圖,然后為語料學習Text GCN模型。該模型通過One-hot表示為詞和文檔初始化,然后聯合學習詞和文檔的Embedding。實驗結果表明,在沒有任何外部的詞Embedding和知識的情況下,本文提出的Text GCN模型在多個文本分類benchmark數據集上取得了SOAT的效果。另一方面,Text GCNT也在學習預測詞和文檔的Embedding,在訓練數據量更少的情況下,Text GCN在文本分類任務上比SOAT的優勢更明顯,表現出了很好的魯棒性。

論文地址:
https://arxiv.org/abs/1809.05679
代碼地址:
https://github.com/yao8839836/text_gcn

主要思想

從整個語料來構造一個大圖,使用詞和文檔作為圖的節點。然后用GCN對圖進行建模,該模型可以捕獲高階的鄰居節點的信息,兩個詞節點之間的邊通過詞共現信息來構建,詞節點和文檔節點之間的邊通過詞頻和詞文檔頻率來構建,進而文本分類問題就轉化成了節點的分類問題。這種方法通過小部分的帶標簽文檔可以學習強健的類別信息,學習詞和文檔節點之間的交互Embedding信息。

主要貢獻

1.作者提出了一個新穎的文本分類方法Text GCN,這是第一個采用全部的語料作為異構圖的研究,使用圖神經網絡聯合學習詞和文檔的Embedding表示。
2.在沒有使用預訓練的Word Embedding和外部知識的情況下,在幾個文本分類benchmark數據集上勝過SOAT方法,該模型也同時在學習預測詞和文檔的Embedding表示。

數據集

本文采用了5個數據集:20NG、R8、R52、Ohsumed和MR;進行清洗數據、分詞、去停用詞和去除詞頻小於5的詞,預處理之后的數據集各項數據統計如下表所示:
本文使用的數據集統計

模型

GCN是一個直接在圖上操作的多層神經網絡,基於節點的相鄰節點的屬性信息引入節點的Embedding。對於一個一層的GCN,k-dim的節點特征矩陣L(1)L^{(1)}\inL(1)Rn×kR^{n\times{k}}Rn×k計算公式如下:

通過堆疊多個層來合並高階的臨近節點的信息:

本文采用包含詞節點和文檔節點的大型異構文本圖,這樣一來全局的詞共現可以被明確的建模,圖卷積可以被容易的使用。如下圖所示,節點的數量是所有文檔的數量加上語料詞典中所有詞的數量。其中X單位矩陣,表示每一個詞或者文檔采用One-hot編碼作為輸入,邊“文檔-詞”基於文檔中的詞出現,邊“詞-詞”基於整個語料庫的詞共現,權重“文檔-詞”基於TF-IDF,兩個詞之間的權重采用PMI來計算,公式如下:

損失函數計算如下:

本文采用2曾的GCN進行訓練,最大計算兩階臨近節點的信息。模型的結構如下圖所示:
GCN分類模型結構圖

實驗結果

本文在5個被廣泛使用的benchmark上分別進行了10次實驗,然后對結果進行平均,實驗結果如下:
文檔分類任務的測試准確率結果

結論

本文提出了一個新穎的文本分類模型Text GCN,在整個語料上構建了異構的詞和文檔圖,將文檔的分類問題轉化為節點的分類問題,該模型可以捕獲全局的詞共現信息並有效的利用有限的文檔標注信息,一個簡單的兩層GCN模型就在多個benchmark取得了SOAT的效果。將來的改進方向可以放在為圖增加attention機制或者開發無監督的GCN框架在大規模無標注的文本語料上進行表示學習。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM