本文翻譯自:博文What will happen when we apply CapsNet with dynamic routing to NLP?
本文要講的是研究人員在應用CapsNet(膠囊網絡)進行文本分類時發現了什么。我們需要了解下列的網絡層次以及相應的算法。
N-gram卷積層
這一層是標准的卷積層,通過多個不同的卷積核在句子的不同位置提取N-gram特征。
主膠囊層(Primary Capsule Layer)
這一層是第一個膠囊層,在這個膠囊層中,膠囊將卷積操作的標量輸出替換為矢量輸出,從而保留實例化參數,如單詞的局部順序和單詞的語義表示。
卷積膠囊層(Convolutional Capsule Layer)
在這一層中,每個膠囊僅與下面層中的一個局部區域相連。這些膠囊與變換矩陣相乘來計算子膠囊(低層膠囊)與父膠囊(高層膠囊)之間的關系,然后根據協議路由(routing-by-agreement)計算出上層的父膠囊。
全連接膠囊層
下一層的膠囊被展平成一個膠囊列表,並送入全連接膠囊層。在全連通膠囊層中,膠囊乘以變換矩陣,然后按協議路由生成最終的膠囊及其對每個類別的概率。
動態路由
動態路由的基本思想是設計一個非線性映射。非線性映射以迭代的方式確保每個膠囊的輸出被發送到下一層中的適當的父膠囊中。對於每一個潛在的父膠囊,膠囊網絡可以通過動態路由過程增加或減少子膠囊和各個父膠囊之間的連接強度,這比原始的下采樣策略如max-pooling等池化操作更有效,盡管這些池化操作基本上能夠檢測出現在文本任何位置的特征,但也丟失了很多空間位置信息。論文探索了三種策略來提高路由過程的准確性,減輕一些帶噪聲的膠囊的干擾。
1) 孤兒類別——一個額外的“孤兒”類別被添加到網絡,它可以捕獲文本的“背景”信息,如停用詞和與特定類別無關的一些詞,這個策略能夠讓路由過程更有效率。在文本中加入“孤兒”類比在圖像中更有效,因為圖像中沒有單一一致的“背景”對象,而在謂詞、代詞等文本中是一致的。
2) Leaky-Softmax——在更新子膠囊和父膠囊之間的連接強度時,使用用Leaky-Softmax代替標准softmax。除了最后一層膠囊中的孤兒類別,我們還需要在連續兩層之間采用一種輕量級的方法將帶噪聲的子膠囊路由到額外的維度,而不需要任何額外的參數和計算量。
3) 系數修正——論文嘗試以迭代的方式用下層中存在子膠囊的概率迭代修正連接強度。
結論
通過在6個文本分類benchmark上的實驗,證明了膠囊網絡在文本分類中的有效性。更重要的是,相對於強大基線模型,膠囊網絡在將單標簽文本分類轉換為多標簽文本分類時也顯示出了顯著的成績提升。
摘自2018年3月29日發表的論文《Investigating Capsule Networks with Dynamic Routing for Text Classification》,連接:https://arxiv.org/abs/1804.00538 (譯者注)。