1. 模型原理
1.1 論文
Yoon Kim在論文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。
將卷積神經網絡CNN應用到文本分類任務,利用多個不同size的kernel來提取句子中的關鍵信息(類似於多窗口大小的ngram),從而能夠更好地捕捉局部相關性。
1.2 網絡結構
TextCNN的詳細過程原理圖如下:
TextCNN詳細過程:
- Embedding:第一層是圖中最左邊的7乘5的句子矩陣,每行是詞向量,維度=5,這個可以類比為圖像中的原始像素點。
- Convolution:然后經過 kernel_sizes=(2,3,4) 的一維卷積層,每個kernel_size 有兩個輸出 channel。
- MaxPolling:第三層是一個1-max pooling層,這樣不同長度句子經過pooling層之后都能變成定長的表示。
- FullConnection and Softmax:最后接一層全連接的 softmax 層,輸出每個類別的概率。
通道(Channels):
- 圖像中可以利用 (R, G, B) 作為不同channel;
- 文本的輸入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),實踐中也有利用靜態詞向量和fine-tunning詞向量作為不同channel的做法。
一維卷積(conv-1d):
- 圖像是二維數據;
- 文本是一維數據,因此在TextCNN卷積用的是一維卷積(在word-level上是一維卷積;雖然文本經過詞向量表達后是二維數據,但是在embedding-level上的二維卷積沒有意義)。一維卷積帶來的問題是需要通過設計不同 kernel_size 的 filter 獲取不同寬度的視野。
Pooling層:
利用CNN解決文本分類問題的文章還是很多的,比如這篇 A Convolutional Neural Network for Modelling Sentences 最有意思的輸入是在 pooling 改成 (dynamic) k-max pooling ,pooling階段保留 k 個最大的信息,保留了全局的序列信息。
比如在情感分析場景,舉個例子:
“我覺得這個地方景色還不錯,但是人也實在太多了”
雖然前半部分體現情感是正向的,全局文本表達的是偏負面的情感,利用 k-max pooling能夠很好捕捉這類信息。
2. 實現
基於Keras深度學習框架的實現代碼如下:
import logging from keras import Input from keras.layers import Conv1D, MaxPool1D, Dense, Flatten, concatenate, Embedding from keras.models import Model from keras.utils import plot_model def textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None): """ TextCNN: 1. embedding layers, 2.convolution layer, 3.max-pooling, 4.softmax layer. """ x_input = Input(shape=(max_sequence_length,)) logging.info("x_input.shape: %s" % str(x_input.shape)) # (?, 60) if embedding_matrix is None: x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input) else: x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length, weights=[embedding_matrix], trainable=True)(x_input) logging.info("x_emb.shape: %s" % str(x_emb.shape)) # (?, 60, 300) pool_output = [] kernel_sizes = [2, 3, 4] for kernel_size in kernel_sizes: c = Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb) p = MaxPool1D(pool_size=int(c.shape[1]))(c) pool_output.append(p) logging.info("kernel_size: %s \t c.shape: %s \t p.shape: %s" % (kernel_size, str(c.shape), str(p.shape))) pool_output = concatenate([p for p in pool_output]) logging.info("pool_output.shape: %s" % str(pool_output.shape)) # (?, 1, 6) x_flatten = Flatten()(pool_output) # (?, 6) y = Dense(output_dim, activation='softmax')(x_flatten) # (?, 2) logging.info("y.shape: %s \n" % str(y.shape)) model = Model([x_input], outputs=[y]) if model_img_path: plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False) model.summary() return model
特征:這里用的是詞向量表示方式
- 數據量較大:可以直接隨機初始化embeddings,然后基於語料通過訓練模型網絡來對embeddings進行更新和學習。
- 數據量較小:可以利用外部語料來預訓練(pre-train)詞向量,然后輸入到Embedding層,用預訓練的詞向量矩陣初始化embeddings。(通過設置weights=[embedding_matrix])。
- 靜態(static)方式:訓練過程中不再更新embeddings。實質上屬於遷移學習,特別是在目標領域數據量比較小的情況下,采用靜態的詞向量效果也不錯。(通過設置trainable=False)
- 非靜態(non-static)方式:在訓練過程中對embeddings進行更新和微調(fine tune),能加速收斂。(通過設置trainable=True)
plot_model()畫出的TextCNN模型結構圖如下:
參考:https://zhuanlan.zhihu.com/p/25928551
引用博客:TextCNN模型原理和實現
作者:焦距