TextCNN模型詳細解析(2017年知乎競賽第一名架構)

本文轉載自查看原文 2020-03-08 23:00 1580 NLP學習

回到頂部

1. 模型原理

1.1 論文

Yoon Kim在論文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification提出TextCNN。

將卷積神經網絡CNN應用到文本分類任務，利用多個不同size的kernel來提取句子中的關鍵信息（類似於多窗口大小的ngram），從而能夠更好地捕捉局部相關性。

1.2 網絡結構

TextCNN的詳細過程原理圖如下：

TextCNN詳細過程：

Embedding：第一層是圖中最左邊的7乘5的句子矩陣，每行是詞向量，維度=5，這個可以類比為圖像中的原始像素點。
Convolution：然后經過 kernel_sizes=(2,3,4) 的一維卷積層，每個kernel_size 有兩個輸出 channel。
MaxPolling：第三層是一個1-max pooling層，這樣不同長度句子經過pooling層之后都能變成定長的表示。
FullConnection and Softmax：最后接一層全連接的 softmax 層，輸出每個類別的概率。

通道（Channels）：

圖像中可以利用 (R, G, B) 作為不同channel；
文本的輸入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），實踐中也有利用靜態詞向量和fine-tunning詞向量作為不同channel的做法。

一維卷積（conv-1d）：

圖像是二維數據；
文本是一維數據，因此在TextCNN卷積用的是一維卷積（在word-level上是一維卷積；雖然文本經過詞向量表達后是二維數據，但是在embedding-level上的二維卷積沒有意義）。一維卷積帶來的問題是需要通過設計不同 kernel_size 的 filter 獲取不同寬度的視野。

Pooling層：

利用CNN解決文本分類問題的文章還是很多的，比如這篇 A Convolutional Neural Network for Modelling Sentences 最有意思的輸入是在 pooling 改成 (dynamic) k-max pooling ，pooling階段保留 k 個最大的信息，保留了全局的序列信息。

比如在情感分析場景，舉個例子：

“我覺得這個地方景色還不錯，但是人也實在太多了”

雖然前半部分體現情感是正向的，全局文本表達的是偏負面的情感，利用 k-max pooling能夠很好捕捉這類信息。

回到頂部

2. 實現

基於Keras深度學習框架的實現代碼如下：

import logging

from keras import Input
from keras.layers import Conv1D, MaxPool1D, Dense, Flatten, concatenate, Embedding
from keras.models import Model
from keras.utils import plot_model


def textcnn(max_sequence_length, max_token_num, embedding_dim, output_dim, model_img_path=None, embedding_matrix=None):
    """ TextCNN: 1. embedding layers, 2.convolution layer, 3.max-pooling, 4.softmax layer. """
    x_input = Input(shape=(max_sequence_length,))
    logging.info("x_input.shape: %s" % str(x_input.shape))  # (?, 60)

    if embedding_matrix is None:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length)(x_input)
    else:
        x_emb = Embedding(input_dim=max_token_num, output_dim=embedding_dim, input_length=max_sequence_length,
                          weights=[embedding_matrix], trainable=True)(x_input)
    logging.info("x_emb.shape: %s" % str(x_emb.shape))  # (?, 60, 300)

    pool_output = []
    kernel_sizes = [2, 3, 4] 
    for kernel_size in kernel_sizes:
        c = Conv1D(filters=2, kernel_size=kernel_size, strides=1)(x_emb)
        p = MaxPool1D(pool_size=int(c.shape[1]))(c)
        pool_output.append(p)
        logging.info("kernel_size: %s \t c.shape: %s \t p.shape: %s" % (kernel_size, str(c.shape), str(p.shape)))
    pool_output = concatenate([p for p in pool_output])
    logging.info("pool_output.shape: %s" % str(pool_output.shape))  # (?, 1, 6)

    x_flatten = Flatten()(pool_output)  # (?, 6)
    y = Dense(output_dim, activation='softmax')(x_flatten)  # (?, 2)
    logging.info("y.shape: %s \n" % str(y.shape))

    model = Model([x_input], outputs=[y])
    if model_img_path:
        plot_model(model, to_file=model_img_path, show_shapes=True, show_layer_names=False)
    model.summary()
    return model

特征：這里用的是詞向量表示方式

數據量較大：可以直接隨機初始化embeddings，然后基於語料通過訓練模型網絡來對embeddings進行更新和學習。
數據量較小：可以利用外部語料來預訓練(pre-train)詞向量，然后輸入到Embedding層，用預訓練的詞向量矩陣初始化embeddings。（通過設置weights=[embedding_matrix]）。

靜態(static)方式：訓練過程中不再更新embeddings。實質上屬於遷移學習，特別是在目標領域數據量比較小的情況下，采用靜態的詞向量效果也不錯。（通過設置trainable=False）
非靜態(non-static)方式：在訓練過程中對embeddings進行更新和微調(fine tune)，能加速收斂。（通過設置trainable=True）

plot_model()畫出的TextCNN模型結構圖如下：

參考：https://zhuanlan.zhihu.com/p/25928551

引用博客：TextCNN模型原理和實現

作者：焦距

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Kaggle網站流量預測任務第一名解決方案：從模型到代碼詳解時序預測《Visual Studio Code 權威指南》登上京東科技IT新書榜第一名！【mysql經典題目】科目成績都大於80分\每個科目的第一名\總成績排名海華大賽第一名團隊聊比賽經驗和心得：AI在垃圾分類中的應用 10年經驗總結，華為fellow教你如何成為一名優秀的架構師？一個15年的架構師談“如何成為一名優秀的解決方案架構師” Androidstudio對小白來說干啥啥不行，報錯第一名：報錯1：Emulator: D:\Android\SDK\emulator\qemu\windows-x86_64\qemu-system-x86_64.exe: icmpv6 ICMP6_ECHO_REQUEST 致一名迷茫的我面試感悟----一名3年工作經驗的程序員應該具備的技能面試感悟----一名3年工作經驗的程序員應該具備的技能