以下是閱讀TextCNN后的理解
步驟:
1.先對句子進行分詞,一般使用“jieba”庫進行分詞。
2.在原文中,用了6個卷積核對原詞向量矩陣進行卷積。
3.6個卷積核大小:2個4*6、2個3*6和2個2*6,如上圖所示;然后進行池化,對相同卷積核產生的特征圖進行連接;再進行softmax輸出2個類別。
1).這里對no-static進行闡述,表示在訓練的過程中,詞向量是可以進行微調的,也叫做fine-tuning。
4.為什么采用不同大小的卷積核,不同的感受視野,卷積核的寬取詞匯表的緯度,有利於語義的提取。
5.研究證明為什么要采用字,而不采用字,原因是詞粒度准確率>字粒度准確率。存在兩種模型,一種是詞袋模型,第二種是詞向量模型。下面對詞向量模型來進行講述。
詞向量模型:
一般開始為高緯度,高稀疏向量,利用嵌入層對其進行降維,增加稠密性。
使用詞向量進行文本分類的步驟為:
①.先使用分詞工具提取詞匯表。
②.將要分類的內容轉換為詞向量。
a.分詞
b.將每個詞轉換為word2vec向量。
c.按順序組合word2vec,那么就組合成了一個詞向量。
d.卷積、池化和連接,然后進行分類。
6.嵌入層
原來一句話被分成了許多詞,因為在訓練好的詞向量中,是用語料庫中所有的詞拿來進行訓練的,所以訓練好的word2vec是一個字典,鍵值是詞,value值就是該詞詞向量的值,嵌入層的作用就是將一句話中詞拿到訓練好的詞向量字典中去組合詞向量,組合好的詞向量就是這句話的向量。