數據集是網上找的
流程:
- 加載數據集,去停用詞
- 使用 Keras 的 Tokenizer 將每一文本用數字表示
- 創建 TextCNN 模型,訓練並預測
在 1080Ti 上 batch_size = 128 時每一 epoch 用時 2 s,跑 6、7 個 epoch 測試集准確率就到 1.0000 了 。。數據集太小太簡單
也可以使用詞袋模型進行實驗,這里不在贅述
項目完整地址:https://github.com/cyandn/DS/tree/master/text-classification
參考:
https://www.jianshu.com/p/3c8591a12bd6
https://blog.csdn.net/edogawachia/article/details/79446354
https://blog.csdn.net/John_xyz/article/details/79210088
http://www.52nlp.cn/tag/textcnn