tensorflow 教程文本分類 IMDB電影評論

本文轉載自查看原文 2018-11-03 23:45 1874 tensorflow IMDB 文本二分類 text_classification_with_mo

昨天配置了tensorflow的gpu版本，今天開始簡單的使用一下

主要是看了一下tensorflow的tutorial 里面的 IMDB 電影評論二分類這個教程

教程里面主要包括了一下幾個內容：下載IMDB數據集，顯示數據（將數組轉換回評論文本），准備數據，建立模型（隱層設置，優化器和損失函數的配置），建立一個驗證集，訓練模型，評估模型，顯示訓練精度和損失圖。

代碼我已經完全上傳到我的github中去了 https://github.com/OnesAlone/deepLearning/blob/master/two_classification_with_movie_review.ipynb

大部分內容均有注釋

下面我簡單介紹一下：

首先導入需要的工具包，包括tensorflow，keras，numpy，再下載imdb數據集

import tensorflow as tf
from tensorflow import keras
import numpy as np

imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

　　下載完成后可以用

len(train_data[0]), len(train_data[1])

　　檢查一下是否下載完成

接下來是將整形數組轉換為原始的影評（對於訓練模型來說沒有影響）

# 字典:用於將數字轉向單詞
word_index = imdb.get_word_index()

# key值不變，value值加3，並新增了4個鍵值對
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0 # 用來將每一個sentence擴充到同等長度
word_index["<START>"] = 1
word_index["<UNK>"] = 2 # 未知，可能是生僻單詞或是人名
word_index["UNUSED"] = 3

# 將鍵值對的鍵與值互換
reverse_word_index = dict([(value,key) for (key,value) in word_index.items()])

# 轉譯為原句
def decode_review(text):
    return ' '.join([reverse_word_index.get(i,'?') for i in text])

　　輸入

decode_review(train_data[0])

　　確認一下是否可以轉化，轉化結果如下所示

接下來對數據進性預處理

因為每一個sequence的長度不一致，為了將其輸入到神經網絡中，需要將他們的維度做一下預處理，有兩種方式

第一種：one-hot編碼將每一個sequence轉譯成num_words(10000)個 0s和 1s,代表每一個單詞是否出現過，這種方式僅統計是否出現和不統計詞頻，且是內存密集型的編碼，總計會有num_words * num_reviews 大小的matrix

第二種：擴展整數數組讓他們擁有相同的長度，這樣每一個sequence會有共同的max_length（256），總計會占用 max_length*num_reviews大小

教程內采用第二種，在sequence后面擴充0

train_data = keras.preprocessing.sequence.pad_sequences(train_data,value=word_index["<PAD>"],padding='post',maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data,value=word_index["<PAD>"],padding='post',maxlen=256)

　接下來構建模型

輸入數據是單詞組合，標簽是0或者1

先進行數據稀疏稠密化，因為sequence里面的word_index值是[0~10000]內稀疏的，所以將每一個單詞用一個16維的向量代替；input(1024,256)output(1024,256,16)

再通過均值的池化層，將每一個sequence做均值，類似於將單詞合並 ;input(1024,256,16),output(1024,16)

全連接層采用relu激活函數;input(1024,16),output(1024,16)

全連接層采用sigmoid激活函數；input(1024,16),output(1024,1)

vocab_size = 10000

model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size,16))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16,activation=tf.nn.relu))
model.add(keras.layers.Dense(1,activation=tf.nn.sigmoid))

model.summary()

　　因為采用了sigmoid激活函數，所以損失函數不能用mse均方誤差，因為在sigmoid函數的兩端梯度很小，會使w和b更新很慢，所以采用交叉熵代價函數（cross-entropy cost function）

model.compile(optimizer=tf.train.AdamOptimizer(),loss='binary_crossentropy',metrics=['accuracy'])

　　構建訓練集

x_val =train_data[:10000]
partial_x_train = train_data[10000:]

y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]

　　開始訓練模型，並將訓練模型過程中的一些參數如訓練精度和交叉驗證精度等保存在history中

history = model.fit(partial_x_train,partial_y_train,epochs=40,batch_size=1024,validation_data=(x_val,y_val),verbose=1)

　　評估模型

results = model.evaluate(test_data, test_labels)
results

可以看到精度大概在87%

最后通過matplot顯示訓練過程中的一些參數

import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()

plt.clf()   # 清除圖表
acc_values = history_dict['acc']
val_acc_values = history_dict['val_acc']

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()

plt.show()

交叉熵代價函數具有非負性和當真實輸出與期望輸出相近的時候，代價函數接近於零

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於Keras的imdb數據集電影評論情感二分類 kaggle之電影評論文本情感分類使用RNN對文本進行分類實踐電影評論 AI - TensorFlow - 示例02：影評文本分類基於keras中IMDB的文本分類 demo TensorFlow2.0教程9：文本分類 Tensorflow實現文本分類決策樹IMDB數據集電影評測分類 Python深度學習案例1--電影評論分類(二分類問題) IMDB影評傾向分類 - N-Gram

tensorflow 教程 文本分類 IMDB電影評論

免責聲明！

tensorflow 教程文本分類 IMDB電影評論