情感分析


情感分析

本教程源代碼目錄在book/understand_sentiment,初次使用請您參考Book文檔使用說明

#背景介紹

在自然語言處理中,情感分析一般是指判斷一段文本所表達的情緒狀態。其中,一段文本可以是一個句子,一個段落或一個文檔。情緒狀態可以是兩類,如(正面,負面),(高興,悲傷);也可以是三類,如(積極,消極,中性)等等。情感分析的應用場景十分廣泛,如把用戶在購物網站(亞馬遜、天貓、淘寶等)、旅游網站、電影評論網站上發表的評論分成正面評論和負面評論;或為了分析用戶對於某一產品的整體使用感受,抓取產品的用戶評論並進行情感分析等等。表格1展示了對電影評論進行情感分析的例子:

電影評論 類別
在馮小剛這幾年的電影里,算最好的一部的了 正面
很不好看,好像一個地方台的電視劇 負面
圓方鏡頭全程炫技,色調背景美則美矣,但劇情拖沓,口音不倫不類,一直努力卻始終無法入戲 負面
劇情四星。但是圓鏡視角加上婺源的風景整個非常有中國寫意山水畫的感覺,看得實在太舒服了。。 正面

表格 1 電影評論情感分析

在自然語言處理中,情感分析屬於典型的文本分類問題,即把需要進行情感分析的文本划分為其所屬類別。文本分類涉及文本表示和分類方法兩個問題。在深度學習的方法出現之前,主流的文本表示方法為詞袋模型BOW(bag of words),話題模型等等;分類方法有SVM(support vector machine), LR(logistic regression)等等。

對於一段文本,BOW表示會忽略其詞順序、語法和句法,將這段文本僅僅看做是一個詞集合,因此BOW方法並不能充分表示文本的語義信息。例如,句子“這部電影糟糕透了”和“一個乏味,空洞,沒有內涵的作品”在情感分析中具有很高的語義相似度,但是它們的BOW表示的相似度為0。又如,句子“一個空洞,沒有內涵的作品”和“一個不空洞而且有內涵的作品”的BOW相似度很高,但實際上它們的意思很不一樣。

本章我們所要介紹的深度學習模型克服了BOW表示的上述缺陷,它在考慮詞順序的基礎上把文本映射到低維度的語義空間,並且以端對端(end to end)的方式進行文本表示及分類,其性能相對於傳統方法有顯著的提升[1]。

#說明:

  1. 硬件環境要求: 本文可支持在CPU、GPU下運行
  2. Docker鏡像支持的CUDA/cuDNN版本: 如果使用了Docker運行Book,請注意:這里所提供的默認鏡像的GPU環境為 CUDA 8/cuDNN 5,對於NVIDIA Tesla V100等要求CUDA 9的 GPU,使用該鏡像可能會運行失敗。
  3. 文檔和腳本中代碼的一致性問題: 請注意:為使本文更加易讀易用,我們拆分、調整了train.py的代碼並放入本文。本文中代碼與train.py的運行結果一致,可直接運行train.py進行驗證。

#模型概覽

本章所使用的文本表示模型為卷積神經網絡(Convolutional Neural Networks)和循環神經網絡(Recurrent Neural Networks)及其擴展。下面依次介紹這幾個模型。

#文本卷積神經網絡簡介(CNN)

我們在推薦系統一節介紹過應用於文本數據的卷積神經網絡模型的計算過程,這里進行一個簡單的回顧。

對卷積神經網絡來說,首先使用卷積處理輸入的詞向量序列,產生一個特征圖(feature map),對特征圖采用時間維度上的最大池化(max pooling over time)操作得到此卷積核對應的整句話的特征,最后,將所有卷積核得到的特征拼接起來即為文本的定長向量表示,對於文本分類問題,將其連接至softmax即構建出完整的模型。在實際應用中,我們會使用多個卷積核來處理句子,窗口大小相同的卷積核堆疊起來形成一個矩陣,這樣可以更高效的完成運算。另外,我們也可使用窗口大小不同的卷積核來處理句子,推薦系統一節的圖3作為示意畫了四個卷積核,既文本圖1,不同顏色表示不同大小的卷積核操作。


圖1. 卷積神經網絡文本分類模型

對於一般的短文本分類問題,上文所述的簡單的文本卷積網絡即可達到很高的正確率[1]。若想得到更抽象更高級的文本特征表示,可以構建深層文本卷積神經網絡[2,3]。

#循環神經網絡(RNN)

循環神經網絡是一種能對序列數據進行精確建模的有力工具。實際上,循環神經網絡的理論計算能力是圖靈完備的[4]。自然語言是一種典型的序列數據(詞序列),近年來,循環神經網絡及其變體(如long short term memory[5]等)在自然語言處理的多個領域,如語言模型、句法解析、語義角色標注(或一般的序列標注)、語義表示、圖文生成、對話、機器翻譯等任務上均表現優異甚至成為目前效果最好的方法。


圖2. 循環神經網絡按時間展開的示意圖

循環神經網絡按時間展開后如圖2所示:在第tt時刻,網絡讀入第tt個輸入xtxt(向量表示)及前一時刻隱層的狀態值ht1ht−1(向量表示,h0h0一般初始化為00向量),計算得出本時刻隱層的狀態值htht,重復這一步驟直至讀完所有輸入。如果將循環神經網絡所表示的函數記為ff,則其公式可表示為:

其中WxhWxh是輸入到隱層的矩陣參數,WhhWhh是隱層到隱層的矩陣參數,bhbh為隱層的偏置向量(bias)參數,σσ為sigmoidsigmoid函數。

在處理自然語言時,一般會先將詞(one-hot表示)映射為其詞向量表示,然后再作為循環神經網絡每一時刻的輸入xtxt。此外,可以根據實際需要的不同在循環神經網絡的隱層上連接其它層。如,可以把一個循環神經網絡的隱層輸出連接至下一個循環神經網絡的輸入構建深層(deep or stacked)循環神經網絡,或者提取最后一個時刻的隱層狀態作為句子表示進而使用分類模型等等。

#長短期記憶網絡(LSTM)

對於較長的序列數據,循環神經網絡的訓練過程中容易出現梯度消失或爆炸現象[6]。為了解決這一問題,Hochreiter S, Schmidhuber J. (1997)提出了LSTM(long short term memory[5])。

相比於簡單的循環神經網絡,LSTM增加了記憶單元cc、輸入門ii、遺忘門ff及輸出門oo。這些門及記憶單元組合起來大大提升了循環神經網絡處理長序列數據的能力。若將基於LSTM的循環神經網絡表示的函數記為FF,則其公式為:

FF由下列公式組合而成[7]:

其中,it,ft,ct,otit,ft,ct,ot分別表示輸入門,遺忘門,記憶單元及輸出門的向量值,帶角標的WW及bb為模型參數,tanhtanh為雙曲正切函數,⊙表示逐元素(elementwise)的乘法操作。輸入門控制着新輸入進入記憶單元cc的強度,遺忘門控制着記憶單元維持上一時刻值的強度,輸出門控制着輸出記憶單元的強度。三種門的計算方式類似,但有着完全不同的參數,它們各自以不同的方式控制着記憶單元cc,如圖3所示:


圖3. 時刻tt的LSTM [7]

LSTM通過給簡單的循環神經網絡增加記憶及控制門的方式,增強了其處理遠距離依賴問題的能力。類似原理的改進還有Gated Recurrent Unit (GRU)[8],其設計更為簡潔一些。這些改進雖然各有不同,但是它們的宏觀描述卻與簡單的循環神經網絡一樣(如圖2所示),即隱狀態依據當前輸入及前一時刻的隱狀態來改變,不斷地循環這一過程直至輸入處理完畢:

其中,RecurrentRecurrent可以表示簡單的循環神經網絡、GRU或LSTM。

#棧式雙向LSTM(Stacked Bidirectional LSTM)

對於正常順序的循環神經網絡,htht包含了tt時刻之前的輸入信息,也就是上文信息。同樣,為了得到下文信息,我們可以使用反方向(將輸入逆序處理)的循環神經網絡。結合構建深層循環神經網絡的方法(深層神經網絡往往能得到更抽象和高級的特征表示),我們可以通過構建更加強有力的基於LSTM的棧式雙向循環神經網絡[9],來對時序數據進行建模。

如圖4所示(以三層為例),奇數層LSTM正向,偶數層LSTM反向,高一層的LSTM使用低一層LSTM及之前所有層的信息作為輸入,對最高層LSTM序列使用時間維度上的最大池化即可得到文本的定長向量表示(這一表示充分融合了文本的上下文信息,並且對文本進行了深層次抽象),最后我們將文本表示連接至softmax構建分類模型。


圖4. 棧式雙向LSTM用於文本分類

#數據集介紹

我們以IMDB情感分析數據集為例進行介紹。IMDB數據集的訓練集和測試集分別包含25000個已標注過的電影評論。其中,負面評論的得分小於等於4,正面評論的得分大於等於7,滿分10分。

aclImdb
|- test
   |-- neg
   |-- pos
|- train
   |-- neg
   |-- pos

Paddle在dataset/imdb.py中提實現了imdb數據集的自動下載和讀取,並提供了讀取字典、訓練數據、測試數據等API。

#配置模型

在該示例中,我們實現了兩種文本分類算法,分別基於推薦系統一節介紹過的文本卷積神經網絡,以及[棧式雙向LSTM](#棧式雙向LSTM(Stacked Bidirectional LSTM))。我們首先引入要用到的庫和定義全局變量:

from __future__ import print_function import paddle import paddle.fluid as fluid import numpy as np import sys import math CLASS_DIM = 2 #情感分類的類別數 EMB_DIM = 128 #詞向量的維度 HID_DIM = 512 #隱藏層的維度 STACKED_NUM = 3 #LSTM雙向棧的層數 BATCH_SIZE = 128 #batch的大小 

#文本卷積神經網絡

我們構建神經網絡convolution_net,示例代碼如下。 需要注意的是:fluid.nets.sequence_conv_pool 包含卷積和池化層兩個操作。

#文本卷積神經網絡 def convolution_net(data, input_dim, class_dim, emb_dim, hid_dim): emb = fluid.layers.embedding( input=data, size=[input_dim, emb_dim], is_sparse=True) conv_3 = fluid.nets.sequence_conv_pool( input=emb, num_filters=hid_dim, filter_size=3, act="tanh", pool_type="sqrt") conv_4 = fluid.nets.sequence_conv_pool( input=emb, num_filters=hid_dim, filter_size=4, act="tanh", pool_type="sqrt") prediction = fluid.layers.fc( input=[conv_3, conv_4], size=class_dim, act="softmax") return prediction 

網絡的輸入input_dim表示的是詞典的大小,class_dim表示類別數。這里,我們使用sequence_conv_pool API實現了卷積和池化操作。

#棧式雙向LSTM

棧式雙向神經網絡stacked_lstm_net的代碼片段如下:

#棧式雙向LSTM def stacked_lstm_net(data, input_dim, class_dim, emb_dim, hid_dim, stacked_num): #計算詞向量 emb = fluid.layers.embedding( input=data, size=[input_dim, emb_dim], is_sparse=True) #第一層棧 #全連接層 fc1 = fluid.layers.fc(input=emb, size=hid_dim) #lstm層 lstm1, cell1 = fluid.layers.dynamic_lstm(input=fc1, size=hid_dim) inputs = [fc1, lstm1] #其余的所有棧結構 for i in range(2, stacked_num + 1): fc = fluid.layers.fc(input=inputs, size=hid_dim) lstm, cell = fluid.layers.dynamic_lstm( input=fc, size=hid_dim, is_reverse=(i % 2) == 0) inputs = [fc, lstm] #池化層 fc_last = fluid.layers.sequence_pool(input=inputs[0], pool_type='max') lstm_last = fluid.layers.sequence_pool(input=inputs[1], pool_type='max') #全連接層,softmax預測 prediction = fluid.layers.fc( input=[fc_last, lstm_last], size=class_dim, act='softmax') return prediction 

以上的棧式雙向LSTM抽象出了高級特征並把其映射到和分類類別數同樣大小的向量上。最后一個全連接層的'softmax'激活函數用來計算分類屬於某個類別的概率。

重申一下,此處我們可以調用convolution_netstacked_lstm_net的任何一個網絡結構進行訓練學習。我們以convolution_net為例。

接下來我們定義預測程序(inference_program)。預測程序使用convolution_net來對fluid.layer.data的輸入進行預測。

def inference_program(word_dict): data = fluid.layers.data( name="words", shape=[1], dtype="int64", lod_level=1) dict_dim = len(word_dict) net = convolution_net(data, dict_dim, CLASS_DIM, EMB_DIM, HID_DIM) # net = stacked_lstm_net(data, dict_dim, CLASS_DIM, EMB_DIM, HID_DIM, STACKED_NUM) return net 

我們這里定義了training_program。它使用了從inference_program返回的結果來計算誤差。我們同時定義了優化函數optimizer_func

因為是有監督的學習,訓練集的標簽也在fluid.layers.data中定義了。在訓練過程中,交叉熵用來在fluid.layer.cross_entropy中作為損失函數。

在測試過程中,分類器會計算各個輸出的概率。第一個返回的數值規定為cost。

def train_program(prediction): label = fluid.layers.data(name="label", shape=[1], dtype="int64") cost = fluid.layers.cross_entropy(input=prediction, label=label) avg_cost = fluid.layers.mean(cost) accuracy = fluid.layers.accuracy(input=prediction, label=label) return [avg_cost, accuracy] #返回平均cost和准確率acc #優化函數 def optimizer_func(): return fluid.optimizer.Adagrad(learning_rate=0.002) 

#訓練模型

#定義訓練環境

定義您的訓練是在CPU上還是在GPU上:

use_cuda = False #在cpu上進行訓練 place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace() 

#定義數據提供器

下一步是為訓練和測試定義數據提供器。提供器讀入一個大小為 BATCH_SIZE的數據。paddle.dataset.imdb.word_dict 每次會在亂序化后提供一個大小為BATCH_SIZE的數據,亂序化的大小為緩存大小buf_size。

注意:讀取IMDB的數據可能會花費幾分鍾的時間,請耐心等待。

print("Loading IMDB word dict....") word_dict = paddle.dataset.imdb.word_dict() print ("Reading training data....") train_reader = paddle.batch( paddle.reader.shuffle( paddle.dataset.imdb.train(word_dict), buf_size=25000), batch_size=BATCH_SIZE) print("Reading testing data....") test_reader = paddle.batch( paddle.dataset.imdb.test(word_dict), batch_size=BATCH_SIZE) 

word_dict是一個字典序列,是詞和label的對應關系,運行下一行可以看到具體內容:

word_dict

每行是如('limited': 1726)的對應關系,該行表示單詞limited所對應的label是1726。

#構造訓練器

訓練器需要一個訓練程序和一個訓練優化函數。

exe = fluid.Executor(place) prediction = inference_program(word_dict) [avg_cost, accuracy] = train_program(prediction)#訓練程序 sgd_optimizer = optimizer_func()#訓練優化函數 sgd_optimizer.minimize(avg_cost) 

該函數用來計算訓練中模型在test數據集上的結果

def train_test(program, reader): count = 0 feed_var_list = [ program.global_block().var(var_name) for var_name in feed_order ] feeder_test = fluid.DataFeeder(feed_list=feed_var_list, place=place) test_exe = fluid.Executor(place) accumulated = len([avg_cost, accuracy]) * [0] for test_data in reader(): avg_cost_np = test_exe.run( program=program, feed=feeder_test.feed(test_data), fetch_list=[avg_cost, accuracy]) accumulated = [ x[0] + x[1][0] for x in zip(accumulated, avg_cost_np) ] count += 1 return [x / count for x in accumulated] 

#提供數據並構建主訓練循環

feed_order用來定義每條產生的數據和fluid.layers.data之間的映射關系。比如,imdb.train產生的第一列的數據對應的是words這個特征。

# Specify the directory path to save the parameters params_dirname = "understand_sentiment_conv.inference.model" feed_order = ['words', 'label'] pass_num = 1 #訓練循環的輪數 #程序主循環部分 def train_loop(main_program): #啟動上文構建的訓練器 exe.run(fluid.default_startup_program()) feed_var_list_loop = [ main_program.global_block().var(var_name) for var_name in feed_order ] feeder = fluid.DataFeeder( feed_list=feed_var_list_loop, place=place) test_program = fluid.default_main_program().clone(for_test=True) #訓練循環 for epoch_id in range(pass_num): for step_id, data in enumerate(train_reader()): #運行訓練器 metrics = exe.run(main_program, feed=feeder.feed(data), fetch_list=[avg_cost, accuracy]) #測試結果 avg_cost_test, acc_test = train_test(test_program, test_reader) print('Step {0}, Test Loss {1:0.2}, Acc {2:0.2}'.format( step_id, avg_cost_test, acc_test)) print("Step {0}, Epoch {1} Metrics {2}".format( step_id, epoch_id, list(map(np.array, metrics)))) if step_id == 30: if params_dirname is not None: fluid.io.save_inference_model(params_dirname, ["words"], prediction, exe)#保存模型 return 

#訓練過程處理

我們在訓練主循環里打印了每一步輸出,可以觀察訓練情況。

#開始訓練

最后,我們啟動訓練主循環來開始訓練。訓練時間較長,如果為了更快的返回結果,可以通過調整損耗值范圍或者訓練步數,以減少准確率的代價來縮短訓練時間。

train_loop(fluid.default_main_program()) 

#應用模型

#構建預測器

和訓練過程一樣,我們需要創建一個預測過程,並使用訓練得到的模型和參數來進行預測,params_dirname用來存放訓練過程中的各個參數。

place = fluid.CUDAPlace(0) if use_cuda else fluid.CPUPlace() exe = fluid.Executor(place) inference_scope = fluid.core.Scope() 

#生成測試用輸入數據

為了進行預測,我們任意選取3個評論。請隨意選取您看好的3個。我們把評論中的每個詞對應到word_dict中的id。如果詞典中沒有這個詞,則設為unknown。 然后我們用create_lod_tensor來創建細節層次的張量,關於該函數的詳細解釋請參照API文檔

reviews_str = [ 'read the book forget the movie', 'this is a great movie', 'this is very bad' ] reviews = [c.split() for c in reviews_str] UNK = word_dict['<unk>'] lod = [] for c in reviews: lod.append([word_dict.get(words, UNK) for words in c]) base_shape = [[len(c) for c in lod]] tensor_words = fluid.create_lod_tensor(lod, base_shape, place) 

#應用模型並進行預測

現在我們可以對每一條評論進行正面或者負面的預測啦。

with fluid.scope_guard(inference_scope): [inferencer, feed_target_names, fetch_targets] = fluid.io.load_inference_model(params_dirname, exe) assert feed_target_names[0] == "words" results = exe.run(inferencer, feed={feed_target_names[0]: tensor_words}, fetch_list=fetch_targets, return_numpy=False) np_data = np.array(results[0]) for i, r in enumerate(np_data): print("Predict probability of ", r[0], " to be positive and ", r[1], " to be negative for review \'", reviews_str[i], "\'") 

#總結

本章我們以情感分析為例,介紹了使用深度學習的方法進行端對端的短文本分類,並且使用PaddlePaddle完成了全部相關實驗。同時,我們簡要介紹了兩種文本處理模型:卷積神經網絡和循環神經網絡。在后續的章節中我們會看到這兩種基本的深度學習模型在其它任務上的應用。

#參考文獻

  1. Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
  2. Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint arXiv:1404.2188, 2014.
  3. Yann N. Dauphin, et al. Language Modeling with Gated Convolutional Networks[J] arXiv preprint arXiv:1612.08083, 2016.
  4. Siegelmann H T, Sontag E D. On the computational power of neural nets[C]//Proceedings of the fifth annual workshop on Computational learning theory. ACM, 1992: 440-449.
  5. Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.
  6. Bengio Y, Simard P, Frasconi P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE transactions on neural networks, 1994, 5(2): 157-166.
  7. Graves A. Generating sequences with recurrent neural networks[J]. arXiv preprint arXiv:1308.0850, 2013.
  8. Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014.
  9. Zhou J, Xu W. End-to-end learning of semantic role labeling using recurrent neural networks[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. 2015.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM