作者及其單位:北京郵電大學,張俊遙,2019年6月,碩士論文
摘要
實驗數據:來源於網絡公開的新聞文本數據;用隨機欠采樣和過采樣的方法解決分類不均衡問題;使用BIO
格式的標簽識別5類命名實體,標注11種標簽。
學習模型:基於RNN-CRF
框架,提出Bi-GRU-Attention
模型;基於改進的ELMo
可移植模型。
一,緒論
1,研究背景及意義
研究背景主要介紹的是時代背景及
NER
的應用領域。
2,研究現狀
1)基於規則和詞典的方法;
2)基於統計的方法:語言的
N
元模型,隱馬爾科夫模型,最大熵模型,條件隨機場,支持向量機,決策樹,基於轉換的學習方法;3)基於深度學習的方法:基於雙向循環神經網絡與條件隨機場結合的框架;基於標簽轉移與窗口滑動的方法;注意力機制(
Attention
);4)基於遷移學習的方法。
面臨挑戰:
1)中文命名實體界限難划分;
2)中文命名實體結構更多樣復雜;
3)中文命名實體分類標准不同,划分標注結果不同。
3,研究內容
1)數據集收集與預處理;
2)基於雙向循環神經網絡與條件隨機場模型的研究;
3)基於
ELMo
的可移植模型研究。
二,相關技術
1,基於循環神經網絡方法的技術
1)神經單元結構:循環是指一個神經單元的計算是按照時間順序展開依次進行的過程。具有記憶特征,常用來處理與序列相關的問題。
2)循環神經網絡的發展:
LSTM
取代CNN
,主要是解決CNN
單元的反向傳播的計算問題。3)深層網絡搭建:
Dropout
常被用作防止模型過擬合,減少網絡冗余度,增加模型魯棒性;批量歸一化策略是批量梯度下降算法過程的一項操作;clip
是一種有效控制梯度爆炸的算法。4)目標函數,即損失函數,衡量經過模型計算的預測結果和事實上的結果之間的差距。如:平方差,交叉熵,
softmax
。5)注意力機制:論文研究了在
LSTM
中引入注意力機制。6)
Adam
優化算法:適合解決梯度稀疏或噪音較高的優化問題。
2,基於遷移學習方法的技術
1)基本思想:
(1)預訓練的兩種基本思路:
a)基於共同表示形式的思路:電子文本大多以某種向量形式(詞,句,段,文本)表示輸入到網絡中,如
ELMo
模型。b)基於網絡微調的思想:借鑒機器視覺領域的模型思想,在預訓練好的模型上加入針對任務的功能層,在對后幾層進行結構和參數設置的精調。
2)語言模型:雙向語言模型
3)詞向量技術:
One-hot
向量,稀疏向量和稠密向量。(1)基於統計的方法
a)基於共現矩陣的方法:在設定的窗口大小內,統計了一個句子中詞語前后相鄰出現的次數,使用這個次數構成的向量當作詞向量,這個向量比較稀疏。
b)奇異值分解的方法:可以看作一種降維過程,把稀疏矩陣壓縮為稠密矩陣的過程。
(2)基於語言模型的方法:
a)跳字模型(
skip-gram
):使用一個詞來預測上下文詞語;b)連續詞袋模型(
CBOW
):使用周圍詞語預測中心詞;c)
ELMo
模型:詞向量表達過程是動態的,即一詞多義下的詞向量完全不同。4)混淆矩陣:數據科學,數據分析和機器學習中統計分類的實際結果和預測結果的表格表示。
三,命名實體識別任務與數據集
1,命名實體識別任務
1)定義:命名實體識別屬於序列標注類問題,分為三大類(實體類,數量類,時間類),七小類(人名,地名,組織名,日期,時間,貨幣或者百分比)。
2)任務過程:准確划分出命名實體的邊界,並將命名實體進行正確的分類。
3)判別標准:(1)准確划分出命名實體的邊界;(2)命名實體的標注分類正確;(3)命名實體內部位置標注有序。
$$
准確率=\frac{標注結果正確的數量}{標注結果的數量}\times{100%} \召回率=\frac{標注命名實體正確的數量}{標注命名實體的數量}\times{100%}\F_1=\frac{(\beta^{2}+1)\times 准確率\times 召回率}{(\beta^{2}\times 准確率) + 召回率}\times{100%}
$$
2,數據集收集與處理
1)數據源:本論文數據來源於搜狗實驗室公開的2012年6月到7月期間的國內外國際、體育、社會、娛樂等18類新聞文本。
2)數據處理:
jieba
+盤古工具,本文研究NER
分為五類:人名(58136),地名(87412),機構名(5142),時間(75491),數量(148392)。數據集(句子個數)分:訓練集(197828),驗證集(8994),測試集(3485)。
四,基於改進的神經網絡與注意力機制結合的研究
1,RNN-CRF框架
1)框架結構:以
Bi-LSTM-CRF
模型為例,包括字嵌入層(字量化表示,輸入到神經網絡),Bi-LSTM
神經網絡層(雙向網絡記錄了上下文信息,據此共同訓練計算當前的字的新向量表示,其輸出字或詞的向量維度與神經單元數量有關),CRF
層(進行進一步標簽順序的規則學習)。2)模型原理:將輸入的語句轉換為詞向量,然后輸入到
LSTM
網絡計算,接着在CRF
層中計算輸出標簽,根據定義的目標函數計算損失,使用梯度下降等算法更新模型中的參數。
2,改進與設計
1)改進的思想與結構設計:改進思路就是簡化神經單元結構,本文使用雙向的
GRU
結構代替LSTM
單元結構,使用神經網絡與注意力機制結合。2)改進的模型設計
3,實驗與分析
1)實驗思路是以
Bi-LSTM-CRF
為基礎,並進行網絡優化,對比本文提出的Bi-GRU-Attention
模型。
實驗一:Bi-LSTM
網絡參數
參數名稱 | 數值 |
---|---|
batch_size | 20 |
max_num_steps | 20 |
優化器 | Admin |
初始學習率 | 0.001 |
衰減率 | 0.8 |
clip | 5 |
one-hot_dim | 11 |
實驗二:GRU-Attention
模型實驗參數
參數 | 數值 |
---|---|
batch_size | 20 |
char_dim | 100 |
max_num_steps | 20 |
神經單元數 | 128 |
優化器 | Adam |
初始學習率 | 0.001 |
衰減率 | 0.8 |
one-hot_dim | 11 |
epoch | 100 |
實驗結果如下:
分類/F1/模型 | Bi-LSTM-CRF | Bi-LSTM-Attention | Bi-GRU-CRF | Bi-GRU-Attention |
---|---|---|---|---|
人名 | 82.32% | 82.45% | 82.22% | 82.42% |
地名 | 89.97% | 90.19% | 89.93% | 91.06% |
機構名 | 91.94% | 91.96% | 91.94% | 91.95% |
數量 | 94.98% | 95.06% | 95.01% | 95.26% |
時間 | 96.05% | 96.14% | 96.06% | 96.14% |
五,基於ELMo的可移植模型研究
1,改進的ELMo
模型設計
ELMo
模型在2018年由Peter
提出,Peter
團隊使用雙層的循環神經網絡實現模型的預先訓練。本章基於Peter
的ELMo
模型設計,提出了直通結構,實現詞向量的提前訓練模型。1)模型原理:
Peters
使用CNN-BIG-LSTM
網絡實現模型,使用卷積神經網絡實現字符編碼,使用兩層雙向循環神經網絡實現詞向量的訓練模型。2)改進與設計:本文使用改進的
ELMo
預先訓練模型包含輸入層,卷積神經網絡7層,雙向神經網絡2層,輸出層結構。
2,基於ELMo
的嵌入式模型設計
1)連接結構:在模型嵌入的銜接層中,本文使用維度映射的方法,將不同維度的輸入輸出維度進行統一。
2)模型設計:本文的嵌入
ELMo
模型,包含ELMo
層,銜接層,神經網絡層,注意力層和輸出調整層結構。
3,實驗
實驗參數配置如下:
1)ELMo
模型實驗參數
參數名稱 | 數值 |
---|---|
word_dim | 100 |
char_dim | 50 |
activation | ReLU |
每層神經單元數目 | 512 |
優化器 | Adam |
初始學習率 | 0.001 |
lr_decay | 0.8 |
clip | 3 |
2)卷積神經網絡參數
卷積層 | 輸出詞向量維度 | 過濾器個數 |
---|---|---|
conv1 | 32 | 32 |
conv2 | 32 | 32 |
conv3 | 64 | 64 |
conv4 | 128 | 128 |
conv5 | 256 | 256 |
conv6 | 512 | 512 |
conv7 | 1024 | 1024 |
3)移植模型實驗參數
參數名稱 | 數值 |
---|---|
batch_size | 20 |
char_dim | 100 |
max_num_steps | 20 |
神經單元數 | 128 |
優化器 | Adam |
初始化學習率 | 0.001 |
clip | 5 |
dropout | 0.1 |
one-hot_dim | 11 |
epoch | 100 |
實驗結果對比:
分類/F1/模型 | Bi-LSTM-CRF | Bi-GRU-Attention | 改進的ELMo嵌入模型 |
---|---|---|---|
人名 | 82.32% | 82.42% | 83.14% |
地名 | 89.97% | 91.06% | 92.36% |
機構名 | 91.94% | 91.95% | 93.02% |
數量 | 94.98% | 95.26% | 96.13% |
時間 | 96.05% | 96.14% | 96.55% |
六,總結與展望
1,總結
本文主要研究了基於深度學習的中文命名實體識別任務,提出了
Bi-GRU-Attention
模型減少訓練時間,提升模型准確率;提出了基於改進的ELMo
可移植模型,用於應對少量數據集和快速移植不同場景的問題。
2,不足與發展趨勢
1)公開的權威的中文文本數據集不足;
2)可以划分更細的領域或分類,分別涉及分類器;
3)基於遷移學習的多任務模型研究是熱點。
閱讀心得:緒論內容相對詳細,結構中規中矩,美中不足缺乏對研究對象現狀的介紹,國內外研究現狀,要解決的問題以及達到的預期效果未盡闡述。技術要點論述詳盡,本文設計實驗充分且多角度論證,擴展實驗與改進設計也具有一定創新性。通過本篇論文研究學習,在NER
領域收獲頗多,很多知識有待彌補,如ELMo
模型,遷移學習方面需要加強學習。
本文由博客群發一文多發等運營工具平台 OpenWrite 發布