1.什么是NLP
2.NLP領域的挑戰
(1)同一個意思有多種表達方式
(2)一詞多義(Ambiguity)
解決一詞多義的問題方法:從數據中學習(結合上下文Context)
3.機器翻譯系統的案例
上圖的意思:根據表中的12對翻譯結果,翻譯所給出的一句話。
做法:給定語料庫,在語料庫中做統計,進行匹配(基於統計學)。
缺點:<1>慢 <2>上下文 <3>語義 <4>語法不對 <5>規則統計
4.機器翻譯的常規步驟
<1>分詞
<2>根據詞典翻譯成英文(獲得broken english),將這些詞對應的所有的組合羅列出來。
<3>將第2步所得的英文文本輸入到語言模型LM中,得到對應的概率。
上述方法第2步羅列所有可能的計算量特別大需要優化。
Viterbi算法:維特比算法是一個特殊但應用最廣的動態規划算法(DP)
機器翻譯框架總結:
5.語言模型
常用的語言模型:unigram、bigram、trigram
原理說明:利用馬爾科夫假設對藍色式子進行簡化。
6.NLP的應用場景
<1>問答系統
<2>情感分析(Sentiment Analysis)
<3>機器翻譯
<4>自動摘要
<5>聊天機器人
<6>信息抽取(Information extraction)
7.NLP的關鍵技術
(1)NLP技術的4個維度
(2)分詞(word segmentation)
(3)詞性分析
(4)命名實體識別(Named Entity Recogniton)
(5)句法分析
(6)依存分析
(7)關系抽取