NLP學習筆記02---NLP概述(NLP領域的關鍵技術和應用場景)


1.什么是NLP

 

2.NLP領域的挑戰

(1)同一個意思有多種表達方式

(2)一詞多義(Ambiguity)

解決一詞多義的問題方法:從數據中學習(結合上下文Context)

 

3.機器翻譯系統的案例

 

上圖的意思:根據表中的12對翻譯結果,翻譯所給出的一句話。

做法:給定語料庫,在語料庫中做統計,進行匹配(基於統計學)。

缺點:<1>慢  <2>上下文  <3>語義 <4>語法不對 <5>規則統計

4.機器翻譯的常規步驟

<1>分詞

<2>根據詞典翻譯成英文(獲得broken english),將這些詞對應的所有的組合羅列出來。

<3>將第2步所得的英文文本輸入到語言模型LM中,得到對應的概率。

上述方法第2步羅列所有可能的計算量特別大需要優化。

Viterbi算法:維特比算法是一個特殊但應用最廣的動態規划算法(DP)

機器翻譯框架總結:

 

 

5.語言模型

常用的語言模型:unigram、bigram、trigram

原理說明:利用馬爾科夫假設對藍色式子進行簡化。

6.NLP的應用場景

<1>問答系統

<2>情感分析(Sentiment Analysis)

<3>機器翻譯

<4>自動摘要

<5>聊天機器人

<6>信息抽取(Information extraction)

7.NLP的關鍵技術

(1)NLP技術的4個維度

(2)分詞(word segmentation)

(3)詞性分析

(4)命名實體識別(Named Entity Recogniton)

(5)句法分析

(6)依存分析

(7)關系抽取

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM