NLP 基礎問題及解析


NLP 基本知識

NLP問題主要是對字詞、短語、句子、篇章的處理,這一切問題主要包含兩個層次:結構、語義。解決這些問題離不開兩個基本概念:語言模型、序列標注。

 

 一、語言模型

         語言模型是指用數學的方法描述語言規律,統計語言模型是用句子A出現的概率p(a)來刻畫句子的合理性,常用的有 n-gram模型

二、詞向量

        離散的表示:one_hot ,詞袋模型,TF-IDF

        分布式表示:分布式表示,word2vec中的CBOW,skip_gram

        哈夫曼樹:一種帶權路徑長度最短的二叉樹,也稱最優二叉樹。

三、序列標注

        NLP許多任務可以轉化為‘將輸入的語言序列轉化為標注序列’,例如命名實體識別,詞性標注

        常用方法:隱馬爾可夫模型HMM,條件隨機場CRF,神經網絡與條件隨機場結合 RNN+CRF

四、詞性分析

        詞是語言處理的最小單位,詞法分析是一切自然語言處理問題(句法分析,語義分析,文本分類,信息檢索,機器翻譯,機器問答等)的基礎。詞法分析的任務就是將輸入的句子字串轉換成詞序列並標記出各詞的詞性。英語是曲折語,漢語是孤立語。

        英語詞法分析主要是英文詞識別,詞形還原;未登陸詞識別;詞性標注。漢語詞法分析主要是分詞;未登陸詞識別;詞性標注。

         中文詞法分析:1、自動分詞(歧義問題、未登陸詞問題、分詞標准問題);2、詞性標注(詞性兼類歧義問題)。處理方法主要有規則法,概率統計法,深度學習法。成熟的分詞系統,是綜合不同的算法來處理不同的問題。

        分詞技術方法:1、基於字典、詞庫的規則分詞方法(正向最大匹配、逆向最大匹配、最少切分法、雙向最大匹配法),規則方法處理歧義能力較弱;2、基於統計的方法,根據字、詞按照序列標注方法進行處理,處理歧義問題強,但需要大量標注(預處理)語料庫的支持。3、深度學習方法,從句子獲取的簡單特征變為復雜的特征,從單一預料庫單一標准的模型改進為可以利用多語料進行分詞。

       詞性標注:主要問題是詞性兼類問題(多義詞),詞性標准問題可以轉化為序列標注問題來解決。

       詞法分析,現階段主流方法是將其轉化為序列標注問題。

五、句法分析

       句法分析的任務是確定句子的句法結構或句子中詞匯的依存關系,分為完全句法分析、局部句法分析、依存關系分析。

        完全句法分析:文章經過詞法分析后,通常用短語結構樹表示,通過層次分析法可以構建短語結構樹。

 

        層次分析是利用語言學方法,從句子結構層面進行分析,1、將句子划分為主謂賓定狀補等成分;2、以詞或詞組作為划分成分的基本單位;3、根據六個成分的搭配排列按層次順序確定句子的格局。一般以樹結構表示結構,我們將其稱為句法分析樹,找到主謂賓主干,其他成分作為枝葉。

 

        層次分析法面臨問題:一個詞類可以做多個句法成分,容易造成歧義/多義。

        解決方法:Chomsky形式文法,根據重寫規則的形式,將形式文法分為4級:0型文法(無約束文法),1型文法(上下文有關文法),2型文法(上下文無關文法),3型文法(正則文法),多級文法關系如下所示:

 

 

         通過Chomsky形式文法作為刻畫語言規律,表示語言的形式文法。從描述能力上,正則文法描述能力弱,上下文有關文法計算復雜度高,上下文無關文法使用較普遍。

 

        句法分析系列詳細文章:完全句法分析局部句法關系、依存關系分析

 

六、語義分析

 

        語義分析包含:詞匯級語義分析、句子距語義分析

 

        詞匯及語義分析:1、語義消歧;--基於貝葉斯分類器的詞義消歧方法、基於最大熵、互信息的消歧方法;上下文特征選取概率最大的結果;2、詞語相似度;通過詞向量計算詞語距離。詞語相似性反映詞語聚合特點,詞語相關性反映詞語組合特點。

 

         句子級語義分析:淺層語義分析和深層語義分析。淺層語義分析主要是語義角色標注

 

         語義分析詳細文章:語義分析

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM