自然語言處理基本理論和方法(第二版)



第1章 緒論

1.1 什么是自然語言處理
1.2 自然語言處理的研究內容
1.3 自然語言處理的應用領域
1.4 自然語言處理中用到的知識
1.5 自然語言處理面臨的困難
  1.5.1 歧義現象的處理
  1.5.2 未知語言現象的處理
1.6 自然語言處理的基本方法及其發展
1.7 學科現狀
1.8 語言、思維和理解
1.9 本書結構
本章小結
思考練習


第2章 語料庫與詞匯知識庫

2.1 語料庫
  2.1.1 基本概念
  2.1.2 語料庫類型
  2.1.3 典型語料庫介紹
  2.1.4 語料處理的基本問題
2.2 詞匯知識庫
  2.2.1 WordNet
  2.2.2 知網
本章小結
思考練習


第3章 n元語法模型

3.1 n元語法的基本概念
3.2 數據平滑技術
  3.2.1 Laplace法則
  3.2.2 GoodTruring估計
  3.2.3 絕對折扣和線性折扣
  3.2.4 Witten-Bell平滑算法
  3.2.5 扣留估計
  3.2.6 交叉校驗
  3.2.7 刪除插值法
  3.2.8 Katz回退算法
3.3 開發和測試模型的數據集
3.4 基於詞類的n-gram模型
本章小結
思考練習


第4章 隱馬爾科夫模型

4.1 馬爾科夫模型
4.2 隱馬爾科夫模型
4.3 HMM的三個基本問題
  4.3.1 求解觀察值序列的概率
  4.3.2 確定最優狀態序列
  4.3.3 HMM的參數估計
本章小結
思考練習


第5章 常用機器學習方法簡介

5.1 決策樹
5.2 貝葉斯分類器
5.3 支持向量機
5.4 最大熵模型
5.5 感知器
5.6 Boosting(提升方法)
本章小結
思考練習


第6章 字符編碼與字頻統計

6.1 西文字符編碼
6.2 中文字符編碼
  6.2.1 國標碼
  6.2.2 大五碼
  6.2.3 Unicode與ISO/IEC 10646
  6.2.4 國標擴展碼
  6.2.5 GB 18030
6.3 字符編碼知識的作用
6.4 字頻統計
  6.4.1 字頻統計的應用
  6.4.2 單字字頻統計
  6.4.3 雙字字頻統計
本章小結
思考練習


第7章 詞法分析

7.1 漢語自動分詞及其基本問題
  7.1.1 分詞規范與詞表
  7.1.2 切分歧義問題
  7.1.3 未登錄詞識別問題
7.2 基本分詞方法
  7.2.1 最大匹配法
  7.2.2 最少分詞法
  7.2.3 最大概率法
  7.2.4 與詞性標注相結合的分詞方法
  7.2.5 基於互現信息的分詞方法
  7.2.6 基於字分類的分詞方法
  7.2.7 基於實例的漢語分詞方法
7.3 中文姓名識別
  7.3.1 基於規則的方法
  7.3.2 基於統計的方法
7.4 漢語自動分詞系統的評價
7.5 英語形態還原
7.6 詞性標注
  7.6.1 詞性標記集
  7.6.2 基於規則的詞性標注方法
  7.6.3 基於統計的詞性標注方法
本章小結
思考練習


第8章 句法分析

8.1 文法的表示
8.2 自頂向下的句法分析
8.3 自底向上的句法分析
  8.3.1 移近一歸約算法
  8.3.2 歐雷分析法
  8.3.3 線圖分析法
  8.3.4 CYK分析法
8.4 概率上下文無關文法
8.5 淺層句法分析
  8.5.1 問題的提出
  8.5.2 基於規則的方法
  8.5.3 基於統計的方法
8.6 句法分析系統評測
本章小結
思考練習


第9章 語義分析

9.1 詞義消歧
  9.1.1 基於規則的詞義消歧
  9.1.2 基於統計的詞義消歧
  9.1.3 基於實例的詞義消歧
  9.1.4 基於詞典的詞義消歧
9.2 語義角色標注
  9.2.1 格語法
  9.2.2 基於統計機器學習技術的語義角色標注
9.3 深層語義推理
  9.3.1 命題邏輯和渭詞邏輯
  9.3.2 語義網絡
  9.3.3 概念依存理論
本章小結
思考練習


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM