轉載自:https://blog.csdn.net/sinat_33741547/article/details/79258045
一、句法分析
句法分析是自然語言處理中的關鍵技術之一,其基本任務是確定句子的句法結構或者句子中詞匯之間的依存關系。
主要包括兩方面的內容,一是確定語言的語法體系,即對語言中合法的句子的語法結構給與形式化的定義;另一方面是句法分析技術,即根據給定的語法體系,自動推導出句子的句法結構,分析句子所包含的句法單位和這些句法單位之間的關系。
二、語法體系
句法分析需要遵循某一語法體系,根據該體系的語法確定語法樹的表示形式,如:
西門子將努力參與中國的三峽工程建設。
- 1
1、短語結構語法
短語結構樹由終節點、非終結點以及短語標記三部分組成。分局語法規則,若干終結點構成一個短語,作為非終結點參與下一次規約,直至結束。
2、依存語法
依存語法的結構沒有非終結點,詞與詞之間直接發生依存關系,構成一個依存對,其中一個是核心詞,也叫支配詞,另一個叫修飾詞,也叫從屬詞。
依存關系用一個有向弧表示,叫做依存弧。依存弧的方向為由從屬詞指向支配詞,當然反過來也是可以的,按個人習慣統一表示即可。
三、依存句法分析
1、概念
依存句法通過分析語言單位內成分之前的依存關系解釋其句法結構,主張句子中核心動詞是支配其他成分的中心成分。而它本身卻不受其他任何成分的支配,所有受支配成分都以某種關系從屬於支配者。
2、五個條件
(1)一個句子中只有一個成分是獨立的
(2)句子的其他成分都從屬於某一成分
(3)任何一個成分都不能依存於兩個或兩個以上的成分
(4)如果成分A直接從屬成分B,而成分C在句子中位於A和B之間,那么,成分C或者從屬於A,或者從屬於B,或者從屬於A和B之間的某一成分
(5)中心成分左右兩邊的其他成分相互不發生關系
3、標注關系
目前百度的ddparser和哈工大的ltp的依存句法分析都是采用這一套依存句法標簽體系。
四、參考
1. 《統計自然語言處理》 宗成慶
2. 《基於統計方法的漢語依存句法分析研究》 馬金山