句法分析是自然語言處理領域的一個關鍵問題,如能將其有效解決,一方面,可對相應樹庫構建體系的正確性和完善性進行驗證;另一方面,也可直接服務於各種上層應用,比如搜索引擎用戶日志分析和關鍵詞識別,比如信息抽取、自動問答、機器翻譯等其他自然語言處理相關的任務。
短語結構和依存結構是目前句法分析中研究最廣泛的兩類文法體系。這里先大概介紹下依存結構。
依存文法最早由法國語言學家L.Tesniere在其著作《結構句法基礎》(1959年)中提出,對語言學的發展產生了深遠的影響,特別是在計算語言學界備受推崇。
依存語法通過分析語言單位內成分之間的依存關系揭示其句法結構,主張句子中核心動詞是支配其它成分的中心成分,而它本身卻不受其它任何成分的支配,所有受支配成分都以某種依存關系從屬於支配者。
在20世紀70年代,Robinson提出依存語法中關於依存關系的四條公理,在處理中文信息的研究中,中國學者提出了依存關系的第五條公理,如下:
1、一個句子中只有一個成分是獨立的;
2、其它成分直接依存於某一成分;
3、任何一個成分都不能依存與兩個或兩個以上的成分;
4、如果A成分直接依存於B成分,而C成分在句中位於A和B之間,那么C或者直接依存於B,或者直接依存於A和B之間的某一成分;
5、中心成分左右兩面的其它成分相互不發生關系。
句子成分間相互支配與被支配、依存與被依存的現象普遍存在於漢語的詞匯(合成語)、短語、單句、復合直到句群的各級能夠獨立運用的語言單位之中,這一特點為 依存關系的普遍性,依存句法分析可以反映出句子各成分之間的語義修飾關系,它可以獲得長距離的搭配信息,並與句子成分的物理位置無關。
附:LTP依存分析模塊所使用的依存關系標記含義 (http://www.ltp-cloud.com/demo/)
現在的依存句法分析標注關系 (共14種) 及含義如下:
關系類型 | Tag | Description | Example |
---|---|---|---|
主謂關系 |
SBV |
subject-verb |
我送她一束花 (我 <-- 送) |
動賓關系 |
VOB |
直接賓語,verb-object |
我送她一束花 (送 --> 花) |
間賓關系 |
IOB |
間接賓語,indirect-object |
我送她一束花 (送 --> 她) |
前置賓語 |
FOB |
前置賓語,fronting-object |
他什么書都讀 (書 <-- 讀) |
兼語 |
DBL |
double |
他請我吃飯 (請 --> 我) |
定中關系 |
ATT |
attribute |
紅蘋果 (紅 <-- 蘋果) |
狀中結構 |
ADV |
adverbial |
非常美麗 (非常 <-- 美麗) |
動補結構 |
CMP |
complement |
做完了作業 (做 --> 完) |
並列關系 |
COO |
coordinate |
大山和大海 (大山 --> 大海) |
介賓關系 |
POB |
preposition-object |
在貿易區內 (在 --> 內) |
左附加關系 |
LAD |
left adjunct |
大山和大海 (和 <-- 大海) |
右附加關系 |
RAD |
right adjunct |
孩子們 (孩子 --> 們) |
獨立結構 |
IS |
independent structure |
兩個單句在結構上彼此獨立 |
核心關系 |
HED |
head |
指整個句子的核心 |
以前比較復雜的依存關系標記含義版本:
依存關系標記(共24個)
定中關系ATT(attribute)
數量關系QUN(quantity)
並列關系COO(coordinate)
同位關系APP(appositive)
前附加關系LAD(left adjunct)
后附加關系RAD(right adjunct)
動賓關系VOB(verb-object)
介賓關系POB(preposition-object)
主謂關系SBV(subject-verb)
比擬關系SIM(similarity)
核心HED(head)
連動結構VV(verb-verb)
關聯結構CNJ(conjunctive)
語態結構MT(mood-tense)
獨立結構IS(independent structure)
狀中結構ADV(adverbial)
動補結構CMP(complement)
“的”字結構DE
“地”字結構DI
“得”字結構DEI
“把”字結構BA
“被”字結構BEI
獨立分句IC(independent clause)
依存分句DC(dependent clause)