1. 通俗易懂解釋知識圖譜(Knowledge Graph)
2. 知識圖譜-命名實體識別(NER)詳解
3. 哈工大LTP解析
1. 前言
哈工大語言技術平台Language Technology Platform(LTP)是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統。LTP制定了基於XML的語言處理結果表示,並在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基於動態鏈接庫(Dynamic Link Library, DLL)的應用程序接口,可視化工具,並且能夠以網絡服務(Web Service)的形式進行使用
2. 分詞(Segmentor)
中文分詞 (Word Segmentation, WS) 指的是將漢字序列切分成詞序列。 因為在漢語中,詞是承載語義的最基本的單元。分詞是信息檢索、文本分類、情感分析等多項中文自然語言處理任務的基礎。
3. 詞性標注(Postagger)
詞性標注(Part-of-speech Tagging, POS)是給句子中每個詞一個詞性類別的任務。 這里的詞性類別可能是名詞、動詞、形容詞或其他。 下面的句子是一個詞性標注的例子。 其中,v代表動詞、n代表名詞、c代表連詞、d代表副詞、wp代表標點符號。
Tag | Description | Example |
---|---|---|
a | adjective | 美麗 |
c | conjunction | 和, 雖然 |
d | adverb | 很 |
e | exclamation | 哎 |
h | prefix | 阿, 偽 |
i | idiom | 百花齊放 |
j | abbreviation | 公檢法 |
m | number | 一, 第一 |
n | general noun | 蘋果 |
nd | direction noun | 右側 |
nh | person name | 杜甫, 湯姆 |
ni | organization name | 保險公司 |
nl | location noun | 城郊 |
ns | geographical name | 北京 |
nt | temporal noun | 近日, 明代 |
nz | other proper noun | 諾貝爾獎 |
p | preposition | 在, 把 |
q | quantity | 個 |
u | auxiliary | 的, 地 |
v | verb | 跑, 學習 |
wp | punctuation | ,。 |
ws | foreign words | CPU |
4. 命名實體識別(NER)
命名實體識別 (Named Entity Recognition, NER) 是在句子的詞序列中定位並識別人名、地名、機構名等實體的任務。
5. 依存句法分析(Parser)
依存語法 (Dependency Parsing, DP) 通過分析語言單位內成分之間的依存關系揭示其句法結構。 直觀來講,依存句法分析識別句子中的“主謂賓”、“定狀補”這些語法成分,並分析各成分之間的關系。
關系類型 | Tag | Description | Example |
---|---|---|---|
主謂關系 | SBV | subject-verb | 我送她一束花 (我 <-- 送) |
動賓關系 | VOB | 直接賓語,verb-object | 我送她一束花 (送 --> 花) |
間賓關系 | IOB | 間接賓語,indirect-object | 我送她一束花 (送 --> 她) |
前置賓語 | FOB | 前置賓語,fronting-object | 他什么書都讀 (書 <-- 讀) |
兼語 | DBL | double | 他請我吃飯 (請 --> 我) |
定中關系 | ATT | attribute | 紅蘋果 (紅 <-- 蘋果) |
狀中結構 | ADV | adverbial | 非常美麗 (非常 <-- 美麗) |
動補結構 | CMP | complement | 做完了作業 (做 --> 完) |
並列關系 | COO | coordinate | 大山和大海 (大山 --> 大海) |
介賓關系 | POB | preposition-object | 在貿易區內 (在 --> 內) |
左附加關系 | LAD | left adjunct | 大山和大海 (和 <-- 大海) |
右附加關系 | RAD | right adjunct | 孩子們 (孩子 --> 們) |
獨立結構 | IS | independent structure | 兩個單句在結構上彼此獨立 |
核心關系 | HED | head | 指整個句子的核心 |
6. 語義角色標注(SementicRoleLabeller)
語義角色標注 (Semantic Role Labeling, SRL) 是一種淺層的語義分析技術,標注句子中某些短語為給定謂詞的論元 (語義角色) ,如施事、受事、時間和地點等。其能夠對問答系統、信息抽取和機器翻譯等應用產生推動作用。
7. 總結
我們有了以上的一些基礎工具之后,可以對無監督的文本進行一個三元組關系的抽取。三元組是組成知識圖譜的最重要的單元。