3. 哈工大LTP解析


1. 通俗易懂解釋知識圖譜(Knowledge Graph)

2. 知識圖譜-命名實體識別(NER)詳解

3. 哈工大LTP解析

1. 前言

哈工大語言技術平台Language Technology Platform(LTP)是哈工大社會計算與信息檢索研究中心歷時十年開發的一整套中文語言處理系統。LTP制定了基於XML的語言處理結果表示,並在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基於動態鏈接庫(Dynamic Link Library, DLL)的應用程序接口,可視化工具,並且能夠以網絡服務(Web Service)的形式進行使用

2. 分詞(Segmentor)

中文分詞 (Word Segmentation, WS) 指的是將漢字序列切分成詞序列。 因為在漢語中,詞是承載語義的最基本的單元。分詞是信息檢索、文本分類、情感分析等多項中文自然語言處理任務的基礎。

3. 詞性標注(Postagger)

詞性標注(Part-of-speech Tagging, POS)是給句子中每個詞一個詞性類別的任務。 這里的詞性類別可能是名詞、動詞、形容詞或其他。 下面的句子是一個詞性標注的例子。 其中,v代表動詞、n代表名詞、c代表連詞、d代表副詞、wp代表標點符號。

Tag Description Example
a adjective 美麗
c conjunction 和, 雖然
d adverb
e exclamation
h prefix 阿, 偽
i idiom 百花齊放
j abbreviation 公檢法
m number 一, 第一
n general noun 蘋果
nd direction noun 右側
nh person name 杜甫, 湯姆
ni organization name 保險公司
nl location noun 城郊
ns geographical name 北京
nt temporal noun 近日, 明代
nz other proper noun 諾貝爾獎
p preposition 在, 把
q quantity
u auxiliary 的, 地
v verb 跑, 學習
wp punctuation ,。
ws foreign words CPU

4. 命名實體識別(NER)

命名實體識別 (Named Entity Recognition, NER) 是在句子的詞序列中定位並識別人名、地名、機構名等實體的任務。

5. 依存句法分析(Parser)

依存語法 (Dependency Parsing, DP) 通過分析語言單位內成分之間的依存關系揭示其句法結構。 直觀來講,依存句法分析識別句子中的“主謂賓”、“定狀補”這些語法成分,並分析各成分之間的關系。

關系類型 Tag Description Example
主謂關系 SBV subject-verb 我送她一束花 (我 <-- 送)
動賓關系 VOB 直接賓語,verb-object 我送她一束花 (送 --> 花)
間賓關系 IOB 間接賓語,indirect-object 我送她一束花 (送 --> 她)
前置賓語 FOB 前置賓語,fronting-object 他什么書都讀 (書 <-- 讀)
兼語 DBL double 他請我吃飯 (請 --> 我)
定中關系 ATT attribute 紅蘋果 (紅 <-- 蘋果)
狀中結構 ADV adverbial 非常美麗 (非常 <-- 美麗)
動補結構 CMP complement 做完了作業 (做 --> 完)
並列關系 COO coordinate 大山和大海 (大山 --> 大海)
介賓關系 POB preposition-object 在貿易區內 (在 --> 內)
左附加關系 LAD left adjunct 大山和大海 (和 <-- 大海)
右附加關系 RAD right adjunct 孩子們 (孩子 --> 們)
獨立結構 IS independent structure 兩個單句在結構上彼此獨立
核心關系 HED head 指整個句子的核心

6. 語義角色標注(SementicRoleLabeller)

語義角色標注 (Semantic Role Labeling, SRL) 是一種淺層的語義分析技術,標注句子中某些短語為給定謂詞的論元 (語義角色) ,如施事、受事、時間和地點等。其能夠對問答系統、信息抽取和機器翻譯等應用產生推動作用。

7. 總結

我們有了以上的一些基礎工具之后,可以對無監督的文本進行一個三元組關系的抽取。三元組是組成知識圖譜的最重要的單元。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM