DBpedia Introduction


最近對Freebase和DBpedia有點興趣,但是不知道他的明確概念,具體用法,所以通過網上信息做一下介紹。

直接將信息框數據存入RDF(Resource Description Framework)數據。

由於單純的使用自然語言對文檔等預料進行提取的時候,得到的結實體、概念或者謂詞都是相互獨立的,所以從語意角度而言,不給予對得到的結果進一步使用。總結而言,

一個是資源無法關聯到相關類別;二是對於一個實體的各種屬性,例如汽車的engine,production這樣的屬性,可能語義並不明確。這也是為什么需要一個基於映射的信息框抽取。 

基於映射的信息框抽取

 由於信息框的多樣性以及上文所討論的,“生”數據質量有待提高,基於映射的信息框抽取被提出。 

它完成了將一個Infobox對應到一個DBpedia的本體(ontology)中。其中Infobox的屬性對應了 為此,常常采用另外的結構對其進行抽取和存儲,這樣就可以更加准確、具有語義的將Infobox的信息映射出來。 

DBpedia的基於映射抽取器為了實現映射的准確性和實時性,允許用戶新建和編輯,和Wikipedia的開發性相“映射”。 DBpedia同時提供了三個工具,分別是映射檢驗器、抽取測試器、映射工具,供用戶使用。 http://mappings.dbpedia.org 

 URI模式

 對於每一個Wikipedia中的文章,將會有一些URI與之對應。

自然語言處理抽取

 DBpedia提供了關於自然語言處理的數據集,目前有四個:話題標簽(topic signatures),文法類別(grammatical gender), 詞匯(lexicalization),和主題概念(thematic concept)。 

a)

 Lexicalization: 

這是為了給出DBpedia中的別名統計信息而生成的數據集。它的作用是,給定一個詞語,可以判斷它可能表示的所有概念,包括以這個詞為名字或別名的所有概念。同時會給出一個“分數”,這個分數表示了利用這個詞表示這個概念的概率。 

b)

 Topic signatures: 

也就是給DBpedia中的每個resource(就是與Wikipedia中的網頁對應的資源)制作一個話題標簽,以概括這個資源所圍繞的話題。這個數據集的產生過程是:

Wikipeida中出現的每個詞都是一個維度,每個DBpedia中的resource被表達成一個空間向量(VSM),對應這個多維空間中的一個點。對於每個與某resource

相關的詞,計算其的tf-idf的權重,然后選擇出與這個resource關聯最近的一些詞,作為這個resource的話題標簽。 

c)

 Thematic: 

這個抽取器旨在對DBpedia中的概念確定其主題,在Wikipedia中,許多類別下都有一篇文章來交待這個類別的主題,DBpedia利用這個,標注了概念或實體的主題。

 d)

 Grammatical gender: 

這個部分可以針對Person這個本體,進行性別分析。在從Wikipedia到DBpedia的映射中,如果出現了Person這種實體,則統計這篇文章中出現的表征性別的形容詞、代詞等,然后以統計的方法確定這個人的性別。

DBpedia本體

DBpedia本體目前包括了320個類別,類別之間包含層次關系,深度可以達到5,深度控制在5以內是為了便於數據的使用,比如可視化或者導航。同時有1650個不同的屬性來描述這些類別。

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM