DBpedia Introduction

本文轉載自查看原文 2016-09-25 21:14 2848 Knowledge Base graph

最近對Freebase和DBpedia有點興趣，但是不知道他的明確概念，具體用法，所以通過網上信息做一下介紹。

直接將信息框數據存入RDF（Resource Description Framework）數據。

由於單純的使用自然語言對文檔等預料進行提取的時候，得到的結實體、概念或者謂詞都是相互獨立的，所以從語意角度而言，不給予對得到的結果進一步使用。總結而言，

一個是資源無法關聯到相關類別；二是對於一個實體的各種屬性，例如汽車的engine，production這樣的屬性，可能語義並不明確。這也是為什么需要一個基於映射的信息框抽取。

基於映射的信息框抽取

由於信息框的多樣性以及上文所討論的，“生”數據質量有待提高，基於映射的信息框抽取被提出。

它完成了將一個Infobox對應到一個DBpedia的本體(ontology)中。其中Infobox的屬性對應了為此，常常采用另外的結構對其進行抽取和存儲，這樣就可以更加准確、具有語義的將Infobox的信息映射出來。

DBpedia的基於映射抽取器為了實現映射的准確性和實時性，允許用戶新建和編輯，和Wikipedia的開發性相“映射”。 DBpedia同時提供了三個工具，分別是映射檢驗器、抽取測試器、映射工具，供用戶使用。 http://mappings.dbpedia.org

URI模式

對於每一個Wikipedia中的文章，將會有一些URI與之對應。

自然語言處理抽取

DBpedia提供了關於自然語言處理的數據集，目前有四個：話題標簽(topic signatures)，文法類別(grammatical gender)，詞匯(lexicalization)，和主題概念(thematic concept)。

Lexicalization:

這是為了給出DBpedia中的別名統計信息而生成的數據集。它的作用是，給定一個詞語，可以判斷它可能表示的所有概念，包括以這個詞為名字或別名的所有概念。同時會給出一個“分數”，這個分數表示了利用這個詞表示這個概念的概率。

Topic signatures:

也就是給DBpedia中的每個resource（就是與Wikipedia中的網頁對應的資源）制作一個話題標簽，以概括這個資源所圍繞的話題。這個數據集的產生過程是：

Wikipeida中出現的每個詞都是一個維度，每個DBpedia中的resource被表達成一個空間向量（VSM），對應這個多維空間中的一個點。對於每個與某resource

相關的詞，計算其的tf-idf的權重，然后選擇出與這個resource關聯最近的一些詞，作為這個resource的話題標簽。

Thematic:

這個抽取器旨在對DBpedia中的概念確定其主題，在Wikipedia中，許多類別下都有一篇文章來交待這個類別的主題，DBpedia利用這個，標注了概念或實體的主題。

Grammatical gender:

這個部分可以針對Person這個本體，進行性別分析。在從Wikipedia到DBpedia的映射中，如果出現了Person這種實體，則統計這篇文章中出現的表征性別的形容詞、代詞等，然后以統計的方法確定這個人的性別。

DBpedia本體

DBpedia本體目前包括了320個類別，類別之間包含層次關系，深度可以達到5，深度控制在5以內是為了便於數據的使用，比如可視化或者導航。同時有1650個不同的屬性來描述這些類別。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Javascript查詢DBpedia小應用 DearPyGui introduction VFIO Introduction An Introduction to Statistical Learning with Applications in R (ISL) - Introduction Introduction to JavaScript Source Maps Introduction to Flex and Bison An Introduction to Handlebars（Handlebars 簡介） ObjectARX® for Beginners: An Introduction Introduction to IP Spoofing Deep Learning for Chatbots（Introduction）