數據獲取
- 基於自然語言處理技術的實體抽取(中文命名實體識別平台如TLP、HanLP等均提供了不錯的接口),當然也可以根據項目需求采用傳統的機器學習或深度學習模型進行抽取、特定領域的新詞發現等(難度較高、而且不完全適用,依領域而定)
- 人工非結構化數據抽取(眾包標注平台)、人工輔助修正
- 以構造的實體為出發點在相關的平台爬蟲爬取結構化數據作為補充,可重復迭代
- 其他團隊已有的研究成果、數據庫數據(本體對齊)
本體建模
- 基於protege開源工具(https://protege.stanford.edu/) 手工構建本體,依托於protege可以搭建一個支持多人協作的online版的大型本體構建平台
- protege的底層是對owl文件的增刪改查,依托於owl的本體框架規范,可自行構建對owl本體文件的操作腳本,以實現海量結構化數據的增刪改查,提高效率
本體工具
- Jena:對於本體文件的接口框架,用於構建系統后端
- TDB:Jena內置的用於存儲RDF的組件
- Jena提供了RDFS、OWL和通用規則推理機(http://jena.apache.org/download/index.cgi) ,除此之外,可以嵌入主流的對比效果更好的推理機
- SPARQL:(SPARQL Protocol and RDF Query Language),是為RDF開發的一種查詢語言和數據獲取協議,它是為W3C所開發的RDF數據模型所定義,但是可以用於任何可以用RDF來表示的信息資源。可以大幅度地提高本體信息的檢索速度
- Fuseki:Jena提供的SPARQL服務器,也就是SPARQL endpoint(http://central.maven.org/maven2/org/apache/jena/apache-jena-fuseki/3.8.0/)
后台搭建
- 基於java的后台框架Springboot,SSM等
- 利用Jena進行本體數據處理,采用SPARQL作為檢索語言
前端
- 基於Html、css、js的框架React、Vue等,設計時可考慮移動端的兼容問題
- 多樣的可視化手段來展示信息,利用echart.js實現知識圖譜可視化
知識問答
- 浙江大學在openKG上提供的 基於REfO的KBQA實現及示例
- 電影知識圖譜問答系統項目總結 https://blog.csdn.net/weixin_40871455/article/details/87994324