知识图谱介绍


引言

业内应用.jpg

此外,还有大数据风控、证券投资、智能医疗、自适应教育。

知识图谱概念

“知识图谱本质上是语义网络(Semantic Network)的知识库”。≈多关系图(Multi-relational Graph)。

图(Graph)是由实体(节点表示事物)和边(Edge表示不同实体之间的的某种联系)来构成。

Schema

介绍:相当某个领域内的数据模型,包含了该领域内有意义的概念类型以及这些类型的属性

作用:规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中:

  • 图中的DataType限定了知识图谱节点值的类型为文本、日期、数字(浮点型与整型)

  • 图中的Thing限定了节点的类型及其属性(即图1-1中的边)

    Schema定义.PNG

知识图谱的价值

知识图谱是人工智能很重要的一个分支,人工智能的目标为了让机器具备像人一样理性思考及做事的能力 -> 在符号主义的引领下,知识工程(核心内容即建设专家系统)取得了突破性的进展 -> 在整个知识工程的分支下,知识表示是一个非常重要的任务 -> 而知识图谱又恰恰是知识表示的重要一环

学科概念.PNG

构建知识图谱

知识图谱的数据来源

  • 第一种:业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储,一般只需要简单预处理即可以作为后续AI系统的输入;
  • 第二种:网络上公开、抓取的数据。这些数据通常是以网页的形式存在所以是非结构化的数据,一般需要借助于自然语言处理等技术来提取出结构化信息。

信息抽取的难点

信息抽取的难点在于处理非结构化数据。

image.png

所涉及的技术

自然语言处理技术:

  1. 实体命名识别(Name Entity Recognition)
  2. 关系抽取(Relation Extraction)
  3. 实体统一(Entity Resolution)
  4. 指代消解(Coreference Resolution)

实体命名识别(Named Entity Recognition)

  • 目标:就是从文本里提取出实体并对每个实体做分类/标签实体类型

关系抽取(Relation Extraction)

  • 目标:通过关系抽取技术,把实体间的关系从文本中提取出来

实体统一(Entity Resolution)

  • 对于有些实体写法上不一样,但其实是指向同一个实体,需要合并

指代消解(Disambiguation)

  • 文本中出现的“it”, “he”, “she”这些词到底指向哪个实体,比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。

知识图谱的存储

  • 一种是基于RDF的存储;
  • 另一种是基于图数据库的存储。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM