引言
此外,还有大数据风控、证券投资、智能医疗、自适应教育。
知识图谱概念
“知识图谱本质上是语义网络(Semantic Network)的知识库”。≈多关系图(Multi-relational Graph)。
图
图(Graph)是由实体(节点表示事物)和边(Edge表示不同实体之间的的某种联系)来构成。
Schema
介绍:相当某个领域内的数据模型,包含了该领域内有意义的概念类型以及这些类型的属性
作用:规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中:
-
图中的DataType限定了知识图谱节点值的类型为文本、日期、数字(浮点型与整型)
-
图中的Thing限定了节点的类型及其属性(即图1-1中的边)
知识图谱的价值
知识图谱是人工智能很重要的一个分支,人工智能的目标为了让机器具备像人一样理性思考及做事的能力 -> 在符号主义的引领下,知识工程(核心内容即建设专家系统)取得了突破性的进展 -> 在整个知识工程的分支下,知识表示是一个非常重要的任务 -> 而知识图谱又恰恰是知识表示的重要一环
构建知识图谱
知识图谱的数据来源
- 第一种:业务本身的数据。这部分数据通常包含在公司内的数据库表并以结构化的方式存储,一般只需要简单预处理即可以作为后续AI系统的输入;
- 第二种:网络上公开、抓取的数据。这些数据通常是以网页的形式存在所以是非结构化的数据,一般需要借助于自然语言处理等技术来提取出结构化信息。
信息抽取的难点
信息抽取的难点在于处理非结构化数据。
所涉及的技术
自然语言处理技术:
- 实体命名识别(Name Entity Recognition)
- 关系抽取(Relation Extraction)
- 实体统一(Entity Resolution)
- 指代消解(Coreference Resolution)
实体命名识别(Named Entity Recognition)
- 目标:就是从文本里提取出实体并对每个实体做分类/标签实体类型
关系抽取(Relation Extraction)
- 目标:通过关系抽取技术,把实体间的关系从文本中提取出来
实体统一(Entity Resolution)
- 对于有些实体写法上不一样,但其实是指向同一个实体,需要合并
指代消解(Disambiguation)
- 文本中出现的“it”, “he”, “she”这些词到底指向哪个实体,比如在本文里两个被标记出来的“it”都指向“hotel”这个实体。
知识图谱的存储
- 一种是基于RDF的存储;
- 另一种是基于图数据库的存储。