论文地址:http://tcci.ccf.org.cn/conference/2019/papers/EV10.pdf
数据集地址:http://ai.baidu.com/broad/download
Abstract
信息抽取是知识图构建的重要基础,也是许多自然语言理解应用的基础。与许多其他人工智能任务类似,高质量的注释数据集对于训练高性能的信息提取系统是必不可少的。然而,现有的数据集大多是为英语构建的。为了促进中文信息抽取的研究和评估相关系统的性能,我们构建了一个大规模的高质量数据集DuIE,并将其公开。我们设计了一个从粗到精的过程,包括候选生成和众包注释,以在大数据量下获得高质量的数据。DuIE包含21万个句子和45万个实例,涵盖49种常用关系,反映了现实世界的情景。我们还举办了一个基于DuIE的公开比赛,吸引了1896名参赛者。竞争结果表明,该数据集在促进信息抽取研究方面具有潜力。
1 Introduction
信息抽取(IE)的目的是从非结构化或半结构化文本中提取结构化信息。具有代表性的结构化信息包括实体、实体的属性和关系,承载着文本所传达的重要语义信息。IE使机器能够理解文本的语义,并作为许多重要应用的基础,如知识图构建、语义信息检索和智能问答等。许多工作致力于IE的任务,并取得重大进展,尤其是在深度学习技术(1~8)中。
与大多数人工智能应用类似,高性能IE系统需要有监督的学习和足够的注释数据集。然而,现有的IE数据集主要是为英语构建的。据我们所知,目前还没有大规模的中文IE数据集,事实上,即使是现有的英文数据集也存在规模有限或质量不高的问题。例如,NYT数据集[9]是自动构建的,不需要手动注释,并且存在数据质量差的问题。SemEval-2010数据集[11]和FewRel数据集[12]通过引入手动注释实现了相对较高的质量,但它们的数据规模仍然不够。
为了更好地评估中文IE技术的性能,我们构建了一个大规模的高质量数据集DuIE,并将其公开用于研究。为了获得大数据量和高数据质量,我们设计了一个从粗到精的过程,包括候选生成和众包标注。
据我们所知,DuIE是第一个大规模、高质量的中文IE数据集,它包含45万个实例,49种常用关系类型,34万个独立主谓宾三元组Subject-Predicate-Object (SPO) triples,21万个句子。DuIE中的文本涵盖了现实世界应用程序中的各种领域,例如新闻、娱乐、用户生成的内容。注释包含单值和多值三元组,反映了真实场景。表1给出了一个在DuIE中注释句子的例子。
作为2019语言与智能挑战赛的一部分,我们举办了一场基于DuIE数据集的公开比赛,该比赛由中国计算机联合会(CCF)、中国信息处理学会(CIPS)和百度公司联合举办。作为本次挑战赛的三项任务之一,IE任务吸引了来自世界各地的1836个团队参加。在比赛中,324个队共提交了3367个成绩。这些结果表明了DuIE对IE技术评价的有效性。
本文的其余部分组织如下。我们首先简要描述了数据准备和数据集构建的模式。然后详细描述了从粗到精的数据集构建过程,包括候选数据生成和众包标注。然后,对数据集进行了统计分析,并对数据集上的竞争情况进行了分析。最后,对全文进行了总结,并对今后的研究方向进行了展望。
2 Construction of DuIE
如图1所示,我们的构建过程由以下三个步骤组成:(1)准备所需的各种数据,包括模式、相关的SPO三元组和大规模的真实语料库(2) 在SPO和schema两个层次上采用远程监控的方法生成候选词,保证了较高的查全率和查准率(3) 根据句子上下文,使用众包在所有候选词中标注正确的三元组。
As shown in Figure 1, our construction procedure is composed of the following three steps: (1) preparing all kinds of required data, including the schema, related SPO triples and a large-scale real-world corpus. (2) generating candidates by distant supervision methods on both SPO level and schema level to ensure high recall and precision. (3) using crowdsourcing to label the correct triples among all candidates according to sentence contexts.
2.1 Data Preparation
我们设计了一个模式来指导数据集的构建。模式是一组三重模板,每个模板由头实体类型、关系和尾实体类型组成:
$Schema=\{ (Subject type,Predicate,Object type)\}$
通过对百度信息检索和推荐日志的分析,归纳出49种最常用的谓词类型。表2显示了我们模式的一些示例。
根据该模式,我们从百度百科的结构化信息框中选取相关的主谓宾三元组。具体来说,三元组中的谓词在语义上应该等价于模式中的谓词,主语/宾语应该分别是模式中指定的相应主语/宾语类型的实例。这些三元组用于注释大量的原始句子,以便生成IE实例。原始句子是从百度百科和百度新闻Feeds3中提取出来的,涵盖了现实世界信息需求的主要领域,包括实体描述、娱乐新闻、用户生成文章等。
2.2 Candidate Generation
我们采用两种远程监控方法,即SPO级远程监控和schema级远程监控来保证候选质量。
SPO-level Distant Supervision.
SPO级远程监控是一种流行的远程监控方法,广泛应用于现有的数据集建设工作中。它基于封闭世界假设,即知识库中的实体信息是完整的。换句话说,如果两个实体之间存在关系,那么在知识库中找到的三元组和提到这两个实体的句子应该表达这种关系。According to this assumption, we obtained all candidate instances in the form of $(e_1,p_1,e_2,sentence_1)$ if $(e_1,p_1,e_2)$ are in triple and text candidates we got in the previous step separately, and both entity $e_1$ and entity $e_2$ appeared in $sentence_1$.
Schema-level Distant Supervision
该方法利用模式级远程监控来弥补SPO级远程监控的数据不完整问题。虽然SPO级远程监控方法可以在不需要人工干预的情况下建立信息抽取数据集,但这种数据集的质量往往是有限的。一个关键的原因是封闭世界的假设并不总是成立的。实际上,任何知识库都不可能包含世界上所有的知识。因此,在上一步中,可能会遗漏一个句子中提到的一些正确的三元组。
为了弥补数据不完整的问题,提出了一种方案级远程监控方法schemalevel distant supervision method。首先,针对每个候选句子,用命名实体识别(NER)算法对目标类型的命名实体进行标记。第二,如果实体对的类型与模式中指定的三重模式之一匹配,则调用实体对。例如,在表1给出的句子中,(对最快乐的人来说,fromAlbum,伟大的艺人)会被作为候选三元组在那句话中召回,如果我们知道对最快乐的人来说是一首歌,而伟大的艺人是一张专辑,它匹配谓词fromAlbum的目标主语和宾语类型,尽管知识库中缺少这三个。(To the Happiest People, fromAlbum, The Great Entertainer) would be recalled as a candidate triple in that sentence, if we know that To the Happiest People is a song and The Great Entertainer is an album, which matches the target subject and object types of predicate fromAlbum, even though this triple is missing in the knowledge base.
2.3 Crowdsourcing Annotation 众包标注
最后,为了滤除噪声实例,提高数据集的准确性,我们在众包平台上邀请了一些注释者来判断每个候选实例是否正确。为了方便和高效的人工标注,我们采用了一种特殊的问句模式来表示实例。给出一个实例,将其标记为$(sentence,S,P,O)$,我们将其转换为判断问题:
Is this correct? <P>of<S>$(Subject type)$ is <O>$(Object type)$according to the $sentence$
注释候选示例如图2所示。注释者必须根据以下三个标准来判断注释问题是否正确:
(1) 线索只能从所提供的句子中找到。在现实世界中,没有必要考虑三重性是否成立(2) 主题和对象应该匹配给定的类型,这些类型是在模式中预定义的(3) 谓词不需要显式出现在句子中。
在对测试数据集进行注释时,为了保证标注质量,首先将每个实例分配给两个注释器。来自两个注释器的答案一致的实例将被发送到第三个注释器。在整个注释步骤中,大约有10个众包用户参与了大约64万个候选实例的工作。最后,我们收集所有正确的实例作为最终的数据集。
3 Data Statistics
在上述构建过程的基础上,我们构建了最大的中文信息抽取数据集DuIE,包含49种不同谓词类型的458184个实例,239663个实体,347250个三元组,214739个真实世界的中文句子,如表3所示,所有句子的平均长度为54.58,共有8,490个unique tokens。在最终的数据集中,78%的实例来自SPO级方法,而22%的实例来自schema-level级方法。这说明我们的两级远程监控方法是有效的。
表4提供了我们的DuIE数据集与现有流行IE数据集(包括NYT-10、semeval2010任务8数据集和FewRel)的比较。这表明DuIE比现有的IE数据集大得多。
DuIE数据集分为三个部分,一个训练集,一个开发集和一个测试集,如表5所示,这三个集之间的句子没有重叠。目前,可以下载培训集和开发集
我们从几个方面进一步分析了数据分布。如图3所示,63%的句子来自百度百科语料库,37%的句子来自百度新闻。图4给出了不同实体类型上的分布。DuIE中最常见的类型是人物、影视作品、歌曲和书籍,这与百度搜索日志中的顶级实体类型the set of top entity type一致。
4 Evaluation on Information Extraction Task
本节详细介绍了利用DuIE数据集进行信息抽取比赛的情况,包括比赛任务描述、评估结果和详细分析。
4.1 Competition Task
我们在2019语言与智力挑战赛中主持了一项IE任务,其目标是根据给定的句子和预定义的模式提取所有正确的三元组。具体地说,当一个参与者系统预测的三元组的关系和两个对应的实体与测试集上标注的三元组匹配时,就被认为是正确的。考虑到一些实体在使用别名的句子中被提及,我们在评价中使用了百度知识图中的别名词典。标准精度、召回率和F1分数被用作评估参与系统性能的指标。最终结果按F1值排序。在比赛期间,IE任务吸引了1836个学术界和工业界的团队,324个团队提交了3367个结果。
4.2 Evaluation results
总的比赛结果刊登在比赛网站上。表6显示了按F1值排序的顶级参与者系统及其性能度量。我们发现一些技术被我们的参与者广泛采用,比如像BERT[13]这样的预训练模型,词汇特征,集成技术,基于规则的后处理。此外,一些团队使用参数共享、自我注意机制和手动设计功能来进一步提高绩效。
4.3 Result Analysis
为了全面了解我们的数据集和相关IE技术,我们对顶级参与者的性能结果进行了详细分析。
Overall error analysis总体误差分析
我们在前十个系统中抽取了不正确的三元组,并手动标记它们的错误类型。表7显示了最常见的错误类型。“关系错误”是最常见的错误类型,占所有错误的38%,这意味着为实体对提取了不正确的关系。这表明提取模型在识别实体对之间的关系方面仍有改进的空间。
第二种常见的错误类型是“非关系错误”,占所有错误的22%。这种错误类型意味着句子中提取的主语和宾语之间没有语义关系。当给定句子中有多个相同类型的实体时,这种情况经常发生。我们进一步按源文本类型细分这一类别。一个有趣的发现是,“非关系错误”在新闻文本中的发生率(30%)比在百科中的发生率(17%)要高。这表明在更复杂的文本样式上识别关系更具挑战性。
“实体边界误差”是指可以找到目标实体,但边界识别不够准确,占总误差的21%。此外,11%的错误是由于三元组中的实体不符合schema constraint中提供的类型。这表明参与者在训练模型或提取三元组时没有充分利用实体类型的标签。另外还有8%的其他离散错误,如推理知识错误,这意味着没有背景知识就无法提取SPO。
Effects of source text types.
表8分别显示了前5个系统和前10个系统在Baike和news文本上的平均性能指标。结果表明,与新闻文本相比,百科文本前10个提取系统的平均F1值高出11.9%。一个可能的原因是,百科语篇通常由领域专家以固定的格式编辑,而新闻语篇的文体更为复杂,往往涉及多种语言模式。因此,新闻文本的信息提取就变得更加困难。
Single-valued v.s.multi-valued triples.
我们评估了单值和多值三元组的召回率。多值三元组是指在给定的句子中,一个S-P对对应多个O值,或者一个P-O对对应多个S值。在多值和单值三元组中,前五名平均系统和前十名平均系统的性能结果分别如表9所示。可以看出,在前10个系统中,单值三元组的平均召回率比多值三元组高出6.4%,这说明提取所有多值三元组的难度更大。
我们采样了一些未召回unrecalled的多值三元组,发现有两种类型。如表10所示,第一种类型是多个实体相邻或通过分隔符连接,而第二种类型是多个实体在文本中不相邻。可见,多值三元组的句子特征具有重要意义,如何对多值三元组进行建模是今后研究的重点。
5 Conclusion
本文提出了最大的高质量中文信息抽取数据集DuIE数据集,该数据集采用从粗到精的过程,结合远程监控和众包标注。为了验证数据集,我们进行了技术评估并分析了top系统中的错误。我们发现信息抽取系统中最常见的错误是关系错误和实体错误,目前的模型在这些方面仍有改进的空间。对于来自不同来源类型的文本,错误分布是完全不同的。此外,对于小样本和多值三元组,还需要进一步的研究。DuIE有助于在未来的研究中评估和改进信息提取技术。