論文地址:http://tcci.ccf.org.cn/conference/2019/papers/EV10.pdf
數據集地址:http://ai.baidu.com/broad/download
Abstract
信息抽取是知識圖構建的重要基礎,也是許多自然語言理解應用的基礎。與許多其他人工智能任務類似,高質量的注釋數據集對於訓練高性能的信息提取系統是必不可少的。然而,現有的數據集大多是為英語構建的。為了促進中文信息抽取的研究和評估相關系統的性能,我們構建了一個大規模的高質量數據集DuIE,並將其公開。我們設計了一個從粗到精的過程,包括候選生成和眾包注釋,以在大數據量下獲得高質量的數據。DuIE包含21萬個句子和45萬個實例,涵蓋49種常用關系,反映了現實世界的情景。我們還舉辦了一個基於DuIE的公開比賽,吸引了1896名參賽者。競爭結果表明,該數據集在促進信息抽取研究方面具有潛力。
1 Introduction
信息抽取(IE)的目的是從非結構化或半結構化文本中提取結構化信息。具有代表性的結構化信息包括實體、實體的屬性和關系,承載着文本所傳達的重要語義信息。IE使機器能夠理解文本的語義,並作為許多重要應用的基礎,如知識圖構建、語義信息檢索和智能問答等。許多工作致力於IE的任務,並取得重大進展,尤其是在深度學習技術(1~8)中。
與大多數人工智能應用類似,高性能IE系統需要有監督的學習和足夠的注釋數據集。然而,現有的IE數據集主要是為英語構建的。據我們所知,目前還沒有大規模的中文IE數據集,事實上,即使是現有的英文數據集也存在規模有限或質量不高的問題。例如,NYT數據集[9]是自動構建的,不需要手動注釋,並且存在數據質量差的問題。SemEval-2010數據集[11]和FewRel數據集[12]通過引入手動注釋實現了相對較高的質量,但它們的數據規模仍然不夠。
為了更好地評估中文IE技術的性能,我們構建了一個大規模的高質量數據集DuIE,並將其公開用於研究。為了獲得大數據量和高數據質量,我們設計了一個從粗到精的過程,包括候選生成和眾包標注。
據我們所知,DuIE是第一個大規模、高質量的中文IE數據集,它包含45萬個實例,49種常用關系類型,34萬個獨立主謂賓三元組Subject-Predicate-Object (SPO) triples,21萬個句子。DuIE中的文本涵蓋了現實世界應用程序中的各種領域,例如新聞、娛樂、用戶生成的內容。注釋包含單值和多值三元組,反映了真實場景。表1給出了一個在DuIE中注釋句子的例子。
作為2019語言與智能挑戰賽的一部分,我們舉辦了一場基於DuIE數據集的公開比賽,該比賽由中國計算機聯合會(CCF)、中國信息處理學會(CIPS)和百度公司聯合舉辦。作為本次挑戰賽的三項任務之一,IE任務吸引了來自世界各地的1836個團隊參加。在比賽中,324個隊共提交了3367個成績。這些結果表明了DuIE對IE技術評價的有效性。
本文的其余部分組織如下。我們首先簡要描述了數據准備和數據集構建的模式。然后詳細描述了從粗到精的數據集構建過程,包括候選數據生成和眾包標注。然后,對數據集進行了統計分析,並對數據集上的競爭情況進行了分析。最后,對全文進行了總結,並對今后的研究方向進行了展望。
2 Construction of DuIE
如圖1所示,我們的構建過程由以下三個步驟組成:(1)准備所需的各種數據,包括模式、相關的SPO三元組和大規模的真實語料庫(2) 在SPO和schema兩個層次上采用遠程監控的方法生成候選詞,保證了較高的查全率和查准率(3) 根據句子上下文,使用眾包在所有候選詞中標注正確的三元組。
As shown in Figure 1, our construction procedure is composed of the following three steps: (1) preparing all kinds of required data, including the schema, related SPO triples and a large-scale real-world corpus. (2) generating candidates by distant supervision methods on both SPO level and schema level to ensure high recall and precision. (3) using crowdsourcing to label the correct triples among all candidates according to sentence contexts.
2.1 Data Preparation
我們設計了一個模式來指導數據集的構建。模式是一組三重模板,每個模板由頭實體類型、關系和尾實體類型組成:
$Schema=\{ (Subject type,Predicate,Object type)\}$
通過對百度信息檢索和推薦日志的分析,歸納出49種最常用的謂詞類型。表2顯示了我們模式的一些示例。
根據該模式,我們從百度百科的結構化信息框中選取相關的主謂賓三元組。具體來說,三元組中的謂詞在語義上應該等價於模式中的謂詞,主語/賓語應該分別是模式中指定的相應主語/賓語類型的實例。這些三元組用於注釋大量的原始句子,以便生成IE實例。原始句子是從百度百科和百度新聞Feeds3中提取出來的,涵蓋了現實世界信息需求的主要領域,包括實體描述、娛樂新聞、用戶生成文章等。
2.2 Candidate Generation
我們采用兩種遠程監控方法,即SPO級遠程監控和schema級遠程監控來保證候選質量。
SPO-level Distant Supervision.
SPO級遠程監控是一種流行的遠程監控方法,廣泛應用於現有的數據集建設工作中。它基於封閉世界假設,即知識庫中的實體信息是完整的。換句話說,如果兩個實體之間存在關系,那么在知識庫中找到的三元組和提到這兩個實體的句子應該表達這種關系。According to this assumption, we obtained all candidate instances in the form of $(e_1,p_1,e_2,sentence_1)$ if $(e_1,p_1,e_2)$ are in triple and text candidates we got in the previous step separately, and both entity $e_1$ and entity $e_2$ appeared in $sentence_1$.
Schema-level Distant Supervision
該方法利用模式級遠程監控來彌補SPO級遠程監控的數據不完整問題。雖然SPO級遠程監控方法可以在不需要人工干預的情況下建立信息抽取數據集,但這種數據集的質量往往是有限的。一個關鍵的原因是封閉世界的假設並不總是成立的。實際上,任何知識庫都不可能包含世界上所有的知識。因此,在上一步中,可能會遺漏一個句子中提到的一些正確的三元組。
為了彌補數據不完整的問題,提出了一種方案級遠程監控方法schemalevel distant supervision method。首先,針對每個候選句子,用命名實體識別(NER)算法對目標類型的命名實體進行標記。第二,如果實體對的類型與模式中指定的三重模式之一匹配,則調用實體對。例如,在表1給出的句子中,(對最快樂的人來說,fromAlbum,偉大的藝人)會被作為候選三元組在那句話中召回,如果我們知道對最快樂的人來說是一首歌,而偉大的藝人是一張專輯,它匹配謂詞fromAlbum的目標主語和賓語類型,盡管知識庫中缺少這三個。(To the Happiest People, fromAlbum, The Great Entertainer) would be recalled as a candidate triple in that sentence, if we know that To the Happiest People is a song and The Great Entertainer is an album, which matches the target subject and object types of predicate fromAlbum, even though this triple is missing in the knowledge base.
2.3 Crowdsourcing Annotation 眾包標注
最后,為了濾除噪聲實例,提高數據集的准確性,我們在眾包平台上邀請了一些注釋者來判斷每個候選實例是否正確。為了方便和高效的人工標注,我們采用了一種特殊的問句模式來表示實例。給出一個實例,將其標記為$(sentence,S,P,O)$,我們將其轉換為判斷問題:
Is this correct? <P>of<S>$(Subject type)$ is <O>$(Object type)$according to the $sentence$
注釋候選示例如圖2所示。注釋者必須根據以下三個標准來判斷注釋問題是否正確:
(1) 線索只能從所提供的句子中找到。在現實世界中,沒有必要考慮三重性是否成立(2) 主題和對象應該匹配給定的類型,這些類型是在模式中預定義的(3) 謂詞不需要顯式出現在句子中。
在對測試數據集進行注釋時,為了保證標注質量,首先將每個實例分配給兩個注釋器。來自兩個注釋器的答案一致的實例將被發送到第三個注釋器。在整個注釋步驟中,大約有10個眾包用戶參與了大約64萬個候選實例的工作。最后,我們收集所有正確的實例作為最終的數據集。
3 Data Statistics
在上述構建過程的基礎上,我們構建了最大的中文信息抽取數據集DuIE,包含49種不同謂詞類型的458184個實例,239663個實體,347250個三元組,214739個真實世界的中文句子,如表3所示,所有句子的平均長度為54.58,共有8,490個unique tokens。在最終的數據集中,78%的實例來自SPO級方法,而22%的實例來自schema-level級方法。這說明我們的兩級遠程監控方法是有效的。
表4提供了我們的DuIE數據集與現有流行IE數據集(包括NYT-10、semeval2010任務8數據集和FewRel)的比較。這表明DuIE比現有的IE數據集大得多。
DuIE數據集分為三個部分,一個訓練集,一個開發集和一個測試集,如表5所示,這三個集之間的句子沒有重疊。目前,可以下載培訓集和開發集
我們從幾個方面進一步分析了數據分布。如圖3所示,63%的句子來自百度百科語料庫,37%的句子來自百度新聞。圖4給出了不同實體類型上的分布。DuIE中最常見的類型是人物、影視作品、歌曲和書籍,這與百度搜索日志中的頂級實體類型the set of top entity type一致。
4 Evaluation on Information Extraction Task
本節詳細介紹了利用DuIE數據集進行信息抽取比賽的情況,包括比賽任務描述、評估結果和詳細分析。
4.1 Competition Task
我們在2019語言與智力挑戰賽中主持了一項IE任務,其目標是根據給定的句子和預定義的模式提取所有正確的三元組。具體地說,當一個參與者系統預測的三元組的關系和兩個對應的實體與測試集上標注的三元組匹配時,就被認為是正確的。考慮到一些實體在使用別名的句子中被提及,我們在評價中使用了百度知識圖中的別名詞典。標准精度、召回率和F1分數被用作評估參與系統性能的指標。最終結果按F1值排序。在比賽期間,IE任務吸引了1836個學術界和工業界的團隊,324個團隊提交了3367個結果。
4.2 Evaluation results
總的比賽結果刊登在比賽網站上。表6顯示了按F1值排序的頂級參與者系統及其性能度量。我們發現一些技術被我們的參與者廣泛采用,比如像BERT[13]這樣的預訓練模型,詞匯特征,集成技術,基於規則的后處理。此外,一些團隊使用參數共享、自我注意機制和手動設計功能來進一步提高績效。
4.3 Result Analysis
為了全面了解我們的數據集和相關IE技術,我們對頂級參與者的性能結果進行了詳細分析。
Overall error analysis總體誤差分析
我們在前十個系統中抽取了不正確的三元組,並手動標記它們的錯誤類型。表7顯示了最常見的錯誤類型。“關系錯誤”是最常見的錯誤類型,占所有錯誤的38%,這意味着為實體對提取了不正確的關系。這表明提取模型在識別實體對之間的關系方面仍有改進的空間。
第二種常見的錯誤類型是“非關系錯誤”,占所有錯誤的22%。這種錯誤類型意味着句子中提取的主語和賓語之間沒有語義關系。當給定句子中有多個相同類型的實體時,這種情況經常發生。我們進一步按源文本類型細分這一類別。一個有趣的發現是,“非關系錯誤”在新聞文本中的發生率(30%)比在百科中的發生率(17%)要高。這表明在更復雜的文本樣式上識別關系更具挑戰性。
“實體邊界誤差”是指可以找到目標實體,但邊界識別不夠准確,占總誤差的21%。此外,11%的錯誤是由於三元組中的實體不符合schema constraint中提供的類型。這表明參與者在訓練模型或提取三元組時沒有充分利用實體類型的標簽。另外還有8%的其他離散錯誤,如推理知識錯誤,這意味着沒有背景知識就無法提取SPO。
Effects of source text types.
表8分別顯示了前5個系統和前10個系統在Baike和news文本上的平均性能指標。結果表明,與新聞文本相比,百科文本前10個提取系統的平均F1值高出11.9%。一個可能的原因是,百科語篇通常由領域專家以固定的格式編輯,而新聞語篇的文體更為復雜,往往涉及多種語言模式。因此,新聞文本的信息提取就變得更加困難。
Single-valued v.s.multi-valued triples.
我們評估了單值和多值三元組的召回率。多值三元組是指在給定的句子中,一個S-P對對應多個O值,或者一個P-O對對應多個S值。在多值和單值三元組中,前五名平均系統和前十名平均系統的性能結果分別如表9所示。可以看出,在前10個系統中,單值三元組的平均召回率比多值三元組高出6.4%,這說明提取所有多值三元組的難度更大。
我們采樣了一些未召回unrecalled的多值三元組,發現有兩種類型。如表10所示,第一種類型是多個實體相鄰或通過分隔符連接,而第二種類型是多個實體在文本中不相鄰。可見,多值三元組的句子特征具有重要意義,如何對多值三元組進行建模是今后研究的重點。
5 Conclusion
本文提出了最大的高質量中文信息抽取數據集DuIE數據集,該數據集采用從粗到精的過程,結合遠程監控和眾包標注。為了驗證數據集,我們進行了技術評估並分析了top系統中的錯誤。我們發現信息抽取系統中最常見的錯誤是關系錯誤和實體錯誤,目前的模型在這些方面仍有改進的空間。對於來自不同來源類型的文本,錯誤分布是完全不同的。此外,對於小樣本和多值三元組,還需要進一步的研究。DuIE有助於在未來的研究中評估和改進信息提取技術。