論文解讀丨圖神經網絡應用於半結構化文檔的命名實體識別和關系提取


摘要: 隨着用於傳遞和記錄業務信息的管理文檔的廣泛使用,能夠魯棒且高效地從這些文檔中自動提取和理解內容的方法成為一個迫切的需求。本次解讀的文章提出利用圖神經網絡來解決半結構化文檔中的實體識別(NER)和關系提取問題。

本文分享自華為雲社區《論文解讀系列十一:圖神經網絡應用於半結構化文檔的命名實體識別和關系提取》,原文作者:小菜鳥chg 。

摘要:

隨着用於傳遞和記錄業務信息的管理文檔的廣泛使用,能夠魯棒且高效地從這些文檔中自動提取和理解內容的方法成為一個迫切的需求。此外,基於圖的表達方法對不同文檔模版的變化具有靈活的適應性,從而使得圖表達方式與這些管理文檔的半結構化特性非常契合。正因為圖神經網絡(GNN)能夠很好地學習出文檔中數據元素間的關系,所以本次解讀的文章提出利用圖神經網絡來解決半結構化文檔中的實體識別(NER)和關系提取問題。經實驗驗證該文章提出的方法在單詞分組、實體分類、關系預測三個任務上取得了SOTA結果,同時在FUNSD(表單理解)和IEHHR(手寫婚姻檔案理解)兩個完全不同類別的數據集上取得的實驗結果進一步驗證了本次解讀文章所提出的方法的泛化性。

1. 方法

GNN被廣泛應用於NER和表格提取等任務中,本次解讀的文章在此基礎上提出將GNN應用於提取key-value對的任務中,不僅對文檔圖片中的實體進行分類,而且還會對實體間的關系進行預測。

給定一個輸入文檔,模型需要完成的任務包括:(a)單詞分組:檢測文檔實體,即將相同語義的單詞進行分組;(b)實體分類:將檢測到的實體分為預設的類別;(c)關系預測:發現實體間配對關系。

(1)圖的構造

本次解讀的文章提出構造兩張圖來表示文檔,並在此基礎上訓練三個不同的模型來解決對應的任務:單詞分組f_1f1​、實體分類f_2f2​、關系預測f_3f3​。如圖1所示,文檔會被表示為由OCR結果構造的圖G_1=(V_1,E_1)G1​=(V1​,E1​),其中V_1V1​是由OCR結果中每個單詞組成的節點集合;對每個單詞文本框左上角間的距離進行kk-近鄰(取k=10k=10)來生成邊E_1E1​,對各邊計算分數s=f_1 (G_1)s=f1​(G1​),篩選出大於閾值\tauτ(FUNSD設為0.65, IEHHR設為0.9)的邊就可以得到單詞分組的結果。

圖1 單詞分組的圖結構構造示意圖

圖2 實體分類和關系預測的圖結構構造示意圖

如圖2所示,在G_1G1​的基礎上得到實體(即各單詞分組)后,由每個實體構造得到圖G_2=(V_2,E_2)G2​=(V2​,E2​),其中V_2V2​表示由G_1G1​篩選得到的實體集合,E_2E2​是由各實體節點間全連接得到的邊集合。由c=f_2 (G_2)c=f2​(G2​)得到實體分類結果;由s=f_3 (G_3)s=f3​(G3​)得到關系預測結果。

(2)圖的計算

2. 實驗結果

從FUNSD實驗結果表明,本次解讀文章提出的方法與LayoutLM相比較還有優化空間,原因可能在於FUNSD的數據量較小。從IEHHR實驗結果表明,該方法在表單識別的其他領域即手寫記錄理解上也具有一定的效果,體現了其泛化性。

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM