LayoutLM: Pre-training of Text and Layout for Document Image Understanding 論文解讀


LayoutLM: Pre-training of Text and Layout for Document Image Understanding


摘要

預訓練技術已經在最近幾年的NLP幾類任務上取得成功。盡管NLP應用的預訓練模型被廣泛使用,但它們幾乎只關注於文本級別的操作,而忽略了對文檔圖像理解至關重要的布局和樣式信息。在本文中,跨掃描文檔圖像的文本和布局信息之間的交互,我們提出了LayoutLM來聯合建模,這有利於大量實際的文檔圖像理解任務,如從掃描文檔中提取信息。我們還利用圖像特征將單詞的視覺信息合並到LayoutLM中。據我們所知,這是第一次在一個文檔級訓練前的單一框架中共同學習文本和布局。它在幾個下游任務中實現了新的最先進的結果,包括形式理解(從70.72到79.27)、接收理解(94.02至95.24)和文件圖像分類(93.07至94.42)。代碼和預先訓練LayoutLM模型可以公開獲得


介紹

文件AI,或文件智能是一個相對較新的研究主題,涉及自動閱讀、理解和分析業務文檔的技術。業務文檔是提供與公司內部和外部事務相關的詳細信息的文件,如圖1所示。它們可能是數字化的,以電子文件的形式出現,也可能是書面或打印在紙上的掃描形式。一些常見的商業文檔包括采購訂單、財務報告、商業電子郵件、銷售協議、供應商合同、信函、發票、收據、簡歷等。商業文件對公司的效率和生產力至關重要。業務文檔的確切格式可能有所不同,但是信息通常以自然語言呈現,並且可以以多種方式組織,包括純文本、多列布局和各種表格/表單/圖形。理解業務文檔是一項非常具有挑戰性的任務,因為文檔的布局和格式多種多樣,掃描的文檔圖像質量不高,模板結構復雜。如今,許多公司通過手工工作從業務文檔中提取數據,這既費時又昂貴,同時還需要手工定制或配置。每種文檔類型的規則和工作流通常需要硬編碼,並隨着特定格式的變化或在處理多種格式時進行更新。為了解決這些問題,文檔人工智能模型和算法被設計用於自動分類、提取和結構化商業文檔中的信息,加速自動文檔處理工作流。當代文檔AI的方法通常是建立在深度神經網絡之上,從計算機視覺的角度或自然語言處理的角度,或兩者的結合。早期的嘗試通常集中於檢測和分析文檔的某些部分,比如表格區域。[7]最早提出了一種基於卷積神經網絡(CNN)的PDF文檔表檢測方法。之后,[21,24,29]還利用了更先進Faster R-CNN模型[19]或Mask R-CNN模型[9]進一步提高了文檔布局分析的准確性。此外,[28]提出了一種端到端、多模態、全卷積的網絡,利用預訓練的NLP模型中的文本嵌入,從文檔圖像中提取語義結構。最近,[15]引入了基於圖卷積網絡(GCN)的模型,用於結合文本和可視化信息,以便從業務文檔中提取信息。盡管這些模型在深度神經網絡的文檔人工智能領域取得了重大進展,但這些方法中的大多數都面臨兩個限制:(1)僅依賴於少量的人工標注樣本,而未對大量的未標注數據進行探索;(2)他們通常利用預先訓練好的CV模型或NLP模型,但沒有考慮文本和布局信息的多任務聯合訓練。因此,研究自我監督的文本和布局的預訓練模型將有助於文檔AI領域的進步。

為此,我們提出了一種簡單而有效的文本和布局預訓練方法LayoutLM,用於文檔圖像理解任務。受BERT模型[4]的啟發,其中輸入文本信息主要由文本嵌入和位置嵌入表示,LayoutLM進一步添加了兩種類型的輸入嵌入:(1)二維嵌入位置,表示標記在文檔中的相對位置;(2)在文檔中嵌入掃描標記圖像的圖像。LayoutLM的體系結構如圖2所示。我們添加這兩個輸入嵌入是因為2d位置嵌入可以捕獲文檔中標記之間的關系,同時圖像嵌入可以捕獲一些外觀特性,如字體方向、類型和顏色。此外,LayoutLM采用多任務學習目標,包括掩碼可視化語言模型(MVLM)損失和多標簽文檔分類(MDC)損失,這進一步加強了對文本和布局的聯合預訓練。在這項工作中,我們的重點是基於掃描文檔圖像的文檔預處理,而數字生成的文檔難度較小,因為它們可以被視為不需要OCR的特殊情況,因此超出了本文的范圍。具體來說,LayoutLM是在IIT-CDIP測試集合1.0版本上預訓練的[14],包含600多萬份掃描文檔和1100萬份掃描文檔圖像。這些數據包括新聞、稅單、論文、演講、科學出版物、問卷調查、簡歷、科學報告、說明書等,適合大規模的自我監督預訓練。我們選擇三個baseline數據集作為下游任務來評估預訓練好的LayoutLM模型的性能。第一個是FUNSD 數據集[10],用於空間布局分析和形式理解。第二個是用於掃描收據信息提取的SROIE 數據集。第三種是RVL-CDIP 數據集[8]用於文檔圖像分類,其中包含40萬幅、16類的灰度圖像。實驗表明,預訓練的LayoutLM模型在這些基准數據集上的性能明顯優於多個SOTA預訓練模型,顯示了在文檔圖像理解任務中對文本和布局信息進行預訓練的巨大優勢。

論文的貢獻總結如下:

  • 這是第一次,來自掃描文檔圖像的文本和布局信息被預先訓練在一個單一的框架中。圖像功能也被用來實現新的最先進的結果。
  • LayoutLM使用MVLM和多標簽文檔分類作為訓練目標,在文檔圖像理解任務中,它的表現明顯優於幾個預訓練的SOTA模型。
  • 代碼和模型獲取:

模型架構

回顧BERT模型

BERT模型是一種基於注意力的雙向語言建模方法。實驗證明,該BERT模型能夠有效地從具有大規模訓練數據的自監督任務中學習知識。BERT的結構是多層的雙向transform編碼器結構組成。它接受一個token序列並堆疊多個層以產生最終的表示。具體來說,給定一組用工具處理過的標記,將對應的單詞嵌入、位置嵌入和分割嵌入相加,計算出輸入嵌入。然后,這些輸入嵌入通過多層transform,該編碼器可以生成具有自適應注意機制的上下文化表示。
在BERT框架中有兩個步驟:預訓練和微調。預訓練階段分為Masked Language Modeling(MLM)和Next Sentence Prediction(NSP);在微調中,特定於任務的數據集被用於以端到端方式更新所有參數,BERT模型已成功地應用於一系列NLP任務。

LayoutLM模型

雖然說BERT在很多任務中是最優的模型,但是在文檔內容分析及定位任務上,它使用的信息太少了,還有大量信息被拋棄,所以LayoutLM模型橫空出世。模型架構見圖2,架構主要分兩塊,一塊是使用Faster-RCNN 提取圖像特征,一塊是使用嵌入技術提取文字語義信息。

  • 2-D位置編碼:坐標原點為:top-left。區域位置定位:(x0, y0, x1, y1),其中 (x0, y0)為左上角, (x1, y1)為右下角。
  • Image Embedding:這里采用了OCR的技術獲取圖像、文字的邊界(如使用python:pdfminer庫),通過字符的位置可以切分相應的子圖(裁剪出單詞區域)。模型使用Fast-RCNNd 特征圖對應區域作為圖像的嵌入。
    - 對於token[CLS],作者利用了當前頁整個圖像作為ROI(感興趣的目標區域),這樣有益於為后面的任務生成token[CLS]。就下面這句話是真的長,不妨分一下句子成分再理解一下:
    - For the [CLS] token, we also use the Faster R-CNN model to produce embeddings using the whole scanned document image as the Region of Interest (ROI) to benefit the downstream tasks which need the representation of the [CLS] token.

預訓練模型

Task 1: Masked Visual-Language Model: MVML
受mask語言模型的啟發,LayoutLM使用它去學習文字及其位置信息的嵌入表示。實際上就是可以看作使用BERT這樣的技術學習'詞向量'。mask部分token時,保留其位置編碼。
Task 2: Multi-label Document Classification 文檔多分類任務
上面說有16類,如果預訓練模型有16類,那么對文檔的內容類別分的還是比較細的。如可以識別正文區域、標題區域、注釋區域(猜測)、表格區域等。關於文檔內容分類,此模型是開放領域,對於特殊領域,你可以進行微調。

模型消融實驗



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM