論文解讀丨LayoutLM: 面向文檔理解的文本與版面預訓練


摘要:LayoutLM模型利用大規模無標注文檔數據集進行文本與版面的聯合預訓練,在多個下游的文檔理解任務上取得了領先的結果。

本文分享自華為雲社區《論文解讀系列二十五:LayoutLM: 面向文檔理解的文本與版面預訓練》,作者: 松軒。

1. 引言

文檔理解或文檔智能在當今社會有着廣泛的用途。如圖1所示的商業文檔中記錄有豐富、具體的信息,同時也呈現着復雜多變的版式結構,因此如何准確地理解這些文檔是一個極具挑戰性的任務。在本文之前,基於模型的文檔理解有着如下兩點不足: (1) 針對具體場景,采用人工標注數據進行端到端的有監督訓練,沒有利用大規模的無標注數據,且模型難以泛化至其他版式或場景;(2)利用CV或NLP領域的預訓練模型進行特征提取,沒有考慮文本與版面信息的聯合訓練。

圖1. 不同版面與格式的商業文檔掃描圖像

針對上述不足,微軟亞研院的研究者們提出了如圖2所示的LayoutLM模型 [1],利用大規模無標注文檔數據集進行文本與版面的聯合預訓練,在多個下游的文檔理解任務上取得了領先的結果。具體地,LayoutLM模型很大程度上借鑒了BERT模型 [2]。在模型輸入層面,LayoutLM在BERT采用的文本與位置特征基礎上,新增了兩個特征:(1)2-D位置特征,也就是文檔版面特征;(2)文檔圖像全局特征與單詞級別特征,采用了Faster R-CNN [3] 的ROI特征。在學習目標層面,采用了掩碼視覺語言模型(Masked Visual-Language Model, MVLM)損失與多標簽文檔分類(Multi-label Document Classification,MDC)損失進行多任務學習。在訓練數據層面,LayoutLM在IIT-CDIP Test Collection 1.0 [4] 數據集的約一千一百萬張的掃描文檔圖像上進行預訓練,該數據集包含信件、備忘錄、電子郵件、表格、票據等各式各樣的文檔類型。文檔圖像的文本內容與位置信息通過開源的Tesseract [5] 引擎進行獲取。

圖2. LayoutLM模型結構示意圖

2. LayoutLM

2.1 模型結構

LayoutLM在BERT模型結構基礎上,新增了兩個輸入特征:2-D位置特征與圖像特征。

2-D位置特征:2-D位置特征的目的在於編碼文檔中的相對空間位置關系。一個文檔可視為一個坐標系統,其左上角即為坐標原點(0,0)(0,0)。對於一個單詞,其包圍盒能夠以坐標(x_0,y_0,x_1,y_1)(x0​,y0​,x1​,y1​)進行表示,其中 (x_0,y_0)(x0​,y0​) 表示左上角坐標,(x_1,y_1)(x1​,y1​)表示右下角坐標。x_0x0​與x_1x1​共享嵌入層參數XX,y_0y0​與y_1y1​共享嵌入層參數YY。特別地,整個文檔圖像的包圍盒為(0,0,W,H)(0,0,W,H),WW與HH分別表示文檔圖像的寬與高。

圖像特征:根據單詞的包圍盒,LayoutLM利用ROI操作從Faster R-CNN的輸出特征圖中生成圖像區域特征,與單詞一一對應。對於特殊的[CLS]標記([CLS]標記的輸出接分類層,用於文檔分類任務,詳情可見BERT模型),則采用整圖的平均特征作為該標記的圖像特征。應該注意的是,LayoutLM在預訓練階段並沒有采用圖像特征;圖像特征僅在下游任務階段可以選擇性地加入,而生成圖像特征的Faster R-CNN模型權重來自於預訓練模型且不作調整。

2.2 LayoutLM預訓練

預訓練任務#1:掩碼視覺語言模型MVLM。在預訓練階段,隨機掩蓋掉一些單詞的文本信息,但仍保留其位置信息,然后訓練模型根據語境去預測被掩蓋掉的單詞。通過該任務,模型能夠學會理解上下文語境並利用2-D位置信息,從而連接視覺與語言這兩個模態。

預訓練任務#2:多標簽文檔分類MDC。文檔理解的許多任務需要文檔級別的表征。由於IIT-CDIP數據中的每個文檔圖像都包含多個標簽,LayoutLM利用這些標簽進行有監督的文檔分類任務,以令[CLS]標記輸出更為有效的文檔級別的表征。但是,對於更大規模的數據集,這些標簽並非總可獲取,因此該任務僅為可選項,並且實際上在后續的LayoutLMv2中被舍棄。

2.3 LayoutLM模型微調

在該論文中,預訓練的LayoutLM模型在三個文檔理解任務上進行模型微調,包括表格理解、票據理解以及文檔分類,分別采用了FUNSD、SROIE以及RVL-CDIP數據集。對於表格與票據理解任務,模型為每個輸入位置進行{B, I, E, S, O}序列標記預測,從而檢測每個類別的實體。對於文檔分類任務,模型利用[CLS]標記的輸出特征進行類別預測。

3. 實驗

LayoutLM模型與BERT模型具有一致的Transformer [6] 網絡結構,因此采用BERT模型的權重進行初始化。具體地,BASE模型為12層的Transformer,每層包含768個隱含單元與12個注意力頭,共有113M參數;LARGE模型為24層的Transformer,每層包含1024個隱含單元與16個注意力頭,共有343M參數。具體的訓練細節與參數設定請參見論文。

表格理解。表格1與表格2展示了LayoutLM在表格理解數據集FUNSD上的實驗結果,包含不同模型、不同訓練數據量、不同訓練時長、不同預訓練任務等多種設定。首先,可以看到,引入了視覺信息的LayoutLM模型在精度上取得了大幅度的提升。其次,更多的訓練數據、更長的訓練時間、更大的模型能夠有效地提升模型精度。最后,MDC預訓練任務在數據量為1M與11M時具有相反效果,大數據量情況下僅用MVLM效果更優。

此外,原論文作者還對比了LayoutLM模型不同初始化方式對於下游任務的影響,如表格3所示。可以看到,利用RoBERTa(A Robustly Optimized BERT)模型參數進行初始化,相比於利用原始BERT模型參數進行初始化,能夠一定程度提升LayoutLM模型在下游任務上的精度。

表1. FUNSD數據集上的准確率

表2. 不同訓練數據量與訓練時長的LayoutLM BASE模型(Text + Layout, MVLM)在FUNSD數據集上的准確率

表3. 不同初始化方式的LayoutLM模型(Text + Layout, MVLM)在FUNSD數據集上的准確率

票據理解。表格4展示了LayoutLM在票據理解數據集SROIE上的實驗結果。可以看到,LayoutLM LARGE模型的結果優於當時SROIE競賽榜單第一名的結果。

表4. SROIE數據集上的准確率

文檔圖像分類。表格5展示了LayoutLM在文檔圖像分類數據集RVL-CDIP上的實驗結果。同樣地,可以看到,LayoutLM取得了領先的結果。

表5. RVL-CDIP數據集上的分類准確率

4. 小結

本文介紹的LayoutLM模型利用大規模無標注文檔數據集進行文本與版面的聯合預訓練,在多個下游的文檔理解任務上取得了領先的結果。論文作者指出,更大規模的數據集與模型、在預訓練階段考慮圖像特征是下一步的研究方向。

[1] Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of text and layout for document image understanding. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT. 2019: 4171-4186.

[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 2015, 28: 91-99.

[4] Lewis D, Agam G, Argamon S, et al. Building a test collection for complex document information processing. Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. 2006: 665-666.

[5] https://github.com/tesseract-ocr/tesseract

[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017: 5998-6008.


想了解更多的AI技術干貨,歡迎上華為雲的AI專區,目前有AI編程Python等六大實戰營供大家免費學習

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM