摘要:如何通過深度學習模型來從文檔圖片中自動化地提取出關鍵信息成為一項亟待解決的挑戰,受到學術界和工業界的廣泛關注。
深度學習模型已經在OCR領域,包括文本檢測和文本識別任務,獲得了巨大的成功。而從文檔中提取關鍵信息(如圖1所示),其作為OCR的下游任務,存在非常多的實際應用場景。使用人力來從這些文檔中提取信息是重復且費時費力的。如何通過深度學習模型來從文檔圖片中自動化地提取出關鍵信息成為一項亟待解決的挑戰,受到學術界和工業界的廣泛關注。下面將對近期幾篇相關文章進行簡要介紹,並將其分為三個類別:基於柵格(grid-based)、基於圖結構(graph-based)和端到端(end-to-end)。
(a)火車票
(b)購物收據
圖1 從文檔圖片中提取關鍵信息
1. 基於柵格的文檔圖片關鍵信息提取技術
該類方法基於圖片像素點將圖片轉換為柵格表示向量,輸入到深度學習網絡中以學習提取關鍵信息。
1.1 Chargrid[1]
這篇文章指出文檔中的文本間關系不僅受文本的序列順序影響,還與文檔中各文本的版式分布有關。為解決上述問題,作者提出chargrid方法,其將文檔圖片映射為一個字符級別的2D柵格表示,如圖2所示。對於每一個字符柵格采用one-hot編碼表示,整個圖片的向量表示為\tilde{g} \in \mathbb{R}^{H×W×N_{c}}g~∈RH×W×Nc,其中HH和WW是圖片的長和寬,N_{c}Nc是字符類別數。
圖2 chargrid的文檔表示
隨后該向量表示作為chargrid-net的輸入,基於encoder-decoder的CNN網絡結構(如圖3所示)進行關鍵信息的文本框檢測和語義分割。整個網絡由分割損失、邊框分類和邊框坐標回歸三個部分組成的損失函數優化學習:{\mathcal{L}}_{total}={\mathcal{L}}_{seg}+{\mathcal{L}}_{boxmask}+{\mathcal{L}}_{boxcoord}Ltotal=Lseg+Lboxmask+Lboxcoord。關鍵信息內容通過將分割類別屬於同一類別的字符整合得到。
圖3 chargrid模型架構
1.2 CUTIE[2]
這篇文章同樣指出僅利用NLP技術是無法處理文檔中各文本間的布局信息。因此作者設計了CUTIE方法,如圖4所示,將文檔圖片映射為保留各文本空間位置關系的柵格向量表示,然后設計了兩類CNN模型來進行關鍵信息題:CUTIE-A,采用高分辨率網絡HRNet作為骨干網絡;CUTIE-B,采用空洞卷積的CNN網絡。整個模型由每個box的預測類別和真實類別間的交叉熵損失優化學習。
圖4 CUTIE模型架構
2. 基於圖結構的文檔圖片關鍵信息提取技術
基於圖結構的方法是將文檔圖片看作是由文本切片(text segment)組成的圖結構,並利用神經網絡模型來學習出各文本切片間的關系來提取出文檔的關鍵信息內容。
2.1 GC-BiLSTM-CRF[3]
這篇文章指出傳統NER方法BiLSTM-CRF無法利用文檔圖片中各文本切片間的布局信息。為解決上述問題,作者提出利用圖卷積神經網絡來學習文本切片的語義信息和布局信息。
圖5 圖卷積神經網絡學習文本切片的圖向量表示
具體地,將文本切片看做點,將文本間關系看做邊,來構造一個全連接圖結構。利用圖卷積神經網絡來學習得到每個文本切片的圖向量表示,如圖5所示。
圖6 引入圖向量表示的BiLSTM-CRF
在得到文本切片的圖向量表示后,將其與文本切片中每個文本token的Word2Vec向量拼接,輸入到BiLSTM-CRF網絡中進行文檔圖片的關鍵信息提取。整個模型由文本切片分類任務和IOB序列分類任務聯合優化學習。
2.2 LayoutLM[4]
這篇文章指出預訓練模型已經在NLP領域獲得了巨大的成功,但是其缺乏對布局和版式信息的利用,從而不適用於文檔圖片關鍵信息提取任務。為解決上述問題,作者提出LayoutLM模型。
圖7 LayoutLM模型架構
該模型以BERT(NLP領域非常強大的預訓練模型)為骨干網絡,為了利用布局和版式信息,引入了2D位置向量表示,即各文本切片的兩點標注(左上角的橫縱坐標和右下角的橫縱坐標)分別通過橫縱兩個方向上的索引表得到的向量。同時可以選擇性地加入切片的視覺向量表示以補充更多的信息。由於BERT本質上可被看做是一個全連接的圖網絡,因此我們將LayoutLM也歸類於基於圖結構的技術。后續出現了類似於LayoutLM的預訓練模型如Lambert[5]等,在文檔圖片關鍵信息提取任務上都取得了SOTA結構,證明了深度學習模型基於大語料和大模型的強大能力。
3.端到端的文檔圖片關鍵信息提取技術
端到端的方法,顧名思義,就是直接以原始圖片作為輸入得到文檔的關鍵信息內容。
3.1 EATEN[6]
這篇文章指出,基於檢測識別流程的信息提取技術會受到如輕微的位置偏移等帶來的影響。為解決上述問題,作者提出EATEN方法,其直接從原始圖片輸入中提取出文檔關鍵信息內容。
圖8 EATEN模型架構
具體地,如圖8的網絡結構所示,EATAN采用CNN骨干網絡來提取得到文檔圖片的高層視覺信息,然后利用實體類別感知的注意力網絡來學習實體布局信息,最后利用基於LSTM的解碼器解碼得到預設的實體內容。該模型由於直接從圖片中得到文檔關鍵信息,易於加速優化,便於邊緣部署。
3.2 TRIE[7]
這篇文章指出,現有方法對關鍵信息提取都是將其作為多個獨立的任務進行,即文字檢測、文字識別和信息提取,彼此之間無法進行相互監督學習,因此作者提出一個端到端的網絡模型TRIE,同時對上述三個任務進行模型學習。
圖9 TRIE模型架構
具體地,利用ResNet+FPN作為骨干網絡,進行文字檢測,然后利用檢測網絡+ROIAlign的結果進行attention+encoder-decoder的文字識別,最后將文本位置信息、視覺信息、語義信息進行融合,通過BiLSTM來進行IOB標簽分類得到文檔關鍵信息。整個TRIE模型對三個任務(即文本檢測、文本識別和信息提取)進行共同優化學習:
小結:
本文對OCR領域中文檔圖片的關鍵信息提取技術進行了簡要介紹,將近期技術按模型分為基於柵格、基於圖和端到端三種類別,對每個類別篩選了兩篇論文進行了闡述。總的來說,基於大語料的預訓練圖模型展現出了巨大的實力,而端到端模型也存在不小的潛力。
參考文獻:
[1] Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning to understand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” KDD, 2020.
[5] Garncarek, Łukasz, et al. “LAMBERT: Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention for single shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.” ACM MM, 2020.
本文分享自華為雲社區《技術綜述十:文字識別之關鍵信息提取》,原文作者:小菜鳥chg 。