AI論文解讀丨融合視覺、語義、關系多模態信息的文檔版面分析架構VSR


摘要:文檔版式分析任務中,文檔的視覺信息、文本信息、各版式部件間的關系信息都對分析過程具有很重要的作用。本文提出一種融合視覺、文本、關系多模態信息的版式分析架構VSR。

本文分享自華為雲社區《論文解讀系列十八:融合視覺、語義、關系多模態信息的文檔版面分析架構VSR》,作者: 小菜鳥chg 。

現有文檔版面分析方法大致可分為兩種:基於NLP的方法將版面分析任務看作是序列標簽分類任務(sequence labeling),但是該類方法在版面建模上表現出不足,無法捕獲空間信息;基於CV的方法則將版面分析看作是目標檢測或分割任務(object detection or segmentation),該類方法的不足表現在(1)缺乏細粒度的語義、(2)簡單的拼接方式、(3)未利用關系信息。如圖1展示的VSR的motivation示意圖,為解決上述各方法的局限性問題,本文提出一種融合視覺、文本、關系多模態信息的版式分析架構VSR (Vision, Semantic, Relation)。

圖1 VSR的motivation示意圖

1. 問題定義

版式分析任務既可當做序列標簽分類,又可當做目標檢測。主要區別在於部件候選(component candidates)的選擇。對於基於NLP方法,即序列標簽分類的定義,選擇通過pdf解析或OCR識別得到text tokens;對於基於CV方法,即目標檢測或分割的定義,選擇通過目標檢測網絡如Mask RCNN得到的區域RoI。VSR主要圍繞目標檢測的定義展開,同時VSR也可以很直接地應用到基於NLP的方法上。

2. VSR架構

VSR架構如圖2所示,主要包括三個模塊:雙流卷積網絡(two-stream ConvNets)、多尺度自適應聚合模塊、關系學習模塊。首先,雙流卷積網絡提取視覺和語義特征;然后,相對於簡單的拼接,多尺寸自適應聚合模塊來得到視覺和語義雙模態信息表示;接着,基於聚合的多模態信息表示,可以生成布局組件候選集;最后,關系學習模塊來學習各組件候選間的關系,並生成最終結果。下面對各模塊具體展開。

圖2 VSR架構圖

2.1 雙流卷積網絡

VSR采用雙流卷積神經網絡(本文采用的是ResNeXt-101)來分別提取圖像視覺信息和文本語義信息。

視覺ConvNet

語義ConvNet

2.2 多尺寸自適應聚合模塊

2.3 關系學習模塊

在得到FM后,可以通過RPN網絡很容易得到ROI(Region of Interest)作為布局部件候選集。本文在實驗階段選擇的是Mask RCNN,同時設置7個anchor比例(0.02, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0)(0.02,0.05,0.1,0.2,0.5,1.0,2.0)得到部件候選集。如圖3所示,根據各部件候選之間的關系,可以有如下作用:(1)利用空間位置關系,調整文本框坐標;(2)根據部件間的共現關系(比如表格和表格標題一般會同時出現)修正預測標簽;(3)各component間不重疊的特性移除多余框。VSR中關系學習模塊對各部件候選間的關系進行建模,並最終得到版面分析的結果。

圖3 VSR關系學習模塊作用示意圖

將一篇文檔作為一張圖graph,而每個部件候選component candidate作為節點node。每個節點的特征表示由多模態特征表示和位置信息表示組成:

2.4 優化訓練

3. 實驗結果

3.1 對比實驗

VSR在三個開源數據集Article Regions,PubLayNet,DocBank上取得了最優結果。

3.2 消融實驗

表5、表6、表7的實驗結果分別驗證了A.不同粒度的文本表示;B.雙流卷積網絡和聚合模塊;C.關系學習模塊三個部分的有效性。

4. 總結

VSR方法的三個重要部分如下:
(1)文本語義用character和sentence兩種粒度來表示;
(2)采用two-stream convnet來分別提取視覺和語義特征,再通過attention將兩個模態特征聚合,最后基於聚合特征得到component candidates;
(3)GNN即Self attention來學習各component candidates間的關系。

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM