論文解讀丨文檔結構分析


摘要:一個端到端的文檔結構分析方案(DocParser),對文檔(掃描版、圖片版等)進行結構提取,包括實體識別(這里實體指所有需要檢測的元素,包括文本、行、列、單元格等)和關系分類。

本文分享自華為雲社區《論文解讀系列十五:文檔結構分析》,原文作者:一笑傾城。

1 文章摘要

提出一個端到端的文檔結構分析方案(DocParser),對文檔(掃描版、圖片版等)進行結構提取,包括實體識別(這里實體指所有需要檢測的元素,包括文本、行、列、單元格等)和關系分類。 基於TEX和synctex,通過反向生成TEX代碼生成弱監督標簽。

2 解決方案

給定文檔集D,目標是生成層級結構T,其中T包括實體及實體間的關系Relations。對於實體,E指文檔中的各種元素,如數字、表、行、單元格等,每個實體包括3個特性,1. 語義類別, 2. 檢測框(bouding box)的坐標,3. 置信度(confidence score)。對於Relations,R由三元組(Esubj,Eobj,Ψ) 給定, 關系類別Ψ ∈ {parent of ,followed by,null},null表示其它無關的實體,例如頁眉頁腳。

實體E及其關系R的組合足以重構一個文檔的層級結構T。

難點:實體外表相似、層級嵌套nested,以及不同文檔具備多樣性。

2.1 ImageConversion

將輸入文檔圖轉化成分辨率為ρ的圖片,這個分辨率是預定義的,然后所有圖片resize到固定大小φ(必要時補零zero padding); 之后圖片經過預處理,所有圖片的RGB通道都類比MS COCO數據集進行標准化處理, 這么做是為了后續初始化模型的時候利用這個數據集的預訓練的權重。

2.2 EntityDetection

利用 Mask R-CNN構造模型,做圖像分割識別一個文檔圖片內的所有實體。這個模型以上一階段產生的圖片作為輸入,輸出一個實體列表E1,...,Em。對每一個實體, Mask R-CNN確定:1) 它的方形bounding box,2)confidence score置信度,3) a binary segmentation mask (區分bounding box里檢測的實體及背景像素pixel),4) 實體的類別標簽, 共23類,CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。

2.3 Relation Classification

基本是啟發式的算法 。

2.3.1 nesting( parent of)這里分4步:

  • h1: Overlaps,通過IOU判斷檢測框之間的重疊關系;
  • h2: Grammar Check,語法檢查;
  • h3: Direct Children,對候選列表修整,只保留直系孩子direct children,sub-children會被移除;
  • h4: Unique Parents,對候選列表修整,使每個實體只有一個父節點;

2.3.2 ordering (followed by)

實體根據自然閱讀順序排列(比如從左至右)。默認情況下,所有實體都將經過這兩種heuristics處理:

  • Page Layout Entities主要是確定頁面是單欄布局或多欄布局;
  • Reading Flow:根據閱讀順序重組節點順序;

3 實驗結果

在ICDAR表格結構分析的效果:

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM