論文閱讀（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）

本文轉載自查看原文 2016-11-28 17:51 2548 黃偉林/ 論文閱讀_自然場景文字識別/ 2016/ 文本檢測/ text-CNN/ 多任務學習/ TIP

Weilin Huang——【TIP2015】Text-Attentional Convolutional Neural Network for Scene Text Detection）

方法概括
1. 使用改進版的MSER（CE-MSERs，contrast-enhancement）提取候選字符區域；
2. 使用新的CNN（text-CNN，結合了像素級信息，字符多類標簽，字符二類標簽的監督信息來訓練text-attentional的CNN）來過濾非文字區域；
3. 將字符串成字符串再切成單詞（參考文獻1，文獻2的方法，不是文章重點）
創新點和貢獻
- idea的出發點：

如果不認識這些字，那么很難判斷這到底是否真是'字'還是瞎寫的筆畫

- 創新點：
  - 提出了對比度增強版的MSER，提高召回率
  - 提出了基於多任務學習的text-CNN模型，並介紹了一種新的訓練機制，將低級的像素級信息（分割問題），到高級的字符多類信息（62類字符識別問題），字符與非字符信息（2類字符分類問題）融合到一個text-CNN模型中，實現了具有更強的分辨性和魯棒性的text detector.
方法細節
- text-CNN
  - 網絡結構圖

- - 3個任務

- - 3個任務的損失函數（從上到下分別是binary,label,region)

- - - ,,,

- - 總的損失函數：

- - 3個任務網絡結構：
    - pixel-level segementation task: Conv1 → Conv2 → Deconv1 → Deconv2 → loss (5) 【兩個卷積，兩個去卷積】
    - character label task: Conv1 → Conv2 → Pool2 → Conv3 → Fc1 → Fc2 → loss (4) 【三個卷積，一個池化，兩個全連接】
    - text/non-text task: Conv1 → Conv2 → Pool2 → Conv3 → Fc1 → Fc2 → loss (3) 【三個卷積，一個池化，兩個全連接】
  - 池化層設計的原因
    - 池化層本身是不可逆轉的，即在去卷積是無法找回原來的信息的，所以在去卷積前不能使用池化層，因此只能在第二層之后才接池化層
    - 第三層卷積后圖像已經很小，故沒必要再用池化層
    - 實驗證明了使用池化層：性能沒有降低，速度得到提高
  - 訓練過程
    - pre-train：label task和region task分別按10:3（損失函數比，λ₁=1，λ₂=0.3）進行訓練，采用的庫為合成數據庫charSynthetic，迭代次數為30k次
    - train：label task和main task分別按3:10（λ₁=0.3）進行訓練，采用的庫為真實庫charTrain，迭代次數為70k
    - 之所以這樣訓練的原因：三種任務使用的特征不同（region task使用的特征是pixel-level，屬於低級特征），收斂的速度也不同。如果region task訓練次數和main task一樣多，會導致過擬合。第一階段訓練兩個任務之后，模型參數已經將像素級的信息記錄下來了。下圖為訓練階段三種任務的損失函數隨迭代次數的變化情況。

- CE-MSERs
  - 算法步驟（主要：
    - Step1 : 利用對比度線索和空間線索聚類（文獻3），生成對比度區域圖map1
    - Step2 : 利用顏色空間平滑（文獻4），生成對比度區域圖map2
    - 在原圖，map1，map2上分別使用MSER

實驗結果
- 實驗效果證明多任務效果(c)比傳統的CNN(a)，只使用一個額外任務，字符識別任務(b)更好

- 實驗證明采用本文的Text-CNN學到了能區分字符和非字符的關鍵特征

- ICDAR2015

- ICDAR2011 (CE-MSERs比MSERs好，用三種task訓練的text-CNN比單任務，雙任務的餓更好）

- ICDAR2013

- MSRA-TD500

問題討論
- 使用池化層的優劣？
  - 優點：減少參數和模型的復雜性
  - 缺點：丟失了空間信息，且池化層是不可逆轉的
- 為什么region task是回歸問題？
- 為什么region task和label task在訓練的時候用，測試的時候不用？
- CE-MSER的實現？
- 為什么label task是62類，而不是63類（包含噪聲類）？
- 對於負樣本，region task的groundTruth中的mask怎么做？label task中的負樣本類別是多少？
作者和相關鏈接

作者信息
- tong he, 黃偉林，喬宇，姚劍

總結與收獲點
- CE-MSER提供了一個思路，可以增強對比度來提高召回率，但實現方法不是很好。本身MSER就相對耗時，還需要在增強對比度的map上再做兩次MSER，顯然時間開銷太大了。更好的方法應該是去改MSER的內部算法，修改“stable”的含義或者對每個component做一定對比度增強的處理再提取等等。
- 多任務學習的訓練方法可以參考這篇文章的思路：不同任務共享某些層
- 把像素級信息，字符類別級信息融合到檢測中做的想法很可取

參考文獻

W. Huang, Y. Qiao, and X. Tang, “Robust scene text detection with convolution neural network induced MSER trees,” in Proc. 13th Eur. Conf. Comput. Vis. (ECCV), 2014, pp. 497–511.
C. Yao, X. Bai, W. Liu, Y. Ma, and Z. Tu, “Detecting texts of arbitrary orientations in natural images,” in Proc. IEEE Comput. Vis. Pattern Recognit. (CVPR), Jun. 2012, pp. 1083–1090.
H. Fu, X. Cao, and Z. Tu, “Cluster-based co-saliency detection,” IEEE Trans. Image Process., vol. 22, no. 10, pp. 3766–3778, Oct. 2013.
M. M. Cheng, G. X. Zhang, N. J. Mitra, X. Huang, and S. M. Hu, “Global contrast based salient region detection,”2011 in Proc. IEEE Comput. Vis. Pattern Recognit. (CVPR), Jun. 2011, pp. 409–416.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀（Weilin Huang——【AAAI2016】Reading Scene Text in Deep Convolutional Sequences）論文閱讀（Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network）論文閱讀（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network）論文閱讀（Xiang Bai——【CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks）論文閱讀（XiangBai——【PAMI2018】ASTER_An Attentional Scene Text Recognizer with Flexible Rectification ) 論文閱讀（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）論文閱讀筆記四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016) Scene Text Detection(場景文本檢測)論文思路總結 ASTER：An Attentional Scene Text Recognizer with Flexible Rectification 論文閱讀（XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network）

論文閱讀（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）

Weilin Huang——【TIP2015】Text-Attentional Convolutional Neural Network for Scene Text Detection）

目錄

作者和相關鏈接

方法概括

創新點和貢獻

方法細節

text-CNN

CE-MSERs

實驗結果

問題討論

作者和相關鏈接

總結與收獲點

參考文獻

免責聲明！