Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images
目錄
- 作者和相關鏈接
- 方法概括
- 創新點和貢獻
- 方法細節
- 實驗結果
- 問題討論
- 總結與收獲點
- 參考文獻
-
作者和相關鏈接
- 作者
- Zhuoyao Zhong, z.zhuoyao@mail.scut.sdu.cn
Lianwen Jin, lianwen.jin@gmail.com
Shuye Zhang, shuye.cheung@gmail.com
Ziyong Feng, feng.ziyong@mail.scut.edu.cn - School of Electronic and Information Engineering South China University of Technology Guangzhou, China
- Zhuoyao Zhong, z.zhuoyao@mail.scut.sdu.cn
- 論文下載
- 作者
-
方法概括
- 方法稱為DeepText(此方法不是Google的DeepText哦),先用Inception-RPN提取候選的單詞區域,再利用一個text-detection網絡過濾候選區域中的噪聲區域,最后對重疊的box進行投票和非極大值抑制
-
創新點和貢獻
- 對fasterRCNN進行改進用在文字檢測上
- Inception-RPN:RPN后接Inception,來提取候選單詞區域(包括2類classification和box regression)
- anchor的大小更加適合檢測單詞:4scales(32, 48, 64, 80)*6 aspect ratio(0.2, 0.5, 0.8, 1.0, 1.2, 1.5) = 24種prior bounding box
- Inception:3*3 conv, 5*5 conv, 3*3 max-pooling
- Multi-level region-of-interest pooling(MLRP): ROI pooling從原來只用Conv5變成了Conv5+Conv4的兩層(MLRP)
- Ambiguous Text Category(ATC): 把文字和非文字的兩類變成了三類,文字(IOU>0.5),非文字(IOU<0.2),有歧義的文字(IOU在0.2~0.5之間),原理是加入了更多的監督信息,使得分類效果更好
- Inception-RPN:RPN后接Inception,來提取候選單詞區域(包括2類classification和box regression)
- 對重疊box的去重方法(亮點不多)
- 實驗結果(F值)很高,ICDAR2011-0.83,ICDAR2013-0.85,速度約是平均每張圖像1.7s(gpu k40)
- 對fasterRCNN進行改進用在文字檢測上
-
方法細節
- 網絡框架圖(Inception-RPN+text detection):兩個網絡,Inception-RPN和text detection網絡共享了conv1~conv5(來自於VGG16)。
-
- 實際測試時流程:
- 輸入一張圖像,經過Conv1~Conv5生成卷積后的feature map
- feature map輸入到Inception-RPN得到候選區域(score, bounding box)
- 候選區域經過非極大值抑制,選擇前k個proposals
- 把k個proposals對應的在1.中Conv5生成的feature map上提取每個proposal的卷積特征,輸入到text detection網絡中得到每個proposal的score和Bounding box(regression調整過的)
- 對得到的檢測結果(重復,互相包含)進行迭代投票和過濾,找到分數最高的最優檢測結果
- Ambiguous Text Category(ATC)的出發點
- 如下圖,按照一般的IOU>0.5為正樣本,IOU<0.5為負樣本,會導致單詞串的某一段本該屬於正樣本的被當做負樣本,對分類造成干擾,因此,更好的方法是把IOU>0.5的當正樣本,IOU<0.2的當負樣本,IOU處在中間的這部分單獨成一類,表示歧義的一類,這樣會使得分類准確率更高
- 實際測試時流程:
-
- Multi-level region-of-interest pooling(MLRP)的修改
- VGG-16的模型配置
- Multi-level region-of-interest pooling(MLRP)的修改
-
-
- ROI Pooling的修改:將Conv4_3和Conv5_3(即Conv4的第三層卷積和Conv5的第三層卷積)的feature map單獨進行ROI pooling,再把這兩層Pooling后的feature map用一個1*1的卷積進行融合,這里1*1的卷積除了融合多通道(兩層)信息,還有一個作用,就是降維,為下一步的FC做准備。
-
-
- 訓練過程
- 多任務損失函數
- 總的損失(p和p*表示測試和gt的label, t和t*是測試和gt的bounding box,t = {tx, ty,tw, th}
-
-
- Lcls是softmax loss,分類誤差(下圖參考softmax回歸)
-
-
-
- Lreg是smooth-L1 loss,回歸誤差(下圖來自論文參考文獻1)
-
-
-
- 詳細算法過程(講真,太詳細了有點)
-
-
-
-
- 算法思路簡述:同一個樣本,先用Inception-RPN訓練,再訓練text detection網絡,detection網絡要從Inception-RPN網絡中選擇,最后的時候更新整個網絡權值,共享的部分要把兩個模塊的權值更新都加上。
-
- 啟發式后處理
- 包括迭代bounding box的投票(參考文獻2)和過濾兩個部分,實際上就是個去重的過程,文章細節也沒怎么講
-
-
實驗結果
- 值得一提的是文中的模型訓練數據竟然只有4072個樣本!!!
- 證明Inception-RPN比原始RPN,SS,Edgebox等方法好
-
- 證明MLRP和ATC的作用
-
- ICDAR2011
-
- ICDAR2013
-
- 效果示例圖
-
問題討論
- 文中沒有給出中間結果的示例圖,比如inception-RPN之后得到的結果
-
總結與收獲點
- 文中比較好的參考點是作者對fasterRCNN做的幾個改進(在創新點中總結了)
- 從實驗結果上看,無論是F值還是速度,都確實挺好的,學習了~~
- 一直想看的幾篇文章,先mark一下
- M. Busta, L. Neumann, and J. Matas. Fastext: Efficient unconstrained scene text detector. In Proc. ICCV, 2015.
- C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proc. CVPR, 2015.
- A. Veit, T. Matera, L. Neumann, J. Matas, and S. Belongie. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arxiv preprint arXiv:1601.07140, 2016.
- X. Yin, X. Yin, K. Huang, and H. Hao. Robust text detection in natural scene images. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 36(5):970– 983, 2014.
- S. Zhang, M. Lin, T. Chen, L. Jin, and L. Lin. Character proposal network for robust text extraction. In Proc. ICASSP, 2016.
-
參考文獻
- R. Girshick. Fast r-cnn. In Proc. ICCV, 2015.
- S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware cnn model. In Proc. ICCV, 2015.