4種基於像素分割的文本檢測算法


摘要:文本檢測是文本讀取識別的第一步,對后續的文本識別有着重大的影響。一般場景下,可以通過對通用目標檢測算法進行配置修改,來實現對文本行的檢測定位。本文主要介紹基於像素分割的文本檢測算法。

本文分享自華為雲社區《技術綜述十四:彎曲文本檢測算法(二)》,作者: 我想靜靜 。

背景介紹

文本檢測是文本讀取識別的第一步,對后續的文本識別有着重大的影響。一般場景下,可以通過對通用目標檢測算法進行配置修改,來實現對文本行的檢測定位。然而在彎曲文字場景,通用目標檢測算法無法實現對文字邊框的精准表述。因此,近年來很多學術論文都提出了新穎的解決場景文字檢測的算法,主要包括兩種思路:1. 基於區域重組的文本檢測;2. 基於像素分割的文本檢測。本文主要介紹基於像素分割的文本檢測算法。

PSENet

PSENet 是一個純分割的文本檢測方法,該方法的初衷是為了有效地分離任意形狀的相鄰文本。它通過預測多個尺度的文本分割圖來實現這個目的。具體如圖1所示,這里以預測3個尺度的分割圖為例,即(a),(e),(f)。后處理的流程如下:首先從最小尺度的分割圖(a)給各個連接組件分配標簽,然后將(a)向四周擴張從而合並(e)中的被預測為文本的像素。同理,合並(f)中的文本像素。

圖1. PSENet 漸進式擴展過程

這種漸進地、從小到大合並相鄰文本像素的方法能有效地分離相鄰文本實例,但是付出的代價就是速度很慢,通過C++能緩解速度慢的問題。

PAN

PAN主要是針對現有的文本檢測方法速度太慢,不能實現工業化應用而設計的。該方法從兩方面來提升文本檢測的速度。第一,從網絡結構上,該方法使用了輕量級的ResNet18作為backbone。但ResNet18的特征提取能力不夠強,並且得到的感受野不夠大。因此,進一步提出了輕量級的特征增強模塊和特征融合模塊,該特征增強模塊類似於FPN,且可以多個級聯在一起。特征增強模塊在只增加少量的計算量的前提下有效地增強了模型的特征提取能力,並增大了感受野。第二,從后處理上提升速度。該方法通過預測文本區域,文本中心區域(kernel),以及像素間的相似度來檢測文本。使用聚類的思想,kernel是聚類中心,文本像素是需要聚類的樣本。為了聚類,屬於同一個文本實例的kernel和對應的像素的相似度向量之間的距離應該盡可能小,不同kernels的相似度向量的距離應該遠。在推理階段,首先根據kernel得到連接組件,然后沿着四周合並與kernel的距離小於閾值d的像素。該方法在實現高精度的同時還取得了實時的文本檢測速度.

圖2. PAN網絡結構

MSR

MSR是為了解決多尺度文本檢測困難而提出來的。與別的文本檢測方法不同,該方法使用了多個一樣的backbone,並將輸入圖像下采樣到多個尺度之后連同原圖一起輸入到這些backbone,最后不同的backbone的特征經過上采樣之后進行融合,從而捕獲了豐富的多尺度特征。網絡最后預測文本中心區域、文本中心區域每個點到最近的邊界點的x坐標偏移和y坐標偏移。在推理階段,文本中心區域的每個點根據預測的x/y坐標偏移得到對應的邊界點,最終的文本輪廓是包圍所有邊界點的輪廓。

圖3. MSR算法框架

圖4:MSR網絡結構

該方法的優點是對於多尺度文本有較強的檢測能力,但是由於該方法定義的文本中心區域只是文本區域在上下方向上進行了縮小,而左右方向沒有縮小,因此無法有效分離水平上相鄰的文本。

DB

DB主要是針對現有的基於分割的方法需要使用閾值進行二值化處理而導致后處理耗時且性能不夠好而提出的。該方法很巧妙地設計了一個近似於階躍函數的二值化函數,使得分割網絡在訓練的時候能學習文本分割的閾值。此外,在推理階段,該方法根據文本中心區域的面積和周長直接擴張一定的比例得到最終的文本輪廓,這也進一步提升了該方法的推理速度。整體上而言,DB對基於像素分割的文本檢測方法提供了一個很好的算法框架,解決了此類算法閾值配置的難題,同時又有較好的兼容性--開發者可以針對場景難點對backbone進行改造優化,達到一個較好的性能和精度的平衡。

圖5. DB網絡結構

基於像素分割的算法能精准地預測出任意形狀的文本實例,然后對於重疊文本區域,很難能將不同實例區分開來。要真正將該系列算法落地,滿足業務需求,未來需解決重疊文本的問題。

Reference

[1]. Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9336-9345.

[2]. Wang W, Xie E, Song X, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 8440-8449.

[3]. Xue C, Lu S, Zhang W. Msr: Multi-scale shape regression for scene text detection[J]. arXiv preprint arXiv:1901.02596, 2019.

[4]. Liao M, Wan Z, Yao C, et al. Real-time scene text detection with differentiable binarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11474-11481.

想了解更多的AI技術干貨,歡迎上華為雲的AI專區,目前有AI編程Python等六大實戰營(http://su.modelarts.club/qQB9)供大家免費學習。

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM