PSENET閱讀筆記


Shape Robust Text Detection with Progressive Scale Expansion Network

PSENET全稱叫做漸進式擴展網絡,是一種由縮放的文本核逐漸擴展為真實文本的算法;主要解決的就是距離很近的文本無法很好區分其邊界的問題。

優點是:檢測任意形狀的文本;檢測距離很近的文本

缺點是:速度較慢,但第二版pan對於速度有很大提升

整體結構簡潔,主要分為FPN提取特征圖階段和漸進擴展階段

第一階段特征圖提取

 

 與FPN基本類似,在得到p2、p3、p4、p5特征圖后,concat起來,用分割的方法逐像素預測文本核(上圖的s1-sn)

文本核是本文算法的核心,下面的漸進擴展就是利用每個文本核進行;

文本核是相對於原始的文本標簽進行一定程度的縮放,上圖中的s1-sn是不同比例的縮放,s1為最原始的文本核也是最小的文本核,sn為最大的文本核

漸進擴展

漸進擴展部分主要目的是從里向外擴展以區分靠近的文本,而不是直接預測

 

 s1-sn為網絡預測的不同縮放比例的文本核,CC為求像素的連通區域,EX為擴展,具體實現在(g),(b)為連通區域結果,(c,d)為每次擴展的結果

以s1,s2擴展為例:其余文本核的操作過程一樣
s1內的元素作為擴展的基礎,不同的文本尋找各自連通元素,
s2內元素作為邊界限定(也就是說s2是個粗邊界,s1擴展得到的要在s2中)

不同的顏色也就是不同個文本對象,若有沖突,按照隊列先進先出的特點擴展。
停止擴展的條件是,sn中的元素沒有連通區域在sn+1中

損失函數

損失函數有多個目標,需要對每個縮放的文本核也進行Loss計算,故

 

 Lc是表示沒有進行縮放時候的損失函數,即相對於原始大小的groundtruth的損失函數,L_{s}表示的是相對於縮放后的框的損失函數。

采用的是分割常用的dice loss,優點是直接從任務本身出發,類似Iou loss,缺點是loss曲線不穩定不易觀察何時停止。

 

而且,為了避免計算冗余,對於縮小的核loss計算,Sn中非文本區域不算入loss。 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM