Shape Robust Text Detection with Progressive Scale Expansion Network
PSENET全稱叫做漸進式擴展網絡,是一種由縮放的文本核逐漸擴展為真實文本的算法;主要解決的就是距離很近的文本無法很好區分其邊界的問題。
優點是:檢測任意形狀的文本;檢測距離很近的文本
缺點是:速度較慢,但第二版pan對於速度有很大提升
整體結構簡潔,主要分為FPN提取特征圖階段和漸進擴展階段
第一階段特征圖提取
與FPN基本類似,在得到p2、p3、p4、p5特征圖后,concat起來,用分割的方法逐像素預測文本核(上圖的s1-sn)
文本核是本文算法的核心,下面的漸進擴展就是利用每個文本核進行;
文本核是相對於原始的文本標簽進行一定程度的縮放,上圖中的s1-sn是不同比例的縮放,s1為最原始的文本核也是最小的文本核,sn為最大的文本核
漸進擴展
漸進擴展部分主要目的是從里向外擴展以區分靠近的文本,而不是直接預測
s1-sn為網絡預測的不同縮放比例的文本核,CC為求像素的連通區域,EX為擴展,具體實現在(g),(b)為連通區域結果,(c,d)為每次擴展的結果
以s1,s2擴展為例:其余文本核的操作過程一樣
s1內的元素作為擴展的基礎,不同的文本尋找各自連通元素,
s2內元素作為邊界限定(也就是說s2是個粗邊界,s1擴展得到的要在s2中)
不同的顏色也就是不同個文本對象,若有沖突,按照隊列先進先出的特點擴展。
停止擴展的條件是,sn中的元素沒有連通區域在sn+1中
損失函數
損失函數有多個目標,需要對每個縮放的文本核也進行Loss計算,故
Lc是表示沒有進行縮放時候的損失函數,即相對於原始大小的groundtruth的損失函數,表示的是相對於縮放后的框的損失函數。
采用的是分割常用的dice loss,優點是直接從任務本身出發,類似Iou loss,缺點是loss曲線不穩定不易觀察何時停止。
而且,為了避免計算冗余,對於縮小的核loss計算,Sn中非文本區域不算入loss。