CTPN是CNN+RNN的結合,CNN主要是用於文本框的提取,RNN將中間層的輸入結果進行改變,保證文本框的上下文具有聯系
網絡結構
網絡結構說明: 首先使用VGG,將原來圖片的大小,縮小為1/16,因此每一個點輸出結果是2*10概率和2*10的位置信息
標簽制作: 構造16個像素,從上到下構造anchor,根據真實標簽來構造reg和cls的標簽
損失值構造:
損失值說明: 第一個損失值使用的是預測框的概率損失值,第二個損失值用於計算與中心點的差距以及選框的高度reg,第三個損失值用於表示選框左右的位置
Ctpn的predict步驟
第一步: 通過上述的網絡,獲得輸出的cls和reg結果,根據結果進行閾值的篩選,保留可能存在物體的選框,根據cls得分排序,使用nms去除重復框,作為最終每個字的選框
第二步: 這里將每個字的選框進行連接,最終獲得每一行的大選框
代碼說明:將在明天進行展示