文本算法-Ctpn(用於進行文本框的提取)


CTPN是CNN+RNN的結合,CNN主要是用於文本框的提取,RNN將中間層的輸入結果進行改變,保證文本框的上下文具有聯系

網絡結構 

網絡結構說明: 首先使用VGG,將原來圖片的大小,縮小為1/16,因此每一個點輸出結果是2*10概率和2*10的位置信息 

標簽制作: 構造16個像素,從上到下構造anchor,根據真實標簽來構造reg和cls的標簽 

損失值構造:

損失值說明: 第一個損失值使用的是預測框的概率損失值,第二個損失值用於計算與中心點的差距以及選框的高度reg,第三個損失值用於表示選框左右的位置

 

Ctpn的predict步驟 

第一步: 通過上述的網絡,獲得輸出的cls和reg結果,根據結果進行閾值的篩選,保留可能存在物體的選框,根據cls得分排序,使用nms去除重復框,作為最終每個字的選框 

第二步: 這里將每個字的選框進行連接,最終獲得每一行的大選框 

 

代碼說明:將在明天進行展示 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM