源碼地址:https://github.com/eragonruan/text-detection-ctpn
該地址提供了 CTPN 的 tf 版本的實現,代碼文檔寫得很詳細,issue 里面也幫助解決了不少問題。
下面簡單記錄在復現訓練的時候遇到的一些問題:
1、首先,必要的環境配置
2、可以嘗試用已有的訓練好的模型,運行 demo.py 測試一些圖片
3、訓練數據准備,按照作者的要求,將他已經准備好的數據(一定的格式)拷貝到data/ 目錄下面,然后將對應的名字命名正確,能找到對應的文件
4、訓練時, _image_summary 的位置報錯,是作者為了提醒我們,用不同的TF版本,最終所用的函數名是有區別的,采用合適的版本即可
5、最后 VGG_imagenet.npy 文件時空 的,需要下載預訓練好的model,放在指定的目錄下面,來完成訓練
總之,需要細心,報錯之后按照錯誤,在git上或者Google 上搜索,總會找到解決方法。
tf 不同版本的問題:https://github.com/CharlesShang/TFFRCNN/issues/25 (作者的代碼中也有寫到)--- (tf.image_summary should be renamed to tf.summary.image;)
https://github.com/eragonruan/text-detection-ctpn/issues/198 (VGG_imagenet.npy model 不可用)
demo中用到的預訓練好的模型放在checckpoints 目錄中