1.工具
1.tesseract 4.1.1下載
https://digi.bib.uni-mannheim.de/tesseract/
2.訓練工具
https://github.com/serak/serak-tesseract-trainer
3.Box文件編輯工具
https://github.com/scotts48/tesseract-box-editor.git
4.Tiff合並工具
https://github.com/Darkseal/MergeTIFF.git
2.步驟
准備:
下載代碼編譯訓練工具,box編輯工具和tiff合並工具.
步驟:
1.准備要訓練的圖片文件,保存成tiff
2.用Tiff合並工具,將tiff圖片文件合並成一個文件
3.配置訓練工具,包括配置tesseract的路徑和語言名稱.
4.使用訓練工具步驟1,添加圖片並為tiff圖片生成box文件
第一次生成box時,使用create new box 按鈕,使用系統默認的語言識別圖片並生成Box文件,
當我們自己已經有訓練好的對應語言的訓練數據時,可以用bootstrapping a new character 按鈕,用自己的識別數據識別圖片來生成Box,
5.使用box文件編輯工具,編輯Box文件
這里主要是修改自動生成的文字邊框和識別錯誤的字符
6.使用訓練工具的步驟2,生成字體屬性文件
7.使用訓練工具的步驟3,4,進行訓練,並合並成最終結果
3.說明
serak-tesseract-trainer 訓練工具,主要就是對tesseract的命令行的界面話,直接使用命令行訓練其實也是可以的,網上這種介紹很多,比如下面這篇
https://www.cnblogs.com/mtcnn/p/9411786.html
好多資料用的box編輯器都是jTessBoxEditor ,這個需要下載java環境,我懶得下載安裝,所以才找的tesseract-box-editor這個工具.