tesseract 4.1.1文字識別訓練過程及工具(Vs,C#)


1.工具

  1.tesseract 4.1.1下載

    https://digi.bib.uni-mannheim.de/tesseract/

  2.訓練工具

    https://github.com/serak/serak-tesseract-trainer

  3.Box文件編輯工具

    https://github.com/scotts48/tesseract-box-editor.git

  4.Tiff合並工具

    https://github.com/Darkseal/MergeTIFF.git

2.步驟

  准備:

    下載代碼編譯訓練工具,box編輯工具和tiff合並工具.

  步驟:

  1.准備要訓練的圖片文件,保存成tiff

  2.用Tiff合並工具,將tiff圖片文件合並成一個文件

  

 

 

 

  3.配置訓練工具,包括配置tesseract的路徑和語言名稱.

    

 

  4.使用訓練工具步驟1,添加圖片並為tiff圖片生成box文件

    第一次生成box時,使用create new box 按鈕,使用系統默認的語言識別圖片並生成Box文件,

    當我們自己已經有訓練好的對應語言的訓練數據時,可以用bootstrapping a new character 按鈕,用自己的識別數據識別圖片來生成Box,

  

 

 

 

  5.使用box文件編輯工具,編輯Box文件

  這里主要是修改自動生成的文字邊框和識別錯誤的字符

 

 

 

  6.使用訓練工具的步驟2,生成字體屬性文件

  7.使用訓練工具的步驟3,4,進行訓練,並合並成最終結果

3.說明

  serak-tesseract-trainer 訓練工具,主要就是對tesseract的命令行的界面話,直接使用命令行訓練其實也是可以的,網上這種介紹很多,比如下面這篇

  https://www.cnblogs.com/mtcnn/p/9411786.html

  好多資料用的box編輯器都是jTessBoxEditor ,這個需要下載java環境,我懶得下載安裝,所以才找的tesseract-box-editor這個工具.

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM