tesseract 4.1.1文字識別訓練過程及工具(Vs,C#)

本文轉載自查看原文 2021-08-23 10:28 137 C#/ 文字識別/ 文字識別OCR/ OCR

1.工具

　　　　https://digi.bib.uni-mannheim.de/tesseract/

　　　　https://github.com/serak/serak-tesseract-trainer

　　　　https://github.com/scotts48/tesseract-box-editor.git

　　　　https://github.com/Darkseal/MergeTIFF.git

　　　　下載代碼編譯訓練工具,box編輯工具和tiff合並工具.

　　　　第一次生成box時,使用create new box 按鈕,使用系統默認的語言識別圖片並生成Box文件,

　　　　當我們自己已經有訓練好的對應語言的訓練數據時,可以用bootstrapping a new character 按鈕,用自己的識別數據識別圖片來生成Box,

　　這里主要是修改自動生成的文字邊框和識別錯誤的字符

　　serak-tesseract-trainer 訓練工具,主要就是對tesseract的命令行的界面話,直接使用命令行訓練其實也是可以的,網上這種介紹很多,比如下面這篇

　　https://www.cnblogs.com/mtcnn/p/9411786.html

　　好多資料用的box編輯器都是jTessBoxEditor ,這個需要下載java環境,我懶得下載安裝,所以才找的tesseract-box-editor這個工具.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract識別圖片提取文字&字庫訓練 Tesseract-ocr c#文字識別簡單入門 Windows下訓練Tesseract實現識別圖片中的文字（原）torch的訓練過程 Android文字識別之tesseract的使用 Tesseract OCR 圖片文字識別 Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果 C#圖片文字識別 yolov3訓練過程參數解析可視化pytorch訓練過程