[轉]Tesseract 3.02中文字庫訓練

本文轉載自查看原文 2014-08-23 10:14 6440 雜七雜八

下載chi_sim.traindata字庫
下載tesseract-ocr-setup-3.02.02.exe
下載地址：http://code.google.com/p/tesseract-ocr/downloads/list
下載jTessBoxEditor用於修改box文件
下載地址：http://download.csdn.net/detail/a443475601/5896893 里面自帶java運行庫，安裝后然后啟動命令行 java -jar jTessBoxEditor.jar即可打開

為了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
比如我們要訓練自定義字庫 image 字體名MyFont
那么我們把tif文件重命名 image.MyFont.exp0.tif

下面開始訓練字庫：
1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
該步驟會生成一個image.MyFont.exp0.box文件
把tif文件和box文件放在同一目錄，用jTessBoxEditor.jar打開tif文件，然后根據實際情況修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
該步驟生成一個image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
該步驟生成一個unicharset文件
4、新建一個font_properties文件
里面內容寫入MyFont 0 0 0 0 0 表示默認普通字體
5、運行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上image.
7、執行combine_tessdata image.
然后把image.traineddata放到tessdata目錄
8、用新的字庫對圖片進行分析
tesseract test.tif output -l image

----------------------------------------------

轉自[

a443475601的專欄

]

----------------------------------------------

后記1：當在進行新語言訓練時，應在jTessBoxEditor中將每個字符或字的邊框單獨修改，不能兩個字用一個邊框如你好，那樣將導致Tesseract識別不出來！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract 3.02中文字庫訓練 Tesseract訓練中文字體識別添加中文字庫 Tesseract-OCR識別中文與訓練字庫實例 Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果 emWin中文字庫顯示詳細教程（簡單直接） (轉)在CentOS中修改中文字符集深入學習Tesseract-ocr識別中文並訓練字庫的方法 Python中怎么識別中文字符？ WP8_UTF8 to GB2312轉碼 (url網址中帶中文字符的處理)