下載chi_sim.traindata字庫
下載tesseract-ocr-setup-3.02.02.exe
下載地址:http://code.google.com/p/tesseract-ocr/downloads/list
下載jTessBoxEditor用於修改box文件
下載地址:http://download.csdn.net/detail/a443475601/5896893 里面自帶java運行庫,安裝后 然后啟動命令行 java -jar jTessBoxEditor.jar即可打開
為了方便 tif文面命名格式[lang].[fontname].exp[num].tif
lang是語言 fontname是字體
比如我們要訓練自定義字庫 image 字體名MyFont
那么我們把tif文件重命名 image.MyFont.exp0.tif
下面開始訓練字庫:
1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
該步驟會生成一個image.MyFont.exp0.box文件
把tif文件和box文件放在同一目錄,用jTessBoxEditor.jar打開tif文件,然后根據實際情況修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
該步驟生成一個image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
該步驟生成一個unicharset文件
4、新建一個font_properties文件
里面內容寫入MyFont 0 0 0 0 0 表示默認普通字體
5、運行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個文件前面都加上image.
7、執行combine_tessdata image.
然后把image.traineddata放到tessdata目錄
8、用新的字庫對圖片進行分析
tesseract test.tif output -l image
----------------------------------------------
轉自[
]
----------------------------------------------
后記1:當在進行新語言訓練時,應在jTessBoxEditor中將每個字符或字的邊框單獨修改,不能兩個字用一個邊框如你好,那樣將導致Tesseract識別不出來!
