解決:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file ..\..\ccutil\tessdatamanager.cp p, line 50


在玩tesseract時,發現如下報錯:

這個是因為Tesseract-OCR的版本和chi_sim.traindata字庫版本不匹配,由於我的Tesseract-OCR是3.02.02,去google下載字庫要翻牆,CSDN要積分,在百度快要無望的情況下,發現了該網站http://www.xue51.com/soft/1594.html#xzdz,才得以解決字庫的問題

然后把字庫中的chi_sim.traineddata拷貝到Tesseract-OCR\tessdata目錄下

在文件的保存位置打開cmd,運行tesseract test.jpg test -l chi_sim命令,就可以在當前位置生成一個叫test的文件

命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] 

imagename為目標圖片文件名,需加格式后綴;outputbase是轉換結果文件名;lang是語言名稱(在Tesseract-OCR中tessdata文件夾可看到以eng開頭的語言文件eng.traineddata),如不標-l eng則默認為eng

后期有望通過訓練來提高識別率

 

 

 

參考文章

https://www.cnblogs.com/congyinew/p/7694204.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM