解决:actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file ..\..\ccutil\tessdatamanager.cp p, line 50


在玩tesseract时,发现如下报错:

这个是因为Tesseract-OCR的版本和chi_sim.traindata字库版本不匹配,由于我的Tesseract-OCR是3.02.02,去google下载字库要翻墙,CSDN要积分,在百度快要无望的情况下,发现了该网站http://www.xue51.com/soft/1594.html#xzdz,才得以解决字库的问题

然后把字库中的chi_sim.traineddata拷贝到Tesseract-OCR\tessdata目录下

在文件的保存位置打开cmd,运行tesseract test.jpg test -l chi_sim命令,就可以在当前位置生成一个叫test的文件

命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] 

imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng

后期有望通过训练来提高识别率

 

 

 

参考文章

https://www.cnblogs.com/congyinew/p/7694204.html

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM