在玩tesseract時,發現如下報錯:
這個是因為Tesseract-OCR的版本和chi_sim.traindata字庫版本不匹配,由於我的Tesseract-OCR是3.02.02,去google下載字庫要翻牆,CSDN要積分,在百度快要無望的情況下,發現了該網站http://www.xue51.com/soft/1594.html#xzdz,才得以解決字庫的問題
然后把字庫中的chi_sim.traineddata拷貝到Tesseract-OCR\tessdata目錄下
在文件的保存位置打開cmd,運行tesseract test.jpg test -l chi_sim命令,就可以在當前位置生成一個叫test的文件
命令格式: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename為目標圖片文件名,需加格式后綴;outputbase是轉換結果文件名;lang是語言名稱(在Tesseract-OCR中tessdata文件夾可看到以eng開頭的語言文件eng.traineddata),如不標-l eng則默認為eng
后期有望通過訓練來提高識別率
參考文章
https://www.cnblogs.com/congyinew/p/7694204.html