Tesseract-ocr可以OCR識別藏文、梵文,識別為Unicode字符,效果還不錯
1、下載Windows安裝版
Windows安裝版地址:
https://github.com/UB-Mannheim/tesseract/wiki
所有版本下載地址:
https://digi.bib.uni-mannheim.de/tesseract/
推薦使用5.0版本,4.0版本支持API,編程需要4.0版本。
2、下載識別文件包
https://tesseract-ocr.github.io/tessdoc/Data-Files
有普通、best、fast三種模式可選,下載相應traineddata數據。可以下載4.0的數據。
還有很多其他語言,可以去探索。
注:漢語、日語、韓語等語言,Finereader的OCR效果要比Tesseract-ocr強很多,但是Finereader是收費的。西方語言還可以選用OmniPage,但是OmniPage也是收費的。網上有破解版,但是現在越來越不少找了。
3、配置TESSDATA_PREFIX變量
參考網頁:https://blog.csdn.net/weixin_41982136/article/details/82747499
如將traineddata拷貝至C:\Program Files\Tesseract-OCR\tessdata,則將TESSDATA_PREFIX設置為C:\Program Files\Tesseract-OCR\tessdata
4、在命令行下使用
參考網頁:
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html
識別藏文
tesseract 藏文圖片 保存地址 -l bod
識別梵文
tesseract 梵文圖片 保存地址 -l san
cmd示例:
進入安裝目錄
cd C:\Program Files\Tesseract-OCR
測試語言安裝是否正確,有哪些訓練語言
tesseract --list-langs
識別一張圖片
tesseract tib_001.jpg D:\tib_001 -l bod
經測試,識別鉛字印刷的圖片,效果還可以。
經過優化處理的圖片,可以顯著提高識別率,參見:
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html
處理圖片推薦使用老馬軟件ComicEnhancerPro。
老馬的博客地址:https://www.cnblogs.com/stronghorse/