Windows上使用Tesseract-ocr識別藏文、天城體梵文


 

Tesseract-ocr可以OCR識別藏文、梵文,識別為Unicode字符,效果還不錯

 

1、下載Windows安裝版


Windows安裝版地址:
https://github.com/UB-Mannheim/tesseract/wiki

 

 

所有版本下載地址:

https://digi.bib.uni-mannheim.de/tesseract/

推薦使用5.0版本,4.0版本支持API,編程需要4.0版本。

2、下載識別文件包
https://tesseract-ocr.github.io/tessdoc/Data-Files

有普通、best、fast三種模式可選,下載相應traineddata數據。可以下載4.0的數據。

 

 

 

 

 

還有很多其他語言,可以去探索。

注:漢語、日語、韓語等語言,Finereader的OCR效果要比Tesseract-ocr強很多,但是Finereader是收費的。西方語言還可以選用OmniPage,但是OmniPage也是收費的。網上有破解版,但是現在越來越不少找了。



3、配置TESSDATA_PREFIX變量
參考網頁:https://blog.csdn.net/weixin_41982136/article/details/82747499

如將traineddata拷貝至C:\Program Files\Tesseract-OCR\tessdata,則將TESSDATA_PREFIX設置為C:\Program Files\Tesseract-OCR\tessdata

 

 


4、在命令行下使用

 

 

參考網頁:

https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

識別藏文

tesseract 藏文圖片  保存地址  -l bod

識別梵文

tesseract 梵文圖片  保存地址  -l san


cmd示例:

進入安裝目錄
cd C:\Program Files\Tesseract-OCR

測試語言安裝是否正確,有哪些訓練語言
tesseract --list-langs

識別一張圖片
tesseract tib_001.jpg D:\tib_001 -l bod

經測試,識別鉛字印刷的圖片,效果還可以。

經過優化處理的圖片,可以顯著提高識別率,參見:

https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

處理圖片推薦使用老馬軟件ComicEnhancerPro。

老馬的博客地址:https://www.cnblogs.com/stronghorse/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM