Windows上使用Tesseract-ocr識別藏文、天城體梵文

本文轉載自查看原文 2020-05-17 23:48 1164

Tesseract-ocr可以OCR識別藏文、梵文，識別為Unicode字符，效果還不錯

1、下載Windows安裝版

Windows安裝版地址：
https://github.com/UB-Mannheim/tesseract/wiki

所有版本下載地址：

https://digi.bib.uni-mannheim.de/tesseract/

推薦使用5.0版本，4.0版本支持API，編程需要4.0版本。

2、下載識別文件包
https://tesseract-ocr.github.io/tessdoc/Data-Files

有普通、best、fast三種模式可選，下載相應traineddata數據。可以下載4.0的數據。

還有很多其他語言，可以去探索。

注：漢語、日語、韓語等語言，Finereader的OCR效果要比Tesseract-ocr強很多，但是Finereader是收費的。西方語言還可以選用OmniPage，但是OmniPage也是收費的。網上有破解版，但是現在越來越不少找了。

3、配置TESSDATA_PREFIX變量
參考網頁：https://blog.csdn.net/weixin_41982136/article/details/82747499

如將traineddata拷貝至C:\Program Files\Tesseract-OCR\tessdata，則將TESSDATA_PREFIX設置為C:\Program Files\Tesseract-OCR\tessdata

4、在命令行下使用

參考網頁：

https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

識別藏文

tesseract 藏文圖片保存地址 -l bod

識別梵文

tesseract 梵文圖片保存地址 -l san

cmd示例：

進入安裝目錄
cd C:\Program Files\Tesseract-OCR

測試語言安裝是否正確，有哪些訓練語言
tesseract --list-langs

識別一張圖片
tesseract tib_001.jpg D:\tib_001 -l bod

經測試，識別鉛字印刷的圖片，效果還可以。

經過優化處理的圖片，可以顯著提高識別率，參見：

https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

處理圖片推薦使用老馬軟件ComicEnhancerPro。

老馬的博客地址：https://www.cnblogs.com/stronghorse/

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python tesseract-ocr 圖文識別（windows基礎環境搭建）圖片文字OCR識別-tesseract-ocr tesseract-ocr的安裝及使用 Tesseract-OCR 4.1.0 安裝和使用— windows及CentOS tesseract-OCR識別漢字及訓練 Tesseract-OCR字符識別簡介 python使用tesseract-ocr完成驗證碼識別（模型訓練和使用部分） python使用tesseract-ocr完成驗證碼識別（安裝部分） Tesseract-ocr c#文字識別簡單入門 tesseract-ocr 識別中文掃描圖片