Tesseract是開源的OCR引擎,可以識別的圖片里的文字,支持unicode(UTF-8)編碼,100多種語言,需要下載相應語言的訓練數據。
安裝:
有兩種方法,一種是通過編譯源碼,比較麻煩。我使用的是另外一種方法,在windows下,使用編譯好的二進制文件。
安裝文件下載地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/
最新訓練數據下載地址:https://github.com/tesseract-ocr/tessdata
建議使用穩定的3.0版本,我試用的4.0開發版報錯。
注意選中Registry settings,也就是把Path和TESSDATA_PREFIX環境變量自動配置好。
如果要識別中文,就把中文訓練數據選中。
使用:
安裝完成之后,就可以在命令行下執行識別圖片了。
命令行下執行:
1 tesseract test.png stdout
都可以識別。
但是識別中文或者是中英文混合的時候,識別率不高。
tesseract cs.png stdout -l eng+chi_sim
Python封裝模塊pytesseract:
tesseract有很多語言的封裝包,這里只介紹下python的pytesseract。
源碼地址:https://github.com/madmaze/pytesseract
可以直接使用pip安裝:
pip install pytesseract
使用示例:
from PIL import Image import pytesseract print(pytesseract.image_to_string(Image.open('test.png'))) print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))
注意事項:
需要先安裝好PIL和tesseract,並且可以在命令行里可以使用。