Tesseract 介紹
Tesseract是一個開源的文本識別引擎,支持多種語言。4.0.0版本增加了LSTM神經網絡。Tesseract最初是由惠普公司研發,2005年開源。
Tesseract安裝
下載Tesseract的安裝包,地址
安裝過程:
- 選擇常用的數學公式包,其他的語言包可以先不勾選,后續需要時再下載。如果勾選了安裝過程可能極慢甚至中斷。

-
設置環境變量
設置
TESSDATA_PREFIX環境變量到tesseract的data目錄。
選擇語言包:
使用Tesseract進行文本識別時,需要下載相應的語言包,如本文需要對中文進行識別在data下載chi_sim.traineddata放到TESSDATA_PREFIX目錄下。
Tesseract中文識別
Tesseract沒有提供圖形界面,只能通過命令行或者編程語言來調用。
需要注意的是,在使用Tessearct對中文進行識別的時候需要指定使用的語言模型,否則會識別失敗出現一堆亂碼。
-
命令行調用Tesseract
tesseract 1.png result -l chi_sim # -l 參數指定語言模型 -
python調用Tessearct
使用python調用Tessearct需要首先安裝兩個python lib
pip install pillow pip install pytesseract使用python調用Tessearct進行圖片中文識別
# coding = utf-8 from PIL import Image import pytesseract image = Image.open("1.png") # 這里lang='chi_sim'參數很重要,意思是對中文進行識別,如果加這個參數默認應該是英文的,中文識別出來的是亂碼 text = pytesseract.image_to_string(image, lang='chi_sim') print(text) ''' 類似於 919@400 ROK 1X < Aah @ Fix arta ExT, 2% Med Ea BAAR ALFRE RIE tS | Be Be cai | = LRT +R '''
Reference
Python:文本識別拋棄pytesser,直接使用Tesseract - Penguin (polarxiong.com)
tesseract官方文檔:Tesseract User Manual | tessdoc (tesseract-ocr.github.io)
