python 驗證碼識別庫pytesseract的使用


筆者環境 centos7 python3

pytesseract只是tesseract-ocr的一種實現接口。所以要先安裝tesseract-ocr(大名鼎鼎的開源的OCR識別引擎)。

 

依賴安裝

yum install-y automake autoconf libtool gcc gcc-c++
yum install-y libpng-devel libjpeg-devel libtiff-devel giflib-devel

 

安裝依賴的leptonica庫

wget http://www.leptonica.com/source/leptonica-1.72.tar.gz  
tar -xzvf leptonica-1.72.tar.gz  
cd leptonica-1.72
./configure
make && make install

 

安裝tesseract-ocr

wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.04.00  Tesseract3.04.00.tar.gz
tar -xvf Tesseract3.04.00.tar.gz  
cd tesseract-3.04.00/
./configure
make && make install

 

安裝語言包:

wget https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata #英文默認包
wget https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata  #中文繁體
wget https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata #中文簡體

cp/mv *.traineddata /usr/local/share/tessdata/ #移動下載的包到/usr/local/share/tessdata/ 這個路徑下,也可以手動移動

 

安裝pytesseract:

pip install Pillow 
pip install pytesseract

  

 

至此安裝完成,附上使用方法:

import pytesseract 
from PIL import Imag

image = Image.open("port_img.jpg")
text = pytesseract.image_to_string(image)
print(text)

 

 

參考資料:

https://www.cnblogs.com/dajianshi/p/4932882.html
https://stackoverflow.com/questions/33659458/tesseract-image-issue

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM