筆者環境:Arch Linux
1. 系統安裝teseract
和英文中文語言包
arch下安裝十分簡單,pacman會自動幫我們解決所有依賴
sudo pacman -S tesseract tesseract-data-eng tesseract-data-chi_sim
2. python安裝必要的第三方庫
sudo pip install pillow
sudo pip install pytesseract
2. 代碼展示
分別識別中文,英文,數字
我測試時識別的圖片在代碼同一目錄下的img目錄下
import os
import pytesseract
from PIL import Image
BASE_DIR = os.path.dirname(__file__)
zh_img = os.path.join(BASE_DIR, "img/zh_demo.png")
en_img = os.path.join(BASE_DIR, "img/en_demo.png")
num_img = os.path.join(BASE_DIR, "img/num_demo.png")
zh = pytesseract.image_to_string(Image.open(zh_img), lang="chi_sim").replace(" ","") # 中文識別有時不是特別准確,識別結果中間有空格
en = pytesseract.image_to_string(Image.open(en_img)) # 也只有識別規矩的英文和數字了,可以用來破解低級驗證碼
num = pytesseract.image_to_string(Image.open(num_img))
print(zh) # 山重水覆疑無路,柳暗花明又一村
print(en) # kainhuck
print(num) # 0771-5785703