正確使用方法
1.tesseract-orc安裝
tesseract-ocr-setup-3.05.00dev.exe下載
2.pytesseract
pip install pytesseract
3.設置 tesseract-orc路徑
- 將
C:\Program Files (x86)\Tesseract-OCR
添加到系統路徑(路徑因安裝過程而異) - 修改pytesseract.py文件
tesseract_cmd = "C:/Program Files (x86)/Tesseract-OCR/tesseract.exe" - 設置環境變量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
#coding = utf -8
from PIL import Image
import pytesseract
im = Image.open("2.png")
text = pytesseract.image_to_string((im), lang='chi_sim')
print (text)
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
#如果PATH中沒有tesseract可執行文件,請包含以下內容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
#示例tesseract_cmd = r'C:\ Program Files(x86)\ Tesseract-OCR \ tesseract'
#簡單的圖像串
print(pytesseract.image_to_string(Image.open('test.png')))
#法語文本圖像串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))
#獲取包圍盒估計
print(pytesseract.image_to_boxes(Image.open('test.png')))
#獲取詳細的數據,包括盒,置信線和頁碼
print(pytesseract.image_to_data(Image.open('test.png')))
#獲取有關方向和腳本檢測信息
print(pytesseract.image_to_osd(Image.open('test.png'))
#為了繞過內部圖像的轉換,只需用相對或絕對圖像路徑
#注:如果你不使用支持的圖像,正方體將返回錯誤
print(pytesseract.image_to_string('test.png'))