pytesseract庫的安裝

因為用的win10，就直說windows上面的安裝了。其實就是pip安裝就完事了。

$ pip install pytesseract

安裝了這個還不算完，得安裝Tesseract-OCR，安裝這個軟件的時候，因為我們需要識別中文，所以還需要額外安裝中文語言包：

點擊Additional language data(download)旁邊的加號，勾選中文語言包，然后就一路Next了：

最后，你還可以將tesseract.exe加進系統的Path里面。

簡單使用

pytesseract不僅支持英文，還支持很多其他語言，從上面安裝過程中勾選的地方就能看出來，中文，也不例外。

要使用pytesseract，其實很簡單：

from PIL import Image
import pytesseract
image = Image.open('pic2.png')
imtext = pytesseract.image_to_string(image,lang='chi_sim')
print(imtext)

看起來是沒什么問題的，但是一運行。。。。

C:\ProgramData\Anaconda3\python.exe F:/python/pro/Pic_t/test.py
Traceback (most recent call last):
  File "F:/python/pro/Pic_t/test.py", line 5, in <module>
    imtext = pytesseract.image_to_string(image,lang='chi_sim')
  File "C:\ProgramData\Anaconda3\lib\site-packages\pytesseract\pytesseract.py", line 125, in image_to_string
    raise TesseractError(status, errors)
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata')

Process finished with exit code 1

就報錯了，這里看來是中文的語言訓練集路徑不對，google了一下，有大神說使用config屬性：

from PIL import Image
import pytesseract
image = Image.open('pic2.png')
# 指定路徑
tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
imtext = pytesseract.image_to_string(image,lang='chi_sim',config=tessdata_dir_config)
print(imtext)

運行了一下，成功了。。。

另外，lang這個屬性是指定語言的，要是代碼里面不給這個參數，默認是英文，也就是eng。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python3 圖像識別（二） python之圖像識別 python 圖像識別 Python圖像識別（聚類） python實現圖像識別 python 圖像識別的小應用 tesseract 安裝與訓練(圖像識別) 用TensorFlow做圖像識別（python） Python 圖像識別入門篇 Python+opencv圖像識別