tesseract-ocr

本文轉載自查看原文 2018-01-17 23:41 2384

標簽：pytesseract.pytesseract winerror

其實也不算自己寫的，在網上東找找西找找，合一塊問題就解決了。

和諧社會的程序猿不都這樣么。。

上正菜。

先安裝pillow

windows 10上面先打開命令提示符：

注：不知道為啥我裝python 3.5的時候蛋疼的選擇了管理員安裝，所以運行命令提示符的話也需要管理員權限。怎么操作就不說了。

1. 安裝Pillow

2. 安裝pytesseract

3. 再安裝tesseract-ocr，注意這個很關系是文字識別的核心程序。

報錯了，看來前面太順了，python看不過去了。

至於報錯的信息：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

讓我去這個網站裝 Microsoft Visual C++ 14.0相關的東東，N N D 我打開網站，下載之后安裝，看所需要的空間 4GB。玩不起，還是算了，我是菜鳥，太多的東西不懂，所以不要為難我。

所以找其它方法裝tesseract-ocr

這里面有tesseract-ocr for windows的安裝方法。安裝步驟我們強大的度娘就有：

http://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html

安裝時要什么字庫自己選。

懶人連接：https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

MAC LINUX WINDOWS 各版本下載

https://github.com/tesseract-ocr/tesseract/wiki

相關的程序基本安裝完了。

開始做一個小程序參考圖如下：

我是在pycharm中練習的，代碼如下：

from PIL import Image
import pytesseract
img = Image.open()
text = pytesseract.image_to_string(img)
print (text)

注：我把上面的參考圖命名為22.png了，因為我太2了

裝好幾個程序了，看看效果運行：

"C:\Program Files\Python35\python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 122, in image_to_string
    config=config)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 46, in run_tesseract
    proc = subprocess.Popen(command, stderr=subprocess.PIPE)
  File "C:\Program Files\Python35\lib\subprocess.py", line 676, in __init__
    restore_signals, start_new_session)
  File "C:\Program Files\Python35\lib\subprocess.py", line 957, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系統找不到指定的文件。

M D 找不到指定文件，到這里我也不懂，繼續百度。然后找到的文章說要更改 pytesseract.py這個文件的一些配置（第二個安裝的模塊）。因為這里面配置有一些相關於tesseract-ocr（即第三個安裝的程序）

更改如下：

在pycharm中如圖打開pytesseract.py：

在右邊打開的窗口找到：tesseract_cmd 這行代碼：

這一行注釋掉：因為pytesseract.py文件內默認的tesseract-ocr的主程序環境變量不知道怎么變的，到了windows 下面就不能運行，上面執行的報錯代碼中找不到文件，其實就是找不到主程序。所以注釋掉原來的，我們再新加一行。上面的路徑就是你安裝Tesseract-ocr程序時的路徑：

#tesseract_cmd = ‘tesseract‘

新增加一行：

tesseract_cmd = r‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe‘

保存，運行我們寫的代碼，看看效果。

又報錯了，傷不起

"C:\Program Files\Python35\python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 125, in image_to_string
    raise TesseractError(status, errors)
pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \\Program Files (x86)\Tesseract-OCR\\eng.traineddata‘)
Process finished with exit code 1

這次報的錯，貌似是找不到tesseract-ocr的配置文件。看來還得改pytesseract.py文件。

於是又從網上找了一些東西，繼續更改。

如圖