tesseract-ocr


標簽:pytesseract.pytesseract   winerror   

其實也不算自己寫的,在網上東找找西找找,合一塊問題就解決了。

和諧社會的程序猿不都這樣么。。技術分享

上正菜。

先安裝pillow

windows 10上面先打開命令提示符:

注:不知道為啥我裝python 3.5的時候蛋疼的選擇了管理員安裝,所以運行命令提示符的話也需要管理員權限。怎么操作就不說了。

1. 安裝Pillow

技術分享

2. 安裝pytesseract

技術分享

3. 再安裝tesseract-ocr,注意這個很關系是文字識別的核心程序。

 

技術分享

報錯了,看來前面太順了,python看不過去了。

至於報錯的信息:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

讓我去這個網站裝   Microsoft Visual C++ 14.0相關的東東,N N D 我打開網站,下載之后安裝,看所需要的空間 4GB。玩不起,還是算了,我是菜鳥,太多的東西不懂,所以不要為難我。

所以找其它方法裝tesseract-ocr

這里面有tesseract-ocr for windows的安裝方法。安裝步驟我們強大的度娘就有:

http://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html 

安裝時要什么字庫自己選。

 

懶人連接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

MAC  LINUX  WINDOWS 各版本下載

https://github.com/tesseract-ocr/tesseract/wiki

 

相關的程序基本安裝完了。

開始做一個小程序參考圖如下:

技術分享

我是在pycharm中練習的,代碼如下:

from PIL import Image
import pytesseract
img = Image.open()
text = pytesseract.image_to_string(img)
print (text)

注:我把上面的參考圖命名為22.png了,因為我太2了

裝好幾個程序了,看看效果運行:

"C:\Program Files\Python35\python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 122, in image_to_string
    config=config)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 46, in run_tesseract
    proc = subprocess.Popen(command, stderr=subprocess.PIPE)
  File "C:\Program Files\Python35\lib\subprocess.py", line 676, in __init__
    restore_signals, start_new_session)
  File "C:\Program Files\Python35\lib\subprocess.py", line 957, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系統找不到指定的文件。

M D 找不到指定文件,到這里我也不懂,繼續百度。然后找到的文章說要更改 pytesseract.py這個文件的一些配置(第二個安裝的模塊)。因為這里面配置有一些相關於tesseract-ocr(即第三個安裝的程序)

更改如下:

在pycharm中如圖打開pytesseract.py:

技術分享

在右邊打開的窗口找到:tesseract_cmd 這行代碼:

這一行注釋掉:因為pytesseract.py文件內默認的tesseract-ocr的主程序環境變量不知道怎么變的,到了windows 下面就不能運行,上面執行的報錯代碼中找不到文件,其實就是找不到主程序。所以注釋掉原來的,我們再新加一行。上面的路徑就是你安裝Tesseract-ocr程序時的路徑:

#tesseract_cmd = ‘tesseract‘

新增加一行:

tesseract_cmd = r‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe‘

技術分享

保存,運行我們寫的代碼,看看效果。

技術分享

又報錯了,傷不起

"C:\Program Files\Python35\python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:\Program Files\Python35\lib\site-packages\pytesseract\pytesseract.py", line 125, in image_to_string
    raise TesseractError(status, errors)
pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \\Program Files (x86)\Tesseract-OCR\\eng.traineddata‘)
Process finished with exit code 1

這次報的錯,貌似是找不到tesseract-ocr的配置文件。看來還得改pytesseract.py文件。

於是又從網上找了一些東西,繼續更改。

如圖

技術分享

保存,接着運行程序:

技術分享

啥啥成功了,雖然識別多了一個小數點,不過至少不報錯了。

 

就試到這里了,多的我也不會。

 

 

以上大部分內容都是來自網上。我不過做下整理。

那里說錯了,莫怪,我了解的也不多。

 

 

本文出自 “學習之路” 博客,請務必保留此出處http://13136244.blog.51cto.com/13126244/1972816

python3 for win10X64下Pillow,pytesserac和tesseract文字識別簡單配置。

標簽:pytesseract.pytesseract   winerror   

原文地址:http://13136244.blog.51cto.com/13126244/1972816

Tesseract-OCR的簡單使用與訓練:https://www.cnblogs.com/cnlian/p/5765871.html

Tesseract 3.02中文字庫訓練----整理:http://blog.csdn.net/liulina603/article/details/45071485

Tesseract-OCR識別中文與訓練字庫實例:https://www.cnblogs.com/wzben/p/5930538.html

Tesseract訓練中文字體識別:https://www.jianshu.com/p/31afd7fc5813

Tesseract.js 一個幾乎能識別出圖片中所有語言的JS庫:https://segmentfault.com/p/1210000007152346

用於62種語言的純Javascript Javascript OCR:https://github.com/naptha/tesseract.js#docs


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM