python ocr中文識別庫 tesseract安裝及問題處理


 

這個破東西,折騰了快1個小時,網上的教材太亂了。

我解決的主要是windows的問題

先下載exe。(一看到這個,我就有種預感,不妙)

https://digi.bib.uni-mannheim.de/tesseract/

選好自己的機型,

最新版的,可能會采坑啊

 

 安裝時可以添加支持的語言包,如下界面最后一個選項點開選擇,我們可以選擇簡體中文 Chiness(Simplified)。多選幾個吧

然后下一步。

 

完成后,添加環境變量

 

 第一個環境變量

再配第二環境變量

 

 

 我的機器運行提示要在這里找tessdata

Failed to init API, possibly an invalid tessdata path

就從安裝目錄下,直接把tessdata 文件夾里的內容都復制到

 

 不要問為什么, 這個缺德軟件 就這樣

下一步安裝

pip install tesserocr pillow

如果提示c++什么的,不要安裝,使用

如果通過 pip 安裝失敗,可以嘗試 Anaconda 下的 conda 來安裝:

conda install -c simonflueckiger tesserocr pillow

親測有效。

還有一種辦法,我沒試過,應該也可以

 

 

我的解決辦法是:在這里下載對於的.whl文件

下載地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

我下載的版本為:tesserocr-2.2.2-cp36-cp36m-win_amd64.whl       (注意版本號啊)

將文件復制到c盤中進行安裝

 

最后一步

pip install pytesseract

 

最后上代碼

 

import pytesseract

from PIL import Image

image = Image.open(r'd:\image.png')
result =pytesseract.image_to_string (image,lang='eng')
print(result)

  親測有效啊!!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM