廢話不多說,直接介紹如何下載安裝tesseract-OCR以及pytesseract和PIL資源 文末百度網盤都有
Tesseract是一個開源的OCR引擎,能識別100多種語言(中,英,韓,日,德,法…等等)pytesseract是python里的一個基於Tesseract的包。
1.首先下載並安裝tesseract-ocr軟件
2.安裝python庫:pip install pytesseract和pip install pillow
無論是windows系統還是Lunix系統,都可以到GitHub下載相關版本。
鏈接:https://github.com/tesseract-ocr/tesseract/
進入鏈接后,在下面找到安裝介紹,點擊藍色划橫線部分
第二步 點擊藍色划橫線部分
第三步:到這里根據自己的Windows系統選擇32位或者64位
或者直接在這里選你要的版本https://digi.bib.uni-mannheim.de/tesseract/
下載完成之后點擊安裝
安裝過程中按照提示即可,過程中還有多種文字識別語言支持。想要識別中文的朋友記得勾選下載相應的語種。
之后打開cmd也就是命令行模式輸入:pip install tesseract
(python3.0以上的朋友下載python解析器的時候自帶pip,不用再下載pip了)
等待安裝成功,我這里已經安裝成功了
之后仍然在命令行模式輸入:pip install pytesseract
等待片刻就成功安裝pytesseract和PIL(pillow)兩個庫了。
如果不能正常使用那么可能需要改寫路徑。把你安裝tesseract的路徑添加到你電腦的環境變量path中。
遇到的問題:
1.FileNotFoundError: [WinError 2] 系統找不到指定的文件
解決方法:
方法1[推薦]: 將tesseract.exe添加到環境變量PATH中
注意: 為了使環境變量生效,需要關閉cmd窗口或是關閉pycharm等ide重新啟動
方法2: 修改pytesseract.py文件,指定tesseract.exe安裝路徑
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe‘
方法3: 在實際運行代碼中指定
pytesseract.pytesseract.tesseract_cmd = 'D:\\Program Files\\Tesseract-OCR\\tesseract.exe'
鏈接
https://blog.csdn.net/ocean35/article/details/82942382
https://www.cnblogs.com/hupeng1234/p/7136442.html
使用