(自動化實現驗證碼登錄,這里內容是入坑后,整合了幾個文檔的內容)|
以下模塊是使用時需要用到的
首先:安裝pillow庫,它的作用是對圖片進行簡單的處理,在pytharm中使用pip install pillow指令即可安裝
如果出現超時報錯可以用下面指令進行安裝
pip --default-timeout=100 install -U pillow
下載tesseract圖片識別文字模塊
tesseract下載地址:https://digi.bib.uni-mannheim.de/tesseract/
本人下載的是2019.03.14版本的
下載后就是一個exe安裝包,直接右擊安裝即可,安裝完成之后
配置兩個環境變量:
(1)編輯 系統變量里面 path,添加tesseract的安裝路徑:
我的路徑是默認安裝的路徑:C:\Program \Tesseract-OCR(添加后別忘記加上";"結尾,記得保存)
(2)點擊我的電腦–>屬性–>高級設置—>環境變量---->path下面的—>新建—>變量名:TESSDATA_PREFIX---->變量值:前面的加上\tessdata
接下來,為了在python代碼中使用tesseract功能,使用pip安裝pytesseract:
pip install pytesseract
安裝后在CMD命令行輸入:tesseract test.jpg text -l chi_sim(網上隨意找的一個指令)
運行后顯示:
提示是沒有語言包,然后就去查資料踩了一個坑,說是要在安裝的時候勾選: Addtional language data(download)
於是找到C:\Program \Tesseract-OCR,卸載重裝,勾選之后安裝,卻出現以下提示(這個關都關不掉)只能靠任務管理器結束任務
后來在不懈努力下,找到了一個可以直接下載語言包,下面是我分享的(原文出處:https://blog.csdn.net/LZQ_LZQ_/article/details/105627635)
鏈接:https://pan.baidu.com/s/1MWkQgaMYY-9-kwhONOm3Bg
提取碼:51si
下載語言包,打開tessdata文件夾,把這幾個再復制到C:\Program \Tesseract-OCR\tessdata 下
然后win+R 快捷打開cmd,輸入tesseract --list-langs
就可,加上我們下載的,一共有5種語言
安裝pytesseract
直接在pycharm中使用pip進行安裝就可
指令:pip install pytesseract
另外需要注意的是:下載pytesseract后:
找到pytesseract的安裝包,C:\Python34\Lib\site-packages\pytesseract,編輯pytesseract.py文件(此步驟必須做,否則運行代碼時會報錯):
tesseract_cmd = 'C:/Program Files /Tesseract-OCR/tesseract.exe' -----(這個是我自己的路徑)后面/tesseract.exe是需要自己加上去的
(程序網上可以自己隨意找,自己也是遇到一個問題,就是截的驗證碼圖片的位置有偏差,后來通過自己量才獲得驗證碼圖片,但是不調用第三方接口,識別度不高,難點的基本無法識別)