python tesseract-ocr 圖文識別
一,先進行Tesserocr安裝下載
1,先點擊進入下面的百度網盤
鏈接: https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取碼: mp1u
打開百度網盤之后知道下面這兩個文件
tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
tesseract-ocr-w64-setup-v5.0.0.20190623.exe
如果上面百度網盤打不開,可以嘗試打開下面的百度網盤:
鏈接:https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ 提取碼:yd7i
鏈接:https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA 提取碼:1yhh
2,待下載完畢之后運行tesseract-ocr-w64-setup-v5.0.0.20190623.exe文件,
我的是安裝在F:\Tesseract-OCR,一直next下去。
需要選擇的選項,看下圖。其中語言要選擇簡體中文,安裝時會下載語言包,可能等待一段時間。
安裝完成之后的目錄如下:
我的tesseract-ocr是安裝在F:\Tesseract-OCR,
下面開始最重要的步驟:
將F:\Tesseract-OCR里面的 tessdata 整個文件夾一起復制到python安裝目錄下面
把上面網盤下載的另一個文件(tesserocr-2.4.0-cp37-cp37m-win_amd64.whl)也復制到python安裝目錄下面
3,開始創建tesseract-ocr環境變量
將“F:\Tesseract-OCR”添加到環境變量中。如圖:
增加一個TESSDATA_PREFIX變量名,變量值還是我的安裝路徑F:\Tesseract-OCR\tessdata這是將語言字庫文件夾添加到變量中。
打開命令終端,輸入:tesseract -v,可以看到版本信息
用命令tesseract --list-langs來查看Tesseract-OCR支持語言。
二,用pip或者pycharm 安裝 tesseract 和 pytesseract
1,用pip安裝
其實只需安裝tesseract,默認pytesseract會隨着tesseract一起安裝的
執行pip install tesseract
如果pytesseract沒有自動安裝的話,可以再次主動安裝pytesseract
2,用pycharm安裝
最后pytesseract,tesseract,tesserocr 都安裝成功之之后,顯示如下:
三,在網上下載中文識別庫 chi_sim.traineddata
可以在官網下載https://github.com/tesseract-ocr/tessdata
如果官網下載很慢的話也可以在百度網盤下載 https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取碼: mp1u
四,測試一下識別效果:
用下面三張圖片進行識別
代碼如下:
import pytesseract from PIL import Image import tesserocr im=Image.open('ying_shu.png') print(pytesseract.image_to_string(im)) im1=Image.open('ying_jianti.png') print(pytesseract.image_to_string(im1,lang='chi_sim')) im2=Image.open('fanti.png') print(pytesseract.image_to_string(im2,lang='chi_tra'))
識別結果如下:
可以看到識別結果存在一定的錯誤,這就是識別率的問題,后期再進行優化