python tesseract-ocr 圖文識別 (windows基礎環境搭建)


python tesseract-ocr 圖文識別

一,先進行Tesserocr安裝下載

1,先點擊進入下面的百度網盤
鏈接: https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取碼: mp1u
打開百度網盤之后知道下面這兩個文件
tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
tesseract-ocr-w64-setup-v5.0.0.20190623.exe
如果上面百度網盤打不開,可以嘗試打開下面的百度網盤:
鏈接:https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ 提取碼:yd7i
鏈接:https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA 提取碼:1yhh

2,待下載完畢之后運行tesseract-ocr-w64-setup-v5.0.0.20190623.exe文件,

我的是安裝在F:\Tesseract-OCR一直next下去。

需要選擇的選項,看下圖。其中語言要選擇簡體中文,安裝時會下載語言包,可能等待一段時間。

 

安裝完成之后的目錄如下:

我的tesseract-ocr是安裝在F:\Tesseract-OCR,

下面開始最重要的步驟:

將F:\Tesseract-OCR里面的 tessdata 整個文件夾一起復制到python安裝目錄下面

 把上面網盤下載的另一個文件(tesserocr-2.4.0-cp37-cp37m-win_amd64.whl)也復制到python安裝目錄下面

 

  3,開始創建tesseract-ocr環境變量

將“F:\Tesseract-OCR”添加到環境變量中。如圖:

 增加一個TESSDATA_PREFIX變量名,變量值還是我的安裝路徑F:\Tesseract-OCR\tessdata這是將語言字庫文件夾添加到變量中。

打開命令終端,輸入:tesseract -v,可以看到版本信息

 用命令tesseract --list-langs來查看Tesseract-OCR支持語言。

 

二,用pip或者pycharm 安裝 tesseract 和 pytesseract

1,用pip安裝

其實只需安裝tesseract,默認pytesseract會隨着tesseract一起安裝的
執行pip install tesseract
如果pytesseract沒有自動安裝的話,可以再次主動安裝pytesseract

2,用pycharm安裝

 

最后pytesseract,tesseract,tesserocr 都安裝成功之之后,顯示如下:

 

三,在網上下載中文識別庫 chi_sim.traineddata

可以在官網下載https://github.com/tesseract-ocr/tessdata

如果官網下載很慢的話也可以在百度網盤下載 https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取碼: mp1u

 

 四,測試一下識別效果:

用下面三張圖片進行識別

 代碼如下:

import pytesseract
from PIL import Image
import tesserocr

im=Image.open('ying_shu.png')
print(pytesseract.image_to_string(im))
im1=Image.open('ying_jianti.png')
print(pytesseract.image_to_string(im1,lang='chi_sim'))
im2=Image.open('fanti.png')
print(pytesseract.image_to_string(im2,lang='chi_tra'))

識別結果如下:

 可以看到識別結果存在一定的錯誤,這就是識別率的問題,后期再進行優化

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM