python tesseract-ocr 圖文識別（windows基礎環境搭建）

本文轉載自查看原文 2020-02-29 15:44 6904 AI人工智能/ tesseract/ tesserocr/ pytesseract/ 軟件測試/ tesseract-ocr圖文識別

python tesseract-ocr 圖文識別

一，先進行Tesserocr安裝下載

1，先點擊進入下面的百度網盤
鏈接: https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取碼: mp1u
打開百度網盤之后知道下面這兩個文件
tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
tesseract-ocr-w64-setup-v5.0.0.20190623.exe
如果上面百度網盤打不開，可以嘗試打開下面的百度網盤：
鏈接：https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ 提取碼：yd7i
鏈接：https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA 提取碼：1yhh

2，待下載完畢之后運行tesseract-ocr-w64-setup-v5.0.0.20190623.exe文件，

我的是安裝在F:\Tesseract-OCR，一直next下去。

需要選擇的選項，看下圖。其中語言要選擇簡體中文，安裝時會下載語言包，可能等待一段時間。

安裝完成之后的目錄如下：

我的tesseract-ocr是安裝在F:\Tesseract-OCR，

下面開始最重要的步驟：

將F:\Tesseract-OCR里面的 tessdata 整個文件夾一起復制到python安裝目錄下面

把上面網盤下載的另一個文件(tesserocr-2.4.0-cp37-cp37m-win_amd64.whl)也復制到python安裝目錄下面

3，開始創建tesseract-ocr環境變量

將“F:\Tesseract-OCR”添加到環境變量中。如圖：

增加一個TESSDATA_PREFIX變量名，變量值還是我的安裝路徑F:\Tesseract-OCR\tessdata這是將語言字庫文件夾添加到變量中。

打開命令終端，輸入：tesseract -v，可以看到版本信息

用命令tesseract --list-langs來查看Tesseract-OCR支持語言。

二，用pip或者pycharm 安裝 tesseract 和 pytesseract

1，用pip安裝

其實只需安裝tesseract，默認pytesseract會隨着tesseract一起安裝的
執行pip install tesseract
如果pytesseract沒有自動安裝的話，可以再次主動安裝pytesseract

2，用pycharm安裝

最后pytesseract，tesseract，tesserocr 都安裝成功之之后，顯示如下：

三，在網上下載中文識別庫 chi_sim.traineddata

可以在官網下載https://github.com/tesseract-ocr/tessdata

如果官網下載很慢的話也可以在百度網盤下載 https://pan.baidu.com/s/1G5vZO2B4Mxx5JaiQtfIqCw 提取碼: mp1u

四，測試一下識別效果：

用下面三張圖片進行識別

代碼如下：

import pytesseract
from PIL import Image
import tesserocr

im=Image.open('ying_shu.png')
print(pytesseract.image_to_string(im))
im1=Image.open('ying_jianti.png')
print(pytesseract.image_to_string(im1,lang='chi_sim'))
im2=Image.open('fanti.png')
print(pytesseract.image_to_string(im2,lang='chi_tra'))

識別結果如下：

可以看到識別結果存在一定的錯誤，這就是識別率的問題，后期再進行優化

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 圖片文字OCR識別-tesseract-ocr Windows安裝Tesseract-OCR 4.00並配置環境變量 tesseract-OCR識別漢字及訓練 Tesseract-OCR字符識別簡介基於tesseract-OCR進行中文識別使用Tesseract-Ocr識別數字 windows安裝tesseract-OCR及使用 Windows上使用Tesseract-ocr識別藏文、天城體梵文 Python3.7 tesseract-ocr 驗證碼識別配置以及常見錯誤 python使用tesseract-ocr完成驗證碼識別（安裝部分）