Python圖片識別——人工智能篇


 

 

 


 一、安裝pytesseract和PIL

   PIL全稱:Python Imaging Library,python圖像處理庫,這個庫支持多種文件格式,並提供了強大的圖像處理和圖形處理能力。

   由於PIL僅支持到Python 2.7,所以在PIL的基礎上創建了Pillow庫,支持最新Python 3.x。

 

  1、pip命令安裝

    pip install pytesseract 

    pip install Pillow

  2、使用pycharm編輯器安裝,如下操作步驟。 

 

  安裝成功:

  安裝pytesseract時,同時安裝pillow,所以我們只需安裝pytesseract即可。

    3.嘗試運行,

源碼如下: 

復制代碼
1 from PIL import Image
2 import pytesseract
3 
4 Image = Image.open('1.png')   # 打開圖片
5 text = pytesseract.image_to_string(Image,lang='chi_sim')  #使用簡體中文解析圖片
6 print(text)
復制代碼

   出現報錯,如下圖,

   原因:沒有安裝識別引擎tesseract-ocr 

二、安裝識別引擎tesseract-ocr

  1.Tesseract是開源的OCR引擎。Tesseract最初設計用於英文識別,經過改進引擎和訓練系統,它能夠處理其它語言和UTF-8字符。Tesseract 3.0能夠處理任何Unicode字符,但並非在所有語言上都工作得很好。Tesseract在龐大字符集語言(比如中文)上較慢,但是工作良好。

  下載鏈接: https://pan.baidu.com/s/1J0HNoVhX8WexS_5r0k2jDw 密碼: ywc3

 

   因為tesseract-ocr默認不支持中文識別。 

   將下載到的文件:chi_sim.traineddata 放到Tesseract-OCR安裝目錄 D:\Program Files (x86)\Tesseract-OCR\tessdata 下,如圖:

   2,安裝完成tesseract-ocr后,需要做一下配置 。

    在Python安裝目錄(如:D:\Python35\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件。

 

    也可以通過pycharm,Ctrl+B 快速打開pytesseract源碼文件:

 

   3.嘗試運行,出現如下報錯:

  pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your   "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.') 

   4.解決方法:將tessdata目錄的上級目錄所在路徑:(默認為tesseract-ocr安裝目錄)添加至TESSDATA_PREFIX環境變量中,如下圖:

    注意:配置完環境變量需要重新打開pycharm編輯器(IDE)。

  5.再次運行結果:圖片識別成功!

  但識別率不是很高,后期優化,持續更新。 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM