Python圖片識別——人工智能篇

本文轉載自查看原文 2020-05-28 17:49 2052 python爬蟲

二、安裝識別引擎tesseract-ocr

一、安裝pytesseract和PIL

　　　PIL全稱：Python Imaging Library，python圖像處理庫，這個庫支持多種文件格式，並提供了強大的圖像處理和圖形處理能力。

　　　由於PIL僅支持到Python 2.7，所以在PIL的基礎上創建了Pillow庫，支持最新Python 3.x。

　　1、pip命令安裝

　　　　pip install pytesseract

　　　　pip install Pillow

　　2、使用pycharm編輯器安裝，如下操作步驟。

　　安裝成功：

　　安裝pytesseract時，同時安裝pillow，所以我們只需安裝pytesseract即可。

　　3.嘗試運行，

源碼如下：

1 from PIL import Image
2 import pytesseract
3 
4 Image = Image.open('1.png')   # 打開圖片
5 text = pytesseract.image_to_string(Image,lang='chi_sim')  #使用簡體中文解析圖片
6 print(text)

　　　出現報錯，如下圖，

　　　原因：沒有安裝識別引擎tesseract-ocr

點擊返回目錄

二、安裝識別引擎tesseract-ocr

　　1.Tesseract是開源的OCR引擎。Tesseract最初設計用於英文識別，經過改進引擎和訓練系統，它能夠處理其它語言和UTF-8字符。Tesseract 3.0能夠處理任何Unicode字符，但並非在所有語言上都工作得很好。Tesseract在龐大字符集語言（比如中文）上較慢，但是工作良好。

　　下載鏈接: https://pan.baidu.com/s/1J0HNoVhX8WexS_5r0k2jDw 密碼: ywc3

　　因為tesseract-ocr默認不支持中文識別。

　　將下載到的文件：chi_sim.traineddata 放到Tesseract-OCR安裝目錄 D:\Program Files (x86)\Tesseract-OCR\tessdata 下，如圖：

　　2，安裝完成tesseract-ocr后，需要做一下配置。

　　　　在Python安裝目錄（如：D:\Python35\Lib\site-packages\pytesseract）中修改 pytesseract.py文件。

　　　　也可以通過pycharm，Ctrl+B 快速打開pytesseract源碼文件：

　　3.嘗試運行，出現如下報錯：

　　pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your 　　"tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

　　4.解決方法：將tessdata目錄的上級目錄所在路徑：(默認為tesseract-ocr安裝目錄)添加至TESSDATA_PREFIX環境變量中，如下圖：

　　　　注意：配置完環境變量需要重新打開pycharm編輯器（IDE）。

　　5.再次運行結果：圖片識別成功！

　　但識別率不是很高，后期優化，持續更新。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 人工智能識別圖片入門 AI人工智能之通用文字識別人工智能--語音入門篇 python實現人工智能之路--語音識別加語音合成人工智能-動物識別專家系統算法Python + Pyqt 實現 Python人工智能之路 - 第二篇 : 算法實在太難了有現成的直接用吧人工智能APP-人臉識別Face Detection 人工智能之基於face_recognition的人臉檢測與識別《人工智能》總結人工智能縱覽