python tesseract 識別圖片中的文字的亂碼問題(ubuntu系統下)

本文轉載自查看原文 2017-10-31 17:04 3301 python


OCR(Optical Character Recognition):光學字符識別,是指對圖片文件中的文字進行分析識別，獲取的過程。

首先,需要安裝  tesseract-ocr(tesseract OCR識別引擎) 、pytesseract 和 tesseract(這個是在終端自己用命令識別圖片時候用的)

sudo pip install pytesseract
sudo apt-get install tesseract
sudo apt-get install tesseract-ocr

附錄:
tessdata 目錄存放的是語言字庫文件，和在命令行界面中可能用到的參數所對應的文件. 這個安裝程序默認包含了英文字庫。
如果想能識別中文，可以到http://code.google.com/p/tesseract-ocr/downloads/list下載對應的語言的字庫文件.一般google訪問不了，請到這里下載即可，
簡體中文字庫文件下載地址為: http://download.csdn.net/download/wanghui2008123/7621567 下載完成后解壓，然后將該文件剪切到tessdata目錄下去就可以了(請注意是放到tessdata文件下)。

1. 識別只有字符的圖片  tesseract  xxx.jpg  test ，此時會把圖片中的字符全放在test.txt中.
2.識別有漢字的圖片  tesseract pytesseract.jpg test -l chi_sim   
-l chi_sim 表示用簡體中文字庫（需要下載中文字庫文件，解壓后，存放到tessdata目錄下去,字庫文件擴展名為 .raineddata 簡體中文字庫文件名為: chi_sim.traineddata）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python識別圖片上的文字並返回文字在圖片中的坐標 mac 使用tesseract識別圖片中的中文使用Python進行OCR -- 識別圖片中的文字開源圖片文字識別引擎——Tesseract OCR pytesseract+Tesseract-OCR圖片文字識別 python如何提取pdf文件圖片中的文字？ Tesseract Ocr文字識別 python 使用tesseract進行圖片識別 python 使用tesseract進行圖片識別 Python 圖片文字識別