python tesseract 識別圖片中的文字的亂碼問題(ubuntu系統下)



OCR(Optical Character Recognition):光學字符識別,是指對圖片文件中的文字進行分析識別,獲取的過程。

首先,需要安裝  tesseract-ocr(tesseract OCR識別引擎) 、pytesseract 和 tesseract(這個是在終端自己用命令識別圖片時候用的)

sudo pip install pytesseract
sudo apt-get install tesseract
sudo apt-get install tesseract-ocr

附錄:
tessdata 目錄存放的是語言字庫文件,和在命令行界面中可能用到的參數所對應的文件. 這個安裝程序默認包含了英文字庫。
如果想能識別中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下載對應的語言的字庫文件.一般google訪問不了,請到這里下載即可,
簡體中文字庫文件下載地址為: http://download.csdn.net/download/wanghui2008123/7621567 下載完成后解壓,然后將該文件剪切到tessdata目錄下去就可以了(請注意是放到tessdata文件下)。

1. 識別只有字符的圖片  tesseract  xxx.jpg  test ,此時會把圖片中的字符全放在test.txt中.
2.識別有漢字的圖片  tesseract pytesseract.jpg test -l chi_sim   
-l chi_sim 表示用簡體中文字庫(需要下載中文字庫文件,解壓后,存放到tessdata目錄下去,字庫文件擴展名為 .raineddata 簡體中文字庫文件名為: chi_sim.traineddata)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM