Mac上tesseract-OCR的安裝配置
tesseract簡介
OCR(Optical Character Recognition)即光學字符識別技術,專門用於對圖片文字進行識別,並獲取文本。
tesseract-ocr引擎先由HP實驗室研發,后來成為一個開源項目,主要由google進行改進優化。
安裝步驟
安裝homebrew
Homebrew是MacOS上的包管理器,類似於ubuntu中的apt-get,centos中的yum,Homebrew安裝很簡單
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
安裝完畢后可以用brew -v測試
Homebrew 1.3.1
Homebrew/homebrew-core (git revision 0290; last commit 2017-08-23)
安裝tesseract
brew install --with-training-tools tesseract #同時安裝附加組件,后面自定義字庫會用到
安裝完畢后用tesseract -v測試
tesseract 3.05.01
leptonica-1.74.4
libjpeg 9b : libpng 1.6.31 : libtiff 4.0.8 : zlib 1.2.8
基本用法
tesseract test.png output #識別test.png的圖片,把結果放到output.txt中
test.png

output.txt自動生成

更多可選參數的用法可以通過tesseract -h查詢
python接口
python有着更加優雅的方式調用系統的tesseract工具,首先安裝pytesseract模塊
sudo pip install pytesseract
pytesseract是對tesseract的封裝,要和PIL聯合使用,基本用法如下:
import pytesseract
from PIL import Image
img = Image.open('./test.png') #先創建image對象
text = pytesseract.image_to_string(img) #直接轉化成string,更多參數可以查看文檔
repr(text) #"u'Hello world!\\n1234'"
結束語
默認的tesseract-ocr工具識別能力有限,很多地方需要個性化定制(如中文),博主也還在學習過程中,以后再會有進一步說明,歡迎大家學習交流。
