Mac上tesseract-OCR的安裝配置

tesseract簡介

OCR(Optical Character Recognition)即光學字符識別技術，專門用於對圖片文字進行識別，並獲取文本。

tesseract-ocr引擎先由HP實驗室研發，后來成為一個開源項目，主要由google進行改進優化。

安裝步驟

安裝homebrew

Homebrew是MacOS上的包管理器，類似於ubuntu中的apt-get，centos中的yum，Homebrew安裝很簡單

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

安裝完畢后可以用brew -v測試

Homebrew 1.3.1
Homebrew/homebrew-core (git revision 0290; last commit 2017-08-23)

安裝tesseract

brew install --with-training-tools tesseract #同時安裝附加組件，后面自定義字庫會用到

安裝完畢后用tesseract -v測試

tesseract 3.05.01
leptonica-1.74.4
libjpeg 9b : libpng 1.6.31 : libtiff 4.0.8 : zlib 1.2.8

基本用法

tesseract test.png output #識別test.png的圖片，把結果放到output.txt中

test.png

output.txt自動生成

更多可選參數的用法可以通過tesseract -h查詢

python接口

python有着更加優雅的方式調用系統的tesseract工具，首先安裝pytesseract模塊

sudo pip install pytesseract

pytesseract是對tesseract的封裝，要和PIL聯合使用，基本用法如下：

import pytesseract
from PIL import Image
img = Image.open('./test.png') #先創建image對象
text = pytesseract.image_to_string(img) #直接轉化成string，更多參數可以查看文檔
repr(text) #"u'Hello world!\\n1234'"

結束語

默認的tesseract-ocr工具識別能力有限，很多地方需要個性化定制(如中文)，博主也還在學習過程中，以后再會有進一步說明，歡迎大家學習交流。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Linux（CentOS）下安裝tesseract-ocr以及配置依賴leptonica 在linux下安裝tesseract-ocr tesseract-ocr 各版本系統安裝tesseract-ocr CENTOS 下編譯安裝 tesseract-ocr 3.0.4 識別文字 centos7下安裝tesseract-ocr進行驗證碼識別,centos7 安裝tesseract ,yum安裝tesseract Tesseract-OCR的簡單使用與訓練 centos7下安裝tesseract-ocr進行驗證碼識別 Tesseract-OCR 5.0LSTM訓練流程 Tesseract-OCR識別中文與訓練字庫實例