Mac上tesseract-OCR的安裝配置


Mac上tesseract-OCR的安裝配置

tesseract簡介

OCR(Optical Character Recognition)即光學字符識別技術,專門用於對圖片文字進行識別,並獲取文本。

tesseract-ocr引擎先由HP實驗室研發,后來成為一個開源項目,主要由google進行改進優化。

安裝步驟

安裝homebrew

Homebrew是MacOS上的包管理器,類似於ubuntu中的apt-get,centos中的yum,Homebrew安裝很簡單

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

安裝完畢后可以用brew -v測試

Homebrew 1.3.1
Homebrew/homebrew-core (git revision 0290; last commit 2017-08-23)

安裝tesseract

brew install --with-training-tools tesseract #同時安裝附加組件,后面自定義字庫會用到

安裝完畢后用tesseract -v測試

tesseract 3.05.01
leptonica-1.74.4
libjpeg 9b : libpng 1.6.31 : libtiff 4.0.8 : zlib 1.2.8

基本用法

tesseract test.png output #識別test.png的圖片,把結果放到output.txt中

test.png

output.txt自動生成

更多可選參數的用法可以通過tesseract -h查詢

python接口

python有着更加優雅的方式調用系統的tesseract工具,首先安裝pytesseract模塊

sudo pip install pytesseract

pytesseract是對tesseract的封裝,要和PIL聯合使用,基本用法如下:

import pytesseract
from PIL import Image
img = Image.open('./test.png') #先創建image對象
text = pytesseract.image_to_string(img) #直接轉化成string,更多參數可以查看文檔
repr(text) #"u'Hello world!\\n1234'"

結束語

默認的tesseract-ocr工具識別能力有限,很多地方需要個性化定制(如中文),博主也還在學習過程中,以后再會有進一步說明,歡迎大家學習交流。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM