OCR技術淺析-tesserOCR(3)


tesserOCR使用

tesserOCR是文字識別軟件(惠普公司開源)

Optical Character Recognition (OCR)即光學字符辨識是把打印文本轉換成一個數字表示的過程。它有各種各樣的實際應用--從數字化印刷書籍、創建收據的電子記錄,到車牌識別甚至破解基於圖像的驗證碼。

 

開源OCR排行榜

https://blog.csdn.net/wenhao_ir/article/details/52213224 

 

tesserOCR 訓練說明

https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract 

http://qianjiye.de/2015/08/tesseract-ocr 

http://yanghespace.com/2015/11/01/Tesseract3訓練新語言/ 

https://blog.csdn.net/huangli19870217/article/details/45075033 

 

1.安裝

源碼地址 https://github.com/tesseract-ocr/ 

Google 地址   http://code.google.com/p/tesseract-ocr/downloads/list 

Ubuntu      sudo apt-get install tesseract-ocr

Centos      yum install tesseract.i686

Window   雲盤有window版安裝包

 

2.添加環境變量

 

目錄結構:

Tesseract 程序文件

Tessdata 語言包文件

 

 3.使用方式

命令行語法:

Tesseract.exe  imagePath OutPutPath    [ -l  lang]  [--oem ocrenginemode]  [ -psm pagesegmode]  [configfile]

Pagesegmode 值有:

0 =定向和腳本檢測(OSD)只。

1 =利用OSD進行自動頁面分割。

2 =自動頁面分割,但沒有OSDOCR

3 =全自動頁面分割,但沒有OSD。(默認)

4 =假設一列可變大小的文本。

5=假定垂直對齊文本的單一均勻塊。

6 =假設一個統一的文本塊。

7 =將圖像視為單個文本行。

8 =將圖像視為單個單詞。

9=將圖像作為循環中的單個單詞處理。

10 =將圖像視為單個字符。

語言包和模式必須在配置文件之前。

 

 4.php使用tesseract

git上已有開源的php類庫實現了tesserOCR的方法  https://github.com/thiagoalessio/tesseract-ocr-for-php

Comporser 安裝 Comporser requir thiagoalessio/tesseract_ocr

其實只需要執行 exec 就可以。

<?php

new TesseractOCR('multi-languages.png')

->lang('eng', 'jpn', 'por') //使用語言包

->whitelist(range('A', 'Z')) //固定范圍

 ->run();

剛安裝好的tesserOCR猶如初生的嬰兒,識別能力並不強,可以下載官方提供的語言包(非系統語言包)或自己訓練

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM