tesserOCR使用
tesserOCR是文字識別軟件(惠普公司開源)
Optical Character Recognition (OCR)即光學字符辨識是把打印文本轉換成一個數字表示的過程。它有各種各樣的實際應用--從數字化印刷書籍、創建收據的電子記錄,到車牌識別甚至破解基於圖像的驗證碼。
開源OCR排行榜
https://blog.csdn.net/wenhao_ir/article/details/52213224
tesserOCR 訓練說明
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
http://qianjiye.de/2015/08/tesseract-ocr
http://yanghespace.com/2015/11/01/Tesseract3訓練新語言/
https://blog.csdn.net/huangli19870217/article/details/45075033
1.安裝
源碼地址 https://github.com/tesseract-ocr/
Google 地址 http://code.google.com/p/tesseract-ocr/downloads/list
Ubuntu sudo apt-get install tesseract-ocr
Centos yum install tesseract.i686
Window 雲盤有window版安裝包
2.添加環境變量
目錄結構:
Tesseract 程序文件
Tessdata 語言包文件
3.使用方式
命令行語法:
Tesseract.exe imagePath OutPutPath [ -l lang] [--oem ocrenginemode] [ -psm pagesegmode] [configfile]
Pagesegmode 值有:
0 =定向和腳本檢測(OSD)只。
1 =利用OSD進行自動頁面分割。
2 =自動頁面分割,但沒有OSD或OCR
3 =全自動頁面分割,但沒有OSD。(默認)
4 =假設一列可變大小的文本。
5=假定垂直對齊文本的單一均勻塊。
6 =假設一個統一的文本塊。
7 =將圖像視為單個文本行。
8 =將圖像視為單個單詞。
9=將圖像作為循環中的單個單詞處理。
10 =將圖像視為單個字符。
語言包和模式必須在配置文件之前。
4.php使用tesseract
git上已有開源的php類庫實現了tesserOCR的方法 https://github.com/thiagoalessio/tesseract-ocr-for-php
Comporser 安裝 Comporser requir thiagoalessio/tesseract_ocr
其實只需要執行 exec 就可以。
<?php new TesseractOCR('multi-languages.png') ->lang('eng', 'jpn', 'por') //使用語言包 ->whitelist(range('A', 'Z')) //固定范圍 ->run();
剛安裝好的tesserOCR猶如初生的嬰兒,識別能力並不強,可以下載官方提供的語言包(非系統語言包)或自己訓練