今天下午要寫一個爬蟲,以前使用python寫的,由於本人對python不熟悉,所以還是改成PHP吧,其中有一個驗證碼識別的,百度搜索到的博客都表示,起碼中文無法識別,於是在packagist搜
習慣性,抓到一個很好用的包:
https://packagist.org/packages/thiagoalessio/tesseract_ocr
在readme寫着如何在win系統下載安裝 tesseract.exe (記得加入環境變量)但是本人無論怎么加都是報
command not found
https://stackoverflow.com/questions/53716347/error-the-command-tesseract-was-not-found-php-thiagoalessio#comment94288312_53716980
所以還是在實例化對象的時候把path初始化進去(就像Phantomjs)
<?php require('./vendor/autoload.php'); use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->executable('C:\Program Files\Tesseract-OCR\tesseract.exe') ->run();
windows客戶端下載地址
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
請大家勿噴哈,本人僅作筆記用
找到一個開源的圖像識別的包,開心,畢竟下午試了好多個博客園的demo都不ok難受