一、前言
Tesseract-OCR 是一款由HP實驗室開發由Google維護的開源OCR(Optical Character Recognition , 光學字符識別)引擎。與Microsoft Office Document Imaging(MODI)相比,我們可以不斷的訓練的庫,使圖像轉換文本的能力不斷增強;如果團隊深度需要,還可以以它為模板,開發出符合自身需求的OCR引擎。
GitHub 地址:https://github.com/tesseract-ocr/tesseract
安裝包官方下載地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
安裝包百度雲盤下載地址:https://pan.baidu.com/s/1AOsJQzH5YrryuhuME-cqTQ
二、安裝 Tesseract-OCR
直接執行下載好的 exe 文件,下一步、下一步默認安裝即可。
三、配置環境變量
3.1 進入環境變量配置界面
右鍵點擊此電腦--屬性--高級系統設置--環境變量--系統變量--Path



3.2 添加系統變量
找到系統變量的 Path ,將 Tesseract-OCR 的安裝目錄添加進去:

3.3 添加 tessdata 系統變量
如下圖新建系統變量 : TESSDATA_PREFIX
變量值為 tessdata 文件夾的路徑(在Tesseract-OCR的安裝目錄下):

四、使用 Tesseract-OCR
4.1 進入cmd 輸入下面的命令查看版本,正常運行則安裝成功:
tesseract --version

4.2 使用下面命令識別圖片

tesseract 圖片路徑 輸出文件

查看輸出的 result.txt文件:

結果正確!
----------------------------------------------------------------------------------------------------------
talk is cheap , show me the code.
