原文鏈接:https://blog.csdn.net/tintinetmilou/article/details/80212305
必要包安裝:
sudo apt-get install autoconf automake libtool autoconf-archive pkg-config libpng12-dev libjpeg8-dev libtiff5-dev zlib1g-dev -y
直接: 如果不行,在執行后面的步驟:(可選)
可以通過 apt-get 安裝: $sudo apt-get tesseract-ocr
要使用 Tesseract 的功能,比如后面的示例中訓練程序識別字母,要先在系統中設置一 個新的環境變量 $TESSDATA_PREFIX
,讓 Tesseract 知道訓練的數據文件存儲在哪里,然后搞一份tessdata數據文件,放到Tesseract目錄下。
-
在大多數 Linux 系統和 Mac OS X 系統上,你可以這么設置:
$export TESSDATA_PREFIX=/usr/local/share/Tesseract
-
在 Windows 系統上也類似,你可以通過下面這行命令設置環境變量:
#setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract
如果要用tesseract自己訓練,就需要安裝training,那下面這些依賴也要安裝:
sudo apt-get install libicu-dev libpango1.0-dev libcairo2-dev
leptonica安裝
sudo apt install git git clone https://github.com/DanBloomberg/leptonica cd leptonica autoreconf -vi ./autobuild ./configure make -j8 sudo make install
安裝tesseract
git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git cd tesseract ./autogen.sh ./configure --enable-debug LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make -j8 sudo make install sudo ldconfig
檢測安裝成與否
tesseract -v

安裝訓練文件(如果要訓練自己的數據)
make training -j8
sudo make training-install
下載語言包
這個包比較大,可以通過下面命令下載也可以通過迅雷等下載工具下載,,下載完成后將里面的各種包放到tesseract目錄的tessdata文件夾中。
git clone https://github.com/tesseract-ocr/tessdata
添加環境變量
gedit ~/.bashrc
在末尾添加(根據自己tesseract的實際目錄進行相應修改):
export TESSDATA_PREFIX=/home/XX/tesseract/tessdata
重啟終端,使得剛才環境變量生效。
拿張圖片測試一下:
輸入以下命令(1.jpg:待檢測圖片,out:輸出txt文檔的名字,-l:指定語言庫進行檢測,chi_sim:用簡體中文庫):
tesseract 1.jpg out -l chi_sim
out.txt輸出: