Ubuntu16.04 安裝tesseract


原文鏈接:https://blog.csdn.net/tintinetmilou/article/details/80212305

必要包安裝:

sudo apt-get install autoconf automake libtool autoconf-archive pkg-config libpng12-dev libjpeg8-dev libtiff5-dev zlib1g-dev -y 

 

 

直接: 如果不行,在執行后面的步驟:(可選)

可以通過 apt-get 安裝: $sudo apt-get tesseract-ocr

要使用 Tesseract 的功能,比如后面的示例中訓練程序識別字母,要先在系統中設置一 個新的環境變量 $TESSDATA_PREFIX,讓 Tesseract 知道訓練的數據文件存儲在哪里,然后搞一份tessdata數據文件,放到Tesseract目錄下。
  • 在大多數 Linux 系統和 Mac OS X 系統上,你可以這么設置: $export TESSDATA_PREFIX=/usr/local/share/Tesseract

  • 在 Windows 系統上也類似,你可以通過下面這行命令設置環境變量: #setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract

 

 

 

 

如果要用tesseract自己訓練,就需要安裝training,那下面這些依賴也要安裝:

sudo apt-get install libicu-dev libpango1.0-dev libcairo2-dev 

 

 

leptonica安裝

sudo apt install git  
git clone https://github.com/DanBloomberg/leptonica   
cd leptonica  
autoreconf -vi  
./autobuild  
./configure  
make -j8
sudo make install 

 

 

安裝tesseract

git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git  
cd tesseract  
./autogen.sh  
./configure --enable-debug  
LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make -j8 
sudo make install  
sudo ldconfig  

 

檢測安裝成與否

tesseract -v

 

 

 

安裝訓練文件(如果要訓練自己的數據)

make training -j8  
sudo make training-install  

 

下載語言包
這個包比較大,可以通過下面命令下載也可以通過迅雷等下載工具下載,,下載完成后將里面的各種包放到tesseract目錄的tessdata文件夾中。

git clone https://github.com/tesseract-ocr/tessdata

 

添加環境變量

gedit ~/.bashrc

 

在末尾添加(根據自己tesseract的實際目錄進行相應修改):

export TESSDATA_PREFIX=/home/XX/tesseract/tessdata

 

 

重啟終端,使得剛才環境變量生效。

拿張圖片測試一下:

 

 

輸入以下命令(1.jpg:待檢測圖片,out:輸出txt文檔的名字,-l:指定語言庫進行檢測,chi_sim:用簡體中文庫):

tesseract 1.jpg out -l chi_sim

 

 

 

out.txt輸出:

 




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM