OCR4：Tesseract 4

本文轉載自查看原文 2019-09-17 16:50 548 Python

Tesseract OCR 該軟件包包含一個OCR引擎 - libtesseract和一個命令行程序 - tesseract。 Tesseract 4增加了一個基於OCR引擎的新神經網絡（LSTM），該引擎專注於線路識別，但仍然支持Tesseract 3的傳統Tesseract OCR引擎，該引擎通過識別字符模式來工作。通過使用Legacy OCR Engine模式（--oem 0）啟用與Tesseract 3的兼容性。它還需要訓練有素的數據文件，這些文件支持傳統引擎，例如來自tessdata存儲庫的文件

tesseract 4.0已經加入LSTM了，在用命令行執行的時候，添加 “–oem 1”參數即可，但是pythonocr模塊里並沒有提供使用oem參數的init函數，查看tesseract的源碼，capi.cpp定位到257行有

在外部調用的時候，只需要將以前的

handle = tesseract_raw.init(lang='eng')

修改成：

handle = tesseract_raw.init(lang='eng', oem=1)

即可。下載最新支持lstm的tessdata數據包，識別結果會比之前有大大的提高！如何在調用API的時候使用多語言，就如同命令行下的 -l eng+chi這種，還在摸索中

tesseract 4.0： https://digi.bib.uni-mannheim.de/tesseract/

安裝包：https://github.com/UB-Mannheim/tesseract/wiki

安裝完后測試：

參考資料

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Tesseract Ocr引擎 Android OCR 之 tesseract 圖片文字OCR識別-tesseract-ocr Mac上安裝tesseract-OCR tesseract-ocr安裝問題 tesseract-ocr的安裝及使用 Tesseract OCR 圖片文字識別 google開源OCR項目，tesseract 提升Tesseract-OCR輸出的質量 Tesseract-OCR-03-圖片文字識別