tesseract-ocr引擎

光學字符識別(OCR,Optical Character Recognition)是指對文本資料進行掃描，然后對圖像文件進行分析處理，獲取文字及版面信息的過程。OCR技術非常專業，一般多是印刷、打印行業的從業人員使用，可以快速的將紙質資料轉換為電子資料。關於中文OCR，目前國內水平較高的有清華文通、漢王、尚書，其產品各有千秋，價格不菲。國外OCR發展較早，像一些大公司，如IBM、微軟、HP等，即使沒有推出單獨的OCR產品，但是他們的研發團隊早已掌握核心技術，將OCR功能植入了自身的軟件系統。對於我們程序員來說，一般用不到那么高級的，主要在開發中能夠集成基本的OCR功能就可以了。這兩天我查找了很多免費OCR軟件、類庫，特地整理一下，今天首先來談談Tesseract，下一次將討論下Onenote 2010中的OCR API實現。可以在這里查看OCR技術的發展簡史。
Tesseract的OCR引擎最先由HP實驗室於1985年開始研發，至1995年時已經成為OCR業內最准確的三款識別引擎之一。然而，HP不久便決定放棄OCR業務，Tesseract也從此塵封。
數年以后，HP意識到，與其將Tesseract束之高閣，不如貢獻給開源軟件業，讓其重煥新生－－2005年，Tesseract由美國內華達州信息技術研究所獲得，並求諸於Google對Tesseract進行改進、消除Bug、優化工作。

###安裝tesseract-ocr引擎

brew install tesseract

然后我們通過tesseract -v看一下是否安裝成成功

tesseract 3.05.01
leptonica-1.75.0
libjpeg 9b : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11

這時候我們運行上面代碼會出現亂碼

這是因為tesseract默認只有語言包中沒有中文包，如下圖：

###安裝tesseract-ocr語言包
我們去GitHub下載我們需要的語言包，這里我只下載了chi_tra.traineddata和chi_sim.traineddata
github：tesseract-ocr/tessdata
然后放到/usr/local/Cellar/tesseract/3.05.01/share/tessdata路徑下面。

可以通過tesseract --list-langs查看本地語言包：

可以通過tesseract --help-psm 查看psm

0：定向腳本監測（OSD）
1：使用OSD自動分頁
2 ：自動分頁，但是不使用OSD或OCR（Optical Character Recognition，光學字符識別）
3 ：全自動分頁，但是沒有使用OSD（默認）
4 ：假設可變大小的一個文本列。
5 ：假設垂直對齊文本的單個統一塊。
6 ：假設一個統一的文本塊。
7 ：將圖像視為單個文本行。
8 ：將圖像視為單個詞。
9 ：將圖像視為圓中的單個詞。
10 ：將圖像視為單個字符。

為什么這里要強調語言包和psm，因為我們在使用中會用到，
比如多個語言包組合並且視為統一的文本塊將使用如下參數：
pytesseract.image_to_string(image,lang="chi_sim+eng",config="-psm 6")
這里我們通過+來合並使用多個語言包。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 tesseract-OCR + pytesseract安裝 tesseract-ocr,tesseract,pytesseract在windows下怎么安裝 tesseract-ocr tesseract-ocr Tesseract-ocr視覺學習-驗證碼識別及python import pytesseract使用 Python驗證碼識別安裝Pillow、tesseract-ocr與pytesseract模塊的安裝以及錯誤解決使用python的pytesseract調用谷歌tesseract-ocr識別中英文字符 Mac上安裝tesseract-OCR tesseract-ocr安裝問題 tesseract-ocr的安裝及使用