tesseract-ocr 介紹
ocr含義是Optical Character Recognition,含義即視覺字符識別。而tesseract是該領域特別優秀開源的作品。
官方的tesseract定義:
OCR engine - libtesseract and a command line program - tesseract.
即tesseract包括一個視覺字符識別引擎libtesseract和命令行程序tesseract。
當前最新穩定版本是4.x.x基於LSTM,源碼可從找到tesseract的GitHub: tesseract.找到。
關於tesseract的工作模式如上圖所示。假設現在有一個圖片輸入,整個執行流程為:
2 安裝tesseract
第一步下載
下載合適的exe安裝文件:
網址:https://digi.bib.uni-mannheim.de/tesseract/,下載完成后后裝即可
可以安裝最新版本 5.0 的
第二步環境變量配置
在path變量中加入tesseract-ocr的安裝路徑
第三步安裝成功檢測
使用tesseract指令,顯示如下:
3、使用命令行
1.tesseract + 圖片路徑 + 保存結果名 + -l 語言集
示列: tesseract 1606150081.png 1606150081 -l chi_sim
2.tesseract + 圖片路徑 +stdout -l +語言集
示列: tesseract D:\company\ruigushop\spring-2s\test.png stdout -l chi_sim
有了上述之后就可以完成web圖片識別程序的開發啦,廢話不多說,直接上代碼。
4、現在只能識別英語 如果要中文需要引入
https://gitee.com/acgnhiki/tessdata_best
下載后將所有的文件復制到安裝路徑的 tessdata 中
也不要刪除掉原來tessdata中的數據
5、python中的使用
import os cmd = "tesseract "+'3.png'+" " + '2' + " -l chi_sim" os.system(cmd)
引用:
https://mp.weixin.qq.com/s/gU_-8jTxw-Rhoi5oarStOg
https://www.zhihu.com/tardis/sogou/art/131424804