python 圖片提取文字


tesseract-ocr 介紹

ocr含義是Optical Character Recognition,含義即視覺字符識別。而tesseract是該領域特別優秀開源的作品。

官方的tesseract定義:

OCR engine - libtesseract and a command line program - tesseract.

即tesseract包括一個視覺字符識別引擎libtesseract和命令行程序tesseract。

當前最新穩定版本是4.x.x基於LSTM,源碼可從找到tesseract的GitHub: tesseract.找到。

 

 

 

關於tesseract的工作模式如上圖所示。假設現在有一個圖片輸入,整個執行流程為:

  1. 輸入(一張圖片)
  2. 有用信息提取(比如一個圖片上只有一個字,那其他留白的是無用,這個字上每個色素是有效的並且相關)
  3. 找出文字/線條
  4. 字符分類集
  5. 輸入與分類集對比找出最接近的
  6. 輸出識別結果

 2 安裝tesseract

第一步下載

下載合適的exe安裝文件:

網址:https://digi.bib.uni-mannheim.de/tesseract/,下載完成后后裝即可

可以安裝最新版本 5.0 的 

 

第二步環境變量配置

在path變量中加入tesseract-ocr的安裝路徑

 

 

 

第三步安裝成功檢測

使用tesseract指令,顯示如下:

 

3、使用命令行

1.tesseract + 圖片路徑 + 保存結果名 + -l 語言集

示列: tesseract 1606150081.png 1606150081 -l chi_sim

2.tesseract + 圖片路徑 +stdout -l +語言集

示列: tesseract D:\company\ruigushop\spring-2s\test.png stdout -l chi_sim

有了上述之后就可以完成web圖片識別程序的開發啦,廢話不多說,直接上代碼。

4、現在只能識別英語 如果要中文需要引入

https://gitee.com/acgnhiki/tessdata_best

下載后將所有的文件復制到安裝路徑的 tessdata 中

也不要刪除掉原來tessdata中的數據

 

 

 

 

5、python中的使用

import os
cmd = "tesseract "+'3.png'+" " + '2' + " -l chi_sim"
os.system(cmd)

 

引用:

https://mp.weixin.qq.com/s/gU_-8jTxw-Rhoi5oarStOg

https://www.zhihu.com/tardis/sogou/art/131424804


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM