tesseract-ocr 介紹

ocr含義是Optical Character Recognition，含義即視覺字符識別。而tesseract是該領域特別優秀開源的作品。

官方的tesseract定義：

OCR engine - libtesseract and a command line program - tesseract.

2 安裝tesseract

下載合適的exe安裝文件：

可以安裝最新版本 5.0 的

在path變量中加入tesseract-ocr的安裝路徑

使用tesseract指令，顯示如下：

示列: tesseract 1606150081.png 1606150081 -l chi_sim

示列: tesseract D:\company\ruigushop\spring-2s\test.png stdout -l chi_sim

有了上述之后就可以完成web圖片識別程序的開發啦，廢話不多說，直接上代碼。

https://gitee.com/acgnhiki/tessdata_best

下載后將所有的文件復制到安裝路徑的 tessdata 中

也不要刪除掉原來tessdata中的數據

import os
cmd = "tesseract "+'3.png'+" " + '2' + " -l chi_sim"
os.system(cmd)

https://mp.weixin.qq.com/s/gU_-8jTxw-Rhoi5oarStOg

https://www.zhihu.com/tardis/sogou/art/131424804

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python如何提取pdf文件圖片中的文字？ [python]提取PPT中的文字（包括圖片中的文字） python如何提取word內的圖片 python如何提取word內的圖片 python實現圖片文字提取，准確率高達99%，強無敵！！！ python給圖片添加文字 Python 圖片文字識別 python 圖片上添加文字手機便簽如何提取圖片中的文字？提取圖片中文字方法