python安裝OCR識別庫

本文轉載自查看原文 2020-04-02 00:32 7274 Python日常筆記

（1）安裝過程

參考的這個博客：https://blog.csdn.net/lanxianghua/article/details/100516187?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

（2）安裝中文字庫

識別中文需要安裝字庫，參考這個博客：https://www.cnblogs.com/jiyu-hlzy/p/12191463.html

（3）安裝過程出現的錯誤

安裝后執行程序時出現了以下錯誤：

這個錯誤是找不到tesseract.exe造成的，但是我又在pytesseract.py中添加了路徑，最終發現是由於下面的原因造成的：

（4）測試

參考別的博客，寫了幾行簡單的測試代碼，代碼如下：

 1 # encoding: utf-8
 2 
 3 import pytesseract
 4 from PIL import Image
 5 import os
 6 
 7 
 8 if __name__ == "__main__":
 9     print (os.getcwd())
10     im_ch = Image.open('test.png')
11 
12     print('========識別中文========')
13     print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

測試的圖片和結果如下：

可以看到，測試的圖片不是分清晰，測試也出現了很多錯別字。

（5）改進

接着又去找了一些博客來看，都在說可以使用百度AI來提高精度，參考這個博客實現了一下：https://www.cnblogs.com/adam012019/p/11440353.html

效果如下：

可以看到，效果已經非常不錯了。

至此，這篇博客就寫到這里為止了，其實我是突然想弄一個這個，因為在網上找的在線圖片識別都是要收費的，我就想為何不自己寫一個，就在網上找了幾篇博客看。網友的力量真是強大，再次感謝以上博客的網友。

附錄：

百度智能雲，文字識別API簡介：https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm。

可以去開通一個，每天的免費額度還是夠個人使用了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 進行 OCR識別 -- pytesseract庫針對復雜場景的 OCR 文本識別，推薦一個Python 庫！ Python驗證碼識別安裝Pillow、tesseract-ocr與pytesseract模塊的安裝以及錯誤解決 OCR識別 py庫： Tesseract-OCR（圖像文字識別） ubuntu 12.04 下安裝 PyTesser 進行OCR識別 [Python][爬蟲]利用OCR技術識別圖形驗證碼 ocr 識別 github 源碼 C# OCR識別騰訊Ocr文字識別