python安裝OCR識別庫


(1)安裝過程

參考的這個博客:https://blog.csdn.net/lanxianghua/article/details/100516187?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

(2)安裝中文字庫

識別中文需要安裝字庫,參考這個博客:https://www.cnblogs.com/jiyu-hlzy/p/12191463.html

(3)安裝過程出現的錯誤

安裝后執行程序時出現了以下錯誤:

 這個錯誤是找不到tesseract.exe造成的,但是我又在pytesseract.py中添加了路徑,最終發現是由於下面的原因造成的:

(4)測試

參考別的博客,寫了幾行簡單的測試代碼,代碼如下:

 1 # encoding: utf-8
 2 
 3 import pytesseract
 4 from PIL import Image
 5 import os
 6 
 7 
 8 if __name__ == "__main__":
 9     print (os.getcwd())
10     im_ch = Image.open('test.png')
11 
12     print('========識別中文========')
13     print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

測試的圖片和結果如下:

      

可以看到,測試的圖片不是分清晰,測試也出現了很多錯別字。

(5)改進

接着又去找了一些博客來看,都在說可以使用百度AI來提高精度,參考這個博客實現了一下:https://www.cnblogs.com/adam012019/p/11440353.html

效果如下:

      

 可以看到,效果已經非常不錯了。

 至此,這篇博客就寫到這里為止了,其實我是突然想弄一個這個,因為在網上找的在線圖片識別都是要收費的,我就想為何不自己寫一個,就在網上找了幾篇博客看。網友的力量真是強大,再次感謝以上博客的網友。

附錄:

百度智能雲,文字識別API簡介:https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm

可以去開通一個,每天的免費額度還是夠個人使用了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM