(1)安裝過程
(2)安裝中文字庫
識別中文需要安裝字庫,參考這個博客:https://www.cnblogs.com/jiyu-hlzy/p/12191463.html
(3)安裝過程出現的錯誤
安裝后執行程序時出現了以下錯誤:

這個錯誤是找不到tesseract.exe造成的,但是我又在pytesseract.py中添加了路徑,最終發現是由於下面的原因造成的:

(4)測試
參考別的博客,寫了幾行簡單的測試代碼,代碼如下:
1 # encoding: utf-8 2 3 import pytesseract 4 from PIL import Image 5 import os 6 7 8 if __name__ == "__main__": 9 print (os.getcwd()) 10 im_ch = Image.open('test.png') 11 12 print('========識別中文========') 13 print(pytesseract.image_to_string(im_ch, lang='chi_sim'))
測試的圖片和結果如下:

可以看到,測試的圖片不是分清晰,測試也出現了很多錯別字。
(5)改進
接着又去找了一些博客來看,都在說可以使用百度AI來提高精度,參考這個博客實現了一下:https://www.cnblogs.com/adam012019/p/11440353.html
效果如下:

可以看到,效果已經非常不錯了。
至此,這篇博客就寫到這里為止了,其實我是突然想弄一個這個,因為在網上找的在線圖片識別都是要收費的,我就想為何不自己寫一個,就在網上找了幾篇博客看。網友的力量真是強大,再次感謝以上博客的網友。
附錄:
百度智能雲,文字識別API簡介:https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm。
可以去開通一個,每天的免費額度還是夠個人使用了。
