一、背景交代
手里有很多含有表格的圖片,需要把這些表格從圖片中提取到Excel中。由於並不想花無用功在整理表格上,於是就想着利用python進行圖片識別,然后輸出為.csv或者.xlsw文件。
這里本文將着重介紹用於圖片內容識別的paddle-OCR的安裝,光是安裝這個庫就花費了我很長時間。至於圖片中表格提取,后面再專門寫一篇。
二、安裝前的准備
前提:本人的老筆記本是win7系統、python3.7.4、pycharm、microsoft visual C++14.0
1.首先要安裝 paddlepaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/windows-pip.html),如下圖1所示,選擇系統、安裝方式和計算平台(老電腦是核顯,於是只能選CPU),然后利用下面的命令 使用pip進行安裝
圖1 圖2
2.下載支持paddleOCR的各種包
shapely
imgaug
pyclipper
lmdb
opencv-python==4.2.0.32
tqdm
numpy
visualdl
python-Levenshtein
上面這些庫可以自己手動利用Pip一個個安裝,也可以復制下來創建一個requirements.txt文檔,將這些內容復制進去,然后利用pip install -r D://requirements.txt(后面的requirements.txt要寫絕對路徑)直接安裝
其中在安裝python-Levenshtein這個庫的時候,一直提示安裝失敗,因為缺少microsoft visual c++ 14.0,后來在網上不斷的查找與嘗試,終於在下載並安裝了visual studio 2017后成功解決問題
3.安裝paddle-OCR
①利用命令:pip install "paddleocr>=2.0.1" 下載
②如果不成功,可以在github內部下載(https://github.com/PaddlePaddle/PaddleOCR),如圖2所示,直接下載下來