一、背景交代
手里有很多含有表格的图片,需要把这些表格从图片中提取到Excel中。由于并不想花无用功在整理表格上,于是就想着利用python进行图片识别,然后输出为.csv或者.xlsw文件。
这里本文将着重介绍用于图片内容识别的paddle-OCR的安装,光是安装这个库就花费了我很长时间。至于图片中表格提取,后面再专门写一篇。
二、安装前的准备
前提:本人的老笔记本是win7系统、python3.7.4、pycharm、microsoft visual C++14.0
1.首先要安装 paddlepaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/windows-pip.html),如下图1所示,选择系统、安装方式和计算平台(老电脑是核显,于是只能选CPU),然后利用下面的命令 使用pip进行安装
图1 图2
2.下载支持paddleOCR的各种包
shapely
imgaug
pyclipper
lmdb
opencv-python==4.2.0.32
tqdm
numpy
visualdl
python-Levenshtein
上面这些库可以自己手动利用Pip一个个安装,也可以复制下来创建一个requirements.txt文档,将这些内容复制进去,然后利用pip install -r D://requirements.txt(后面的requirements.txt要写绝对路径)直接安装
其中在安装python-Levenshtein这个库的时候,一直提示安装失败,因为缺少microsoft visual c++ 14.0,后来在网上不断的查找与尝试,终于在下载并安装了visual studio 2017后成功解决问题
3.安装paddle-OCR
①利用命令:pip install "paddleocr>=2.0.1" 下载
②如果不成功,可以在github内部下载(https://github.com/PaddlePaddle/PaddleOCR),如图2所示,直接下载下来