書接上回:
避坑教程:最新百度PaddleOCR文字識別成功下載安裝保姆級手把手教程 (weibo.com)
首先,講下這個工具是干什么用的:它的功能主要是針對一張完整的PDF圖片,可以對文檔圖片中的文本、表格、圖片、標題與列表區域進行分類。同時還可以利用表格識別技術完整地提取表格結構信息,使得表格圖片變為可編輯的Excel文件。如下圖所示可以進行版面分析+表格識別。
先看表格圖片OCR保存為Excel,實際效果對比
核心技術在於兩個:一個是PP-Structure的版面分析技術,另一個是PaddleDetection開源的高效檢測算法PP-YOLO v2。
PP-Structure Pipeline介紹:
安裝 Layout-Parser
pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl
如果遇到如下錯誤提示:
ModuleNotFoundError: No module named 'win32con'
【解決方案】:
pip uninstall winshell
pip uninstall pypiwin32
pip install pywin32
pip install pypiwin32
1、安裝pywin32
pip install pywin32
2、在site-packages找到win32
3、進入win32\lib\win32con.py
4、把win32con.py復制到site-packages可以直接import
import win32con
5、把win32con.py復制到win32目錄下
import win32.win32con
6、讀取不到的原因是因為不在sys.path下,所以改變環境變量的路徑也行
查看python位數
C:\Users\king>python
Python 3.9.1 (tags/v3.9.1:1e5d33e, Dec 7 2020, 17:08:21) [MSC v.1927 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
從以下鏈接下載相應的版本后安裝
https://github.com/mhammond/pywin32/releases
老版本:
https://sourceforge.net/projects/pywin32/files/pywin32
My solution is:
python -m pip install pywin32
. Then you will see module win32file in the path of C:/python27/Lib/site-packages/win32file.pyd
download
https://paddle-model-ecology.bj.bcebos.com/model/layout-parser/ppyolov2_r50vd_dcn_365e_publaynet.tar
to C:\Users\king/.paddledet/inference_model\ppyolov2_r50vd_dcn_365e_publaynet\ppyolov2_r50vd_dcn_365e_publaynet_infer\ppyolov2_r50vd_dcn_365e_publaynet.tar
更改環境變量:
默認的模型保存文件夾:
詳情: O網頁鏈接