Tabula是專門用來提取PDF表格數據的,同時支持PDF導出CSV、Excel格式。
首先安裝tabula-py:
tabula-py依賴庫包括Java、pandas、numpy所以需要保證運行環境中安裝了這些庫。
在Python中配置好Java后看能否正常運行
把PDF中爬取出來的數據制成表格,需要加載openpyxl:
需要讀取平均頁數有二三百多頁的PDF文件數據,爬取出需求數據,以及按需求格式制成不同的sheet表:
把寫好的Python文件放在和PDF文件放在同一目錄下,運行Python文件自動導出我們所需的表格
執行以上代碼,成功導出提取的數據,同時也可以訪問網站:https://tabula.technology/進行在線解析pdf
以上方法完美的解決了在PDF中提取表格數據,同時支持PDF導出CSV、Excel格式,減少了手工輸入,自動化簡化了工作。
文章如有錯誤請給與指教,謝謝!