python中使用tabula爬取pdf數據並導出表格


Tabula是專門用來提取PDF表格數據的,同時支持PDF導出CSV、Excel格式。

首先安裝tabula-py:

tabula-py依賴庫包括Java、pandas、numpy所以需要保證運行環境中安裝了這些庫。

在Python中配置好Java后看能否正常運行

把PDF中爬取出來的數據制成表格,需要加載openpyxl:

需要讀取平均頁數有二三百多頁的PDF文件數據,爬取出需求數據,以及按需求格式制成不同的sheet表:

 

 把寫好的Python文件放在和PDF文件放在同一目錄下,運行Python文件自動導出我們所需的表格

 

執行以上代碼,成功導出提取的數據,同時也可以訪問網站:https://tabula.technology/進行在線解析pdf

 以上方法完美的解決了在PDF中提取表格數據,同時支持PDF導出CSV、Excel格式,減少了手工輸入,自動化簡化了工作。

文章如有錯誤請給與指教,謝謝!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM