python中使用tabula爬取pdf數據並導出表格

本文轉載自查看原文 2018-09-11 22:02 7794 python爬蟲

Tabula是專門用來提取PDF表格數據的，同時支持PDF導出CSV、Excel格式。

首先安裝tabula-py:

tabula-py依賴庫包括Java、pandas、numpy所以需要保證運行環境中安裝了這些庫。

在Python中配置好Java后看能否正常運行

把PDF中爬取出來的數據制成表格，需要加載openpyxl：

需要讀取平均頁數有二三百多頁的PDF文件數據，爬取出需求數據，以及按需求格式制成不同的sheet表：

把寫好的Python文件放在和PDF文件放在同一目錄下，運行Python文件自動導出我們所需的表格

執行以上代碼，成功導出提取的數據，同時也可以訪問網站：https://tabula.technology/進行在線解析pdf

以上方法完美的解決了在PDF中提取表格數據，同時支持PDF導出CSV、Excel格式，減少了手工輸入，自動化簡化了工作。

文章如有錯誤請給與指教，謝謝！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在vue中使用XLSX導出表格 js導出表格數據 layui 導出表格數據用Python創建/讀取/導出表格數據文件爬取表格數據 layui導出表格全部數據 python編程：tabula、pdfplumber、camelot進行表格數據識別 Python提取網頁數據后導出表格並且數據轉化為json 【Python 庫】解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比【JS-Excel】使用JS導出表格數據、附帶解決科學計數法等問題