辦公自動化:輕松提取PDF頁面數據,並生成Excel文件(代碼實戰)!


發現網上有專門做文檔格式轉換的網站,不過是要充會員才可以。今天來做一篇PDF轉換成Excel文檔的代碼實戰,希望大佬喜歡,哈哈,話不多說,馬上進入實戰環節。

file

【閱讀全文】

首先,我們一如既往的介紹一下需要用到的第三方庫。

import pdfplumber  # 專門處理PDF文檔格式的文件對象
import pandas as pd  # 數據處理庫,常見的DtaFrame、Series數據對象處理

然后,再把相應的PDF數據提取出來並且保存在DataFrame數據對象中。

# 打開PDF文件、得到PDF數據文件對象
pdf_obj = pdfplumber.open('data.pdf')

# 這里我們以獲取第一頁的PDF數據為例
page_1 = pdf_obj.pages[0]

# 從得到的第一頁數據中提取表格數據
data_table = page_1.extract_table()

# 將提取到的數據表格轉換為DataFrame數據對象
data_frame = pd.DataFrame(data_table)

# 打印查看DataFrame數據
print(data_frame)

得到DataFrame數據對象之后,需要進行數據處理的話可以參考前面的文章DataFrame數據處理相關的知識點。

最后,將准備好的DataFrame數據對象保存成Excel格式的數據文件就大功告成啦。

writer = pd.ExcelWriter('C:\\data.xlsx') # 設置文檔路徑

data_frame.to_excel(writer, index=None, startrow=1, encoding='utf-8',sheet_name='數據統計')  # 設置Excel對象

ws = writer.sheets['數據統計']  # 寫入工作表名稱

ws.write_string(0, 0, '我是一個標題')  # 添加標題

writer.save()  # 保存

file

【往期精彩】

● sched 模塊中巨好用的輕量級定時任務神器scheduler!

● 不用再使用命令行打包成exe,有人寫出了UI應用,可視化UI界面對python程序進行打包的方法!

● 發現一個秘密:既python3.6之后字典竟然變成了有序集合,我再次驗證了一下!

● 這么多的內置函數能記住嗎?對python的68個內置函數分類總結!

● 必須要會的文件操作對象File,python文件讀寫操作利器!

● 你不知道的CS模式的進程管理工具,狀態監測、項目啟停一目了然!

● 如何將一個python應用以docker鏡像的方式來運行?

● python-celery專注於實現分布式異步任務處理、任務調度的插件!

● python遠程服務操作工具:fabric,遠程命令、本地命令、服務器操作利器!

● 辦公自動化:Python-win32com自動將word文檔轉換成pdf格式!

● pandas數據統計插件的連接函數concat()妙用,靈活處理數據對象!

● python超贊插件you-get,執行一行命令即可下載、命令行下載工具推薦!

● python常用轉義字符串總結:各種字符轉義的不同、如何取消轉義字符效果?

● 如何使用python完成對WebService服務的調用?suds-py3插件安利一下!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM