辦公室文員必備python神器,將PDF文件表格轉換成excel表格!


【閱讀全文】

第三方庫說明

# PDF讀取第三方庫
import pdfplumber

# DataFrame 數據結果處理
import pandas as pd

初始化DataFrame數據對象

# 初始化DataFrame數據對象、用於DataFrame數據保存
data_frame = pd.DataFrame()

讀取PDF表格

# pdf 文件路徑
pdf_file = '/usr/load/data.pdf'

# 讀取pdf數據
pdf_data = pdfplumber.open(pdf_file)

# 遍歷PDF數據
for page in pdf_data.pages:
    # 每一頁的Tbale表格數據
    table = page.extract_table()
    # 將每一頁的數據寫入一個DataFrame對象
    data_frame_page = pd.DataFrame(table[1:], columns=table[0])
    # 合並每一頁的表格數據
    data_frame = pd.concat([data_frame_page, data_frame], ignore_index=True)

# 簡單的數據清洗、刪除其中列值全部為Nan的數據列
data_frame.dropna(axis=1, how='all', inplace=True)

寫入EXCEL表格

# excel 文件路徑
excel_path = '/usr/load/data.pdf'

# 自定義列名
data_frame.columns = ['姓名', '年齡', '身份證號', '績效考核']

# DataFrame數據保存到Excel數據表中
data_frame.to_excel(excel_writer=excel_path, index=False, encoding='utf-8')

【粉絲福利】關注公眾號,獲取全套視頻資料,使用python的pdf讀寫功能模塊,將從pdf讀取的表格內容自定義轉換后寫入excel文件表格。喜歡小編點個 '關注' 吧!

file

【往期精選】

● python 中最好用的身份證規則解析工具,地區碼、性別、出生年月、身份證編碼等快速校驗!

● os用法總結:python中必須掌握的內置模塊os,實現與計算機操作系統的常規交互!

● python 實用技巧:幾十行代碼將照片轉換成素描圖、隨后打包成可執行文件(源碼分享)

● python十行代碼實現文件去重,去除重復文件的腳本

● python的GUI框架tkinter,實現程序員的流氓式表白邏輯

● 探究python函數的不定長參數*args與**kwargs

● 沒有深思過的python冷知識你知道幾個?

● python圖片處理,自動生成gif動態圖片

● python-redis 的操作手法,相當簡單的redis數據存儲方式!

● python 日期、時間處理,各種日期時間格式/字符串之間的相互轉換究竟是怎樣的?

● python 內置的數據計數器Counter相當nice

● 幾十行代碼實現python發送郵件與接收郵件

● 沒有開發工具,在服務器控制台如何進行python代碼調試,高級編程pdb代碼調試!

● 梳理python路線知識盲區,最全面、最詳細的python知識體系框架思維導圖終於出爐了!

本文由微信公眾號【python 集中營】發布,更多精彩文章、視頻資料即可領取!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM