第三方庫說明
# PDF讀取第三方庫
import pdfplumber
# DataFrame 數據結果處理
import pandas as pd
初始化DataFrame數據對象
# 初始化DataFrame數據對象、用於DataFrame數據保存
data_frame = pd.DataFrame()
讀取PDF表格
# pdf 文件路徑
pdf_file = '/usr/load/data.pdf'
# 讀取pdf數據
pdf_data = pdfplumber.open(pdf_file)
# 遍歷PDF數據
for page in pdf_data.pages:
# 每一頁的Tbale表格數據
table = page.extract_table()
# 將每一頁的數據寫入一個DataFrame對象
data_frame_page = pd.DataFrame(table[1:], columns=table[0])
# 合並每一頁的表格數據
data_frame = pd.concat([data_frame_page, data_frame], ignore_index=True)
# 簡單的數據清洗、刪除其中列值全部為Nan的數據列
data_frame.dropna(axis=1, how='all', inplace=True)
寫入EXCEL表格
# excel 文件路徑
excel_path = '/usr/load/data.pdf'
# 自定義列名
data_frame.columns = ['姓名', '年齡', '身份證號', '績效考核']
# DataFrame數據保存到Excel數據表中
data_frame.to_excel(excel_writer=excel_path, index=False, encoding='utf-8')
【粉絲福利】關注公眾號,獲取全套視頻資料,使用python的pdf讀寫功能模塊,將從pdf讀取的表格內容自定義轉換后寫入excel文件表格。喜歡小編點個 '關注' 吧!
【往期精選】
● python 中最好用的身份證規則解析工具,地區碼、性別、出生年月、身份證編碼等快速校驗!
● os用法總結:python中必須掌握的內置模塊os,實現與計算機操作系統的常規交互!
● python 實用技巧:幾十行代碼將照片轉換成素描圖、隨后打包成可執行文件(源碼分享)
● python十行代碼實現文件去重,去除重復文件的腳本
● python的GUI框架tkinter,實現程序員的流氓式表白邏輯
● 探究python函數的不定長參數*args與**kwargs
● 沒有深思過的python冷知識你知道幾個?
● python圖片處理,自動生成gif動態圖片
● python-redis 的操作手法,相當簡單的redis數據存儲方式!
● python 日期、時間處理,各種日期時間格式/字符串之間的相互轉換究竟是怎樣的?
● python 內置的數據計數器Counter相當nice
● 幾十行代碼實現python發送郵件與接收郵件
● 沒有開發工具,在服務器控制台如何進行python代碼調試,高級編程pdb代碼調試!
● 梳理python路線知識盲區,最全面、最詳細的python知識體系框架思維導圖終於出爐了!
本文由微信公眾號【python 集中營】發布,更多精彩文章、視頻資料即可領取!