# https://www.jianshu.com/p/f33233e4c712 import pdfplumber # 為了操作PDF from openpyxl import Workbook wb = Workbook() # 創建文件對象 ws = wb.active # 獲取第一個sheet path="C:/Users/Lenovo/Desktop/中國建築集團2020屆校園招聘需求名錄.pdf" pdf = pdfplumber.open(path) print('\n') print('開始讀取數據') print('\n') print(pdf.pages[1].extract_tables()[0][0]) ws.append(pdf.pages[1].extract_tables()[0][0]) for page in pdf.pages: # 獲取當前頁面的全部文本信息,包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): # print(table) for row in table: if "序號" not in row: # print(type(row)) rowlist=str(row).replace("[","",).replace("]","").replace("'","").replace("\\n","").split(",") print(rowlist) ws.append(rowlist) print('---------- 分割線 ----------') pdf.close() # 保存Excel表 wb.save('中國建築集團2020屆校園招聘需求名錄.xlsx') print('\n') print('寫入excel成功') print('保存位置:') print('中國建築集團2020屆校園招聘需求名錄.xlsx') print('\n')
