辦公自動化:幾行代碼將PDF文檔轉換為WORD文檔(代碼實戰)!


看了四五個PDF文件對象相關的插件庫,比如:pdfminer.six、PyPDF2、pikepdf、pdfplumber、PyMuPDF之類的有很多,最后發現pdf2docx比較簡單,只需要幾行代碼便可以實現。本着使用最簡單的方法來解決實際問題的至高境界,我們就使用它來演示。

file

首先,通過pip的方式安裝再導入模塊。

pip install pdf2docx  # 安裝 pdf2docx

# 導入文件轉換對象Converter
from pdf2docx import Converter

分別定義好word與pdf文件的存儲路徑,再將已經存在pdf文件轉換成python的插件對象。

# 定義PDF文件路徑
pdf_file_path = 'Python 集中營.pdf'

# 定義WORD文件路徑
docx_file_path = 'Python 集中營.docx'

# 初始化PDF轉換對象
converter = Converter(pdf_file_path)

將初始化的pdf對象轉換成word文檔存儲。

'''
實現PDF轉換成WORD
convert(path, start=0, end=None)
path: word文檔路徑
start: 開始頁數,0 從第一頁開始
end: 結束頁數,None 無限制
pages: 指定哪幾頁需要轉換
'''
# 連續頁面進行轉換
converter.convert(docx_file_path, start=0, end=None)

# 指定頁面進行轉換
# converter.convert(docx_file_path, pages=[0,2,4,6,8,10])

# 關閉轉換對象
converter.close()

file

【往期精彩】

● 辦公自動化:輕松提取PDF頁面數據,並生成Excel文件(代碼實戰)!

● sched 模塊中巨好用的輕量級定時任務神器scheduler!

● 不用再使用命令行打包成exe,有人寫出了UI應用,可視化UI界面對python程序進行打包的方法!

● 發現一個秘密:既python3.6之后字典竟然變成了有序集合,我再次驗證了一下!

● 大廠校招白菜打包價40W+,可高興壞了房東大媽...

● 這么多的內置函數能記住嗎?對python的68個內置函數分類總結!

● 必須要會的文件操作對象File,python文件讀寫操作利器!

● 你不知道的CS模式的進程管理工具,狀態監測、項目啟停一目了然!

● 如何將一個python應用以docker鏡像的方式來運行?

● python-celery專注於實現分布式異步任務處理、任務調度的插件!

● python遠程服務操作工具:fabric,遠程命令、本地命令、服務器操作利器!

● 辦公自動化:Python-win32com自動將word文檔轉換成pdf格式!

● Git LFS 3.0.0 發布,對大文件進行版本控制的 Git 擴展

● pandas數據統計插件的連接函數concat()妙用,靈活處理數據對象!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM