在之前的自動化系列文章中,我們分別講解過python操作Excel利器openpyxl,也講過python操作PDF的幾種方式,今天我們將通過代碼講解Python操作Word文檔docx的常用方法。
安裝
docx是一個非標准庫,需要在命令行(終端)中使用pip即可安裝
一定要注意,安裝的時候是python-docx而實際調用時均為docx!
前置知識
Word中一般可以結構化成三個部分:
- 文檔Document
- 段落Paragraph
- 文字塊Run
也就是 Document - Paragraph - Run 三級結構,這是最普遍的情況。其中文字塊Run最難理解,並不能完成按照圖中所示,兩個符號之間的短句是文字塊。
通常情況下可以這么理解,但假如 這個短句子中有多種不同的 樣式,則會被划分成多個文字塊 ,以圖中的第一個黃圈為例,如果給這個短句添加一些細節
此時就有4個文字塊,同時有時候一個Word文檔中是存在表格的,這時就會新的文檔結構產生
這時的結構非常類似Excel,可以看成Document - Table - Row/Column - Cell四級結構
Word讀取
1.打開Word
2. 獲取段落
一個word文件由一個或者多個paragraph段落組成
3. 獲取段落文本內容
用.text獲取文本
4. 獲取文字塊文本內容
一個paragraph段落由一個或者多個run文字塊組成
5. 遍歷表格
上面的操作完成的經典三級結構的遍歷,遍歷表格非常類似
寫入Word
1. 創建Word
只要不指定路徑,就默認為創建新Word文件
2. 保存文件
對文檔的修改和創建都切記保存
3. 添加標題
4. 添加段落
5. 添加文字塊
6. 添加分頁
7. 添加圖片
設置樣式
1. 文字字體設置
2.文字其他樣式設置
3. 段落樣式設置
默認對齊方式是左對齊,可以自行修改
小結
以上就是如何用Python中的docx模塊實現Word中的常用操作,只要明白什么類型的操作可以用Python執行,並能 在之后遇到繁瑣的任務時想到使用Python 即可,以下是幾個利用該模塊實現辦公自動化的案例,希望能夠對你有所幫助。
此文轉載文,著作權歸作者所有,如有侵權聯系小編刪除!
原文地址:http://developer.51cto.com/art/202009/627124.htm
需要源代碼的點擊這里下載