python___docx模塊


一,docx模塊

Python可以利用python-docx模塊處理word文檔,處理方式是面向對象的。也就是說python-docx模塊會把word文檔,文檔中的段落、文本、字體等都看做對象,對對象進行處理就是對word文檔的內容處理。

二,相關概念

如果需要讀取word文檔中的文字(一般來說,程序也只需要認識word文檔中的文字信息),需要先了解python-docx模塊的幾個概念。

1,Document對象,表示一個word文檔。
2,Paragraph對象,表示word文檔中的一個段落
3,Paragraph對象的text屬性,表示段落中的文本內容。

三,模塊的安裝和導入

需要注意,python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx,如下圖表示安裝成功(最后那句英文Successfully installed,成功地安裝完成)

注意在導入模塊時,用的是import docx。

也真是奇了怪了,怎么安裝和導入模塊時,很多都不用一個名字,看來是很有必要出一個python版本的模塊管理程序python-maven了,本段純屬PS。

四,讀取word文本

在了解了上面的信息之后,就很簡單了,下面先創建一個D:\temp\word.docx文件,並在其中輸入如下內容。

#-*- conding:utf-8 -*-
'''
Created on 2018年7月14日

@author: Administrator
'''
import docx


file=docx.Document(r"F:\python從入門到放棄\7\2\wenjian.docx")

print('段落:'+str(len(file.paragraphs)))
# 
# for para in file.paragraphs:
#     print(para.text)
    
for i in range(len(file.paragraphs)): 
    print(""+str(i)+"段的內容是:"+file.paragraphs[i].text)  

 

 1 #-*- conding:utf-8 -*-
 2 '''
 3 Created on 2018年7月14日
 4 
 5 @author: Administrator
 6 '''
 7 import sys
 8 
 9 from docx import Document
10 from docx.shared import Inches
11 
12 def main():
13 #     reload(sys)
14 #     sys.setdefaultencoding('utf-8')
15     
16     # 創建文檔對象
17     document = Document()
18     
19     # 設置文檔標題,中文要用unicode字符串
20     document.add_heading(u'我的一個新文檔',0)
21     
22     # 往文檔中添加段落
23     p = document.add_paragraph('This is a paragraph having some ')
24     p.add_run('bold ').bold = True
25     p.add_run('and some ')
26     p.add_run('italic.').italic = True
27     
28     # 添加一級標題
29     document.add_heading(u'一級標題, level = 1',level = 1)
30     document.add_paragraph('Intense quote',style = 'IntenseQuote')
31     
32     # 添加無序列表
33     document.add_paragraph('first item in unordered list',style = 'ListBullet')
34     
35     # 添加有序列表
36     document.add_paragraph('first item in ordered list',style = 'ListNumber')
37     document.add_paragraph('second item in ordered list',style = 'ListNumber')
38     document.add_paragraph('third item in ordered list',style = 'ListNumber')
39     
40     # 添加圖片,並指定寬度
41     document.add_picture('cat.png',width = Inches(2.25))
42     
43     # 添加表格: 1行3列
44     table = document.add_table(rows = 1,cols = 3)
45     # 獲取第一行的單元格列表對象
46     hdr_cells = table.rows[0].cells
47     # 為每一個單元格賦值
48     # 注:值都要為字符串類型
49     hdr_cells[0].text = 'Name'
50     hdr_cells[1].text = 'Age'
51     hdr_cells[2].text = 'Tel'
52     # 為表格添加一行
53     new_cells = table.add_row().cells
54     new_cells[0].text = 'Tom'
55     new_cells[1].text = '19'
56     new_cells[2].text = '12345678'
57     
58     # 添加分頁符
59     document.add_page_break()
60     
61     # 往新的一頁中添加段落
62     p = document.add_paragraph('This is a paragraph in new page.')
63     
64     # 保存文檔
65     document.save('demo1.doc')
66     
67 if __name__ == '__main__':
68     main()

讀取表格:

#-*- conding:utf-8 -*-
'''
Created on 2018年7月14日

@author: Administrator
'''

import docx

doc = docx.Document('wenjian.docx')
for table in doc.tables:  # 遍歷所有表格
    print('----table------')
    for row in table.rows:  # 遍歷表格的所有行
        # row_str = '\t'.join([cell.text for cell in row.cells])  # 一行數據
        # print row_str
        for cell in row.cells:
            print(cell.text, '\t',)
        print() #換行

首先是用docx.Document打開對應的文件目錄。docx文件的結構比較復雜,分為三層,1、Docment對象表示整個文檔;2、Docment包含了Paragraph對象的列表,Paragraph對象用來表示文檔中的段落;3、一個Paragraph對象包含Run對象的列表。 因此p.text會打印出整個的文本文檔。而用doc.tables來遍歷所有的表格。並且對每個表格通過遍歷行,列的方式來得到所有的內容。

但是在運行結果中並沒有找到我們插入的文件對象和圖片,text.txt文檔。這部分該如何解析呢。首先我們需要先來認識下docx文檔的格式組成:

docx是Microsoft Office2007之后版本使用的,用新的基於XML的壓縮文件格式取代了其目前專有的默認文件格式,在傳統的文件名擴展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。

docx格式的文件本質上是一個ZIP文件。將一個docx文件的后綴改為ZIP后是可以用解壓工具打開或是解壓的。事實上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。

docx 格式文件的主要內容是保存為XML格式的,但文件並非直接保存於磁盤。它是保存在一個ZIP文件中,然后取擴展名為docx。將.docx 格式的文件后綴改為ZIP后解壓, 可以看到解壓出來的文件夾中有word這樣一個文件夾,它包含了Word文檔的大部分內容。而其中的document.xml文件則包含了文檔的主要文本內容

 

從上面的文檔我們可以了解到docx文檔實際上是由XML文檔打包組成的。那么我們要得到其中所有的部分,可以用ZIP解壓的方式來得到所有的部件。我們先試下看是否可以

1 將docx文檔改成ZIP的后綴

2 解壓文件

解壓之后得到如下幾個文件

點開word文件夾:有如下的文件夾。document.xml就是描述文本對象的文件

其中embeddings文件中就是我們插入的文本對象text.txt. 是一個bin文件

Media文件中就是存儲的圖片:

我們通過手動的方式將插入的文本以及圖片解析出來,那么通過代碼也是同樣可以解析的。代碼如下。

os.chdir(r'E:\py_prj')  #首先改變目錄到文件的目錄

os.rename('test.docx','test.ZIP')  # 重命名為zip文件

f=zipfile.ZipFile('test.zip','r')  #進行解壓

for file in f.namelist():

    f.extract(file)

file=open(r'E:\py_prj\word\embeddings\oleObject1.bin','rb').read() #進入文件路徑,讀取二進制文件。

for f in file:

    print f

通過上面的方式,就可以將docx中插入的文件以及圖片全部解析出來。具體docx的寫的方式可以參考官方文檔的介紹


python docx 中文字體設置

解決辦法: 
首先創建一個文檔,要先聲明一個document:

from docx import Document
document = Document()

docx內置的樣式都可以通過document.styles取到。

正文是Normal, 標題樣式根據標題聲明的基本,分別從Heading 1 到Heading 9, 另外還有table、list等各種word對應的樣式。可以通過遍歷document.styles查看。

我們以正文Normal為例。先來看看涉及字體更改的是style object里面的哪些屬性。

document.styles[‘Normal’].font.name

有興趣深入研究的同學可以看看官方文檔對Font的介紹http://python-docx.readthedocs.io/en/latest/dev/analysis/features/text/font.html?highlight=font。 在這里我們只需要更改font.name。

document.styles[‘Normal’]._element.rPr.rFonts

只更改font.name是不夠的,還需要調用._element.rPr.rFonts的set()方法。

綜合起來這樣

from docx.oxml.ns import qn

document.styles['Normal'].font.name = u'宋體'
document.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋體')

  

問題解決, 表格中字體成功更改為”宋體”.

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM