Python讀取word文檔(python-docx包)


最近想統計word文檔中的一些信息,人工統計的話。。。三天三夜吧
python 不愧是萬能語言,發現有一個包叫做 docx,非常好用,具體查看官方文檔:https://python-docx.readthedocs.io/en/latest/index.html
(v0.8.6)

還有一個是 win32com 包,這個包安裝步驟如下:
http://jingyan.baidu.com/article/d3b74d64c853081f77e60929.html

安裝好 win32com之后安裝 docx包:

pip install  python-docx
import docx
from win32com import client as wc
import matplotlib.pyplot as plt
from collections import Counter 
import os
# 首先將doc轉換成docx
word = wc.Dispatch("Word.Application")

# 找到word路徑 + 文件名 ,即可打開文件

full_path = 'C:\\Users\\ASUS\\Desktop\\test.docx'
doc = word.Documents.Open(full_path)

# 使用參數16表示將doc轉換成docx,保存成docx后才能 讀文件

doc.SaveAs(r"D:\\test2.docx",16)
doc.Close()
word.Quit()


# 讀取word內容
# 這里是以段落為單位的,下面用一個for 遍歷所有段落

doc = docx.Document("D:\\test2.docx")
parag_num = 0
for para in doc.paragraphs :
    print(para.text)
    parag += 1  
print ('This document has ', parag, ' paragraphs')

word文檔里是這樣的:
這里寫圖片描述

執行代碼結果:
這里寫圖片描述

還可以讀取word文檔中的表格,圖片等其他信息,方便對多個word文檔進行統計,分析,處理


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM