Python2　獲取docx/doc文件內容

本文轉載自查看原文 2018-10-30 17:09 1257 Python

整體思路：

下載文件並修改后綴為ｚｉｐ文件，解壓ｚｉｐ文件，所要獲取的內容在固定的文件夾下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自帶，不需要額外下載安裝．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'


def create(newfile):
    """下載docx文件，並修改后綴為zip"""
    res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

    if not os.path.exists(newfile):
        f = open(newfile, 'wb')
        for chunk in res.iter_content(100000):
            f.write(chunk)
        f.close()

    os.rename(newfile, 'test.zip')    這種方法發現只能解決一部分doc文件,具體原因不得而知,有明白的歡迎留言    # 將doc/docx文件壓縮成ｚｉｐ文件
    #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)　
    #pf.write(newfile)

def get_txt():
    """解壓zip，並在work/temp/word/document.xml獲取文本內容，進行正則替換標簽等操作"""
    f = zipfile.ZipFile('test.zip', 'r')
    for file in f.namelist():
        f.extract(file, "temp/")
    
    f = xml.dom.minidom.parse('./temp/word/document.xml')
    
    txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
    print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
    create(newfile)
    get_txt()

pasting

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python-docx讀取doc文件 python_doc 讀寫docx文件 Java實現上傳txt,doc,docx文件並且讀取內容 python轉換doc為docx Python如何實現doc文件轉換為docx文件？ Python腳本：批量將.doc文件轉化為.docx文件如何利用python將.doc文件轉換為.docx文件 python-docx讀取doc,docx文檔獲取docx文件中表格的內容 python3中的docx模塊處理doc或docx格式文件

Python2 獲取docx/doc文件內容

免責聲明！

Python2　獲取docx/doc文件內容