【Python筆記】Python讀取word文本操作詳解


文件借鑒摘取:https://www.jb51.net/article/133405.htm(感謝,就喜歡這種有用的文章)

 

背景:python直接讀取txt無壓力,但是直接讀取word,涉及到docx這樣的后綴文件的時候,會有壓力,無法讀取內容報錯,作為一個搬磚人,怎么能允許磚嘚瑟呢?辦它...

正文:

本文研究的主要問題時Python讀取word文本操作,分享了相關概念和實現代碼,具體如下。

一,docx模塊  

  Python可以利用python-docx模塊處理word文檔,處理方式是面向對象的。也就是說python-docx模塊會把word文檔,文檔中的段落、文本、字體等都看做對象,對對象進行處理就是對word文檔的內容處理。

二,相關概念

如果需要讀取word文檔中的文字(一般來說,程序也只需要認識word文檔中的文字信息),需要先了解python-docx模塊的幾個概念。

1,Document對象,表示一個word文檔。
2,Paragraph對象,表示word文檔中的一個段落
3,Paragraph對象的text屬性,表示段落中的文本內容。

三,模塊的安裝和導入

  安裝這個模塊的時候,對新人還是很煩的,會用其實超級簡單,會在自己的“相關軟件安裝部署”分類中,記錄一個安裝筆記,方便自己學習。

  基本的安裝需求為:1. 先安裝python;2.安裝pip;3. 利用pip去在線下載和自動安裝python-docx;  

  需要注意,python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx,如下圖表示安裝成功(最后那句英文Successfully installed,成功地安裝完成,十分考驗英文水平。)

注意在導入模塊時,用的是import docx。

  注意:安裝完成后需要檢驗下自己這個模塊是否真正安裝成功了,可以通過下面的方法(win7下,且確保python安裝正常):

  (1)運行cmd,直接鍵入命令:python

 

   (2)上面這樣就代表正常了,python文件中可正常導入這個庫了

四,舉個例子讀取word文本

  首先創建一個docx文檔,內容是這樣的:

 

  代碼如下:

  1. 首先導入docx庫

 

   2. 然后讀取一個文件中內容

 

   3. 運行結果(由於我加了一些關鍵字檢索的處理所以,處理完運行結果是這樣的)

 

   上面就是,這個python模塊的簡單應用。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM