我們需要用到一個python強大的庫:python-dox
直接
pip install python-docx
在項目中加個赤壁賦.docx的空文件
附上完整的python代碼
from docx import Document from docx.shared import Inches from docx.enum.text import WD_ALIGN_PARAGRAPH from docx.oxml.ns import qn titleName = "赤壁賦" author = " " # 作者名字 time = "宋" paragraphs = [ '''壬戌之秋,七月既望,蘇子與客泛舟游於赤壁之下。清風徐來,水波不興。舉酒屬客,誦明月之詩,歌窈窕之章。少焉,月出於東山之上,徘徊於斗牛之間。白露橫江,水光接天。縱一葦之所如,凌萬頃之茫然。浩浩乎如馮虛御風,而不知其所止;飄飄乎如遺世獨立,羽化而登仙。''', '''於是飲酒樂甚,扣舷而歌之。歌曰:“桂棹兮蘭槳,擊空明兮溯流光。渺渺兮於懷,望美人兮天一方。”客有吹洞簫者,倚歌而和之,其聲嗚嗚然:如怨如慕,如泣如訴;余音裊裊,不絕如縷;舞幽壑之潛蛟,泣孤舟之嫠婦蘇子愀然,正襟危坐,而問客曰:“何為其然也?”客曰:“月明星稀,烏鵲南飛,此非曹孟德之詩乎?西望夏口,東望武昌。山川相繆,郁乎蒼蒼;此非孟德之困於周郎者乎?方其破荊州,下江陵,順流而東也,舳艫千里,旌旗蔽空,釃酒臨江,橫槊賦詩;固一世之雄也,而今安在哉?況吾與子漁樵於江渚之上,侶魚蝦而友糜鹿,駕一葉之扁舟,舉匏樽以相屬;寄蜉蝣與天地,渺滄海之一粟。哀吾生之須臾,羡長江之無窮;挾飛仙以遨游,抱明月而長終;知不可乎驟得,托遺響於悲風。”''', '''蘇子曰:“客亦知夫水與月乎?逝者如斯,而未嘗往也;盈虛者如彼,而卒莫消長也。蓋將自其變者而觀之,而天地曾不能一瞬;自其不變者而觀之,則物於我皆無盡也。而又何羡乎?且夫天地之間,物各有主。苟非吾之所有,雖一毫而莫取。惟江上之清風,與山間之明月,耳得之而為聲,目遇之而成色。取之無禁,用之不竭。是造物者之無盡藏也,而吾與子之所共適。”''', '''客喜而笑,洗盞更酌,餚核既盡,杯盤狼藉。相與枕藉乎舟中,不知東方之既白。''' ] # 新建文檔 document = Document() document.styles['Normal'].font.name = u'微軟雅黑' document.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'微軟雅黑') heading1 = document.add_heading('赤壁賦', 0) heading1.alignment = WD_ALIGN_PARAGRAPH.CENTER # 添加作者(居中斜體加粗) p = document.add_paragraph("【作者】") p.alignment = WD_ALIGN_PARAGRAPH.CENTER run = p.add_run(author) run.italic = True run.bold = True # 添加朝代(居中斜體加粗) p.add_run(" 【朝代】") run = p.add_run(time) run.italic = True run.bold = True # 寫下文章(首行縮進) for paragraph in paragraphs: p = document.add_paragraph(paragraph) # 創建段落對象 p.paragraph_format.first_line_indent = Inches(0.25) document.save('E:\代碼練習\wms111\赤壁賦1.docx')
好了,大功告成
docx文件文字的提取完整代碼
from docx import Document # 指定文檔路徑 docFile = 'E:\代碼練習\wms111\赤壁賦1.docx' # 打開文檔為Document對象 document = Document(docFile) # 遍歷所有的段落保存到text數組 text = [] for para in document.paragraphs: print(para) text.append(para.text) # 打開最終結果 print('\n'.join(text))