【背景】
需求: 打印word文件
模塊: python-docx
【問題】
傳遞xxx.doc文件給python腳本,執行后,控制台沒有內容輸出
經查詢后了解到,大致理由: doc是早一代的word文件,封閉格式,office或wps是采用反破譯去解析出來,但也不保證完美解析
python沒有做解析doc文件的模塊
【解決】(目前只找到這一種)
利用 Linux下的antiword命令進行解析
使用: [ antiword + doc_file]
安裝antiword:
1. 解壓安裝包
2. 進入文件夾
3. 執行make && make install