1.首先安裝庫 pdfminer3k
2.幾個類
- PDFParser: 用來解析pdf文件。
- PDFDocument:用來保存 PDFParser 解析后的對象。
- PDFPageInterpreter:用來處理解析后的文檔頁面內容。
- PDFResourceManager:pdf 共享資源管理器,用於存儲共享資源,如字體或圖像。
3.代碼(其實有一點問題,我會盡快找到解決辦法,然后更改)
#讀取解析pdf文件 報錯xxxx from io import StringIO from pdfminer.pdfinterp import PDFResourceManager,process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams pdf_file = open(r'長恨歌.pdf','rb') rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams) process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file) device.close() content = retstr.getvalue() retstr.close() pdf_file.close() print(content)