pdf文件的讀取和識別

本文轉載自查看原文 2020-08-02 12:29 701 python自動化

1.首先安裝庫 pdfminer3k

2.幾個類

PDFParser：用來解析pdf文件。
PDFDocument：用來保存 PDFParser 解析后的對象。
PDFPageInterpreter：用來處理解析后的文檔頁面內容。
PDFResourceManager：pdf 共享資源管理器,用於存儲共享資源，如字體或圖像。

3.代碼(其實有一點問題,我會盡快找到解決辦法,然后更改)

#讀取解析pdf文件    報錯xxxx
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager,process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams


pdf_file = open(r'長恨歌.pdf','rb')
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()

device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams)
process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file)
device.close()
content = retstr.getvalue()
retstr.close()
pdf_file.close()

print(content)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python讀取pdf文件 PHP 讀取 pdf 文件 C#讀取PDF文件 java 讀取pdf、word、Excel文件 iOS實現pdf文件預覽，上下翻頁、縮放，讀取pdf目錄 winForm 讀取pdf文件並，轉換成圖片深入學習python解析並讀取PDF文件內容的方法記一次為解決Python讀取PDF文件的Shell操作 PDF.JS 讀取文件流前端展示 C# java讀取pdf總結