pdf文件的讀取和識別


1.首先安裝庫  pdfminer3k

2.幾個類

  • PDFParser: 用來解析pdf文件。
  • PDFDocument:用來保存 PDFParser 解析后的對象。
  • PDFPageInterpreter:用來處理解析后的文檔頁面內容。
  • PDFResourceManager:pdf 共享資源管理器,用於存儲共享資源,如字體或圖像。

3.代碼(其實有一點問題,我會盡快找到解決辦法,然后更改)
#讀取解析pdf文件    報錯xxxx
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager,process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams


pdf_file = open(r'長恨歌.pdf','rb')
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()

device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams)
process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file)
device.close()
content = retstr.getvalue()
retstr.close()
pdf_file.close()

print(content)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM