pdf文件的读取和识别

本文转载自查看原文 2020-08-02 12:29 701 python自动化

1.首先安装库 pdfminer3k

2.几个类

PDFParser：用来解析pdf文件。
PDFDocument：用来保存 PDFParser 解析后的对象。
PDFPageInterpreter：用来处理解析后的文档页面内容。
PDFResourceManager：pdf 共享资源管理器,用于存储共享资源，如字体或图像。

3.代码(其实有一点问题,我会尽快找到解决办法,然后更改)

#读取解析pdf文件    报错xxxx
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager,process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams


pdf_file = open(r'长恨歌.pdf','rb')
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()

device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams)
process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file)
device.close()
content = retstr.getvalue()
retstr.close()
pdf_file.close()

print(content)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 识别与读取PDF文件 python读取pdf文件 PHP 读取 pdf 文件 C#读取PDF文件 java读取pdf文件内容 python读取PDF文件内容基于Python实现对PDF文件的OCR识别预览PDF文件（读取文件流方式） java 读取pdf、word、Excel文件 PHP 读取PDF文件内容之PdfParser