pdfminer批量處理PDF文件

本文轉載自查看原文 2019-11-28 10:00 322 python

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams, LTTextLineHorizontal, LTFigure, LTRect, LTLine, LTCurve
import os


class PdfForString(object):
    def __init__(self):
        self.pdf_list = os.listdir(r'E:\StockExchange\PDF')  # 獲取PDF文件夾中所有pdf名稱
        #  存儲文檔資源
        self.src = PDFResourceManager()
        #  設備對象
        self.device = PDFPageAggregator(self.src, laparams=LAParams())
        # 解釋器對象
        self.inter = PDFPageInterpreter(self.src, self.device)

    # 生成pdf路徑
    def for_string(self):
        for pdf in self.pdf_list:
            pdf_path = os.path.join(os.path.dirname(os.path.dirname(__file__)) + '/PDF', pdf)
            yield pdf_path

    # 解析pdf
    def pdf_analysis(self):
        for path in self.for_string():
            pd_file = open(path, 'rb')
            parser = PDFParser(pd_file)  # pdf文件解析對象

            #  pdf文檔對象
            document = PDFDocument()
            parser.set_document(document)
            document.set_parser(parser)
            pages = document.get_pages()
            yield pages

    # 獲取PDF信息
    def get_string(self):
        for pages in self.pdf_analysis():
            for page in pages:
                self.inter.process_page(page)
                layout = self.device.get_result()
                for x in layout:
                    if isinstance(x, LTTextBoxHorizontal):
                        print(str(x.get_text()))
            # break


PdfForString().get_string()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pdfminer API介紹：pdf網頁爬蟲 Python3自動化_文件批量處理(文本、PDF、Excel；讀取、篩選、導出) python 批量處理文件 Python對pdf中的關鍵字過濾（pdfminer3k或pdfminer使用） python之批量打印網頁為pdf文件（二）導入 from pdfminer.pdfinterp import process_pdf 錯誤提高效率｜批量下載網頁上所有的PDF文件 python 批量給 word，excel，ppt 或 pdf 文件添加水印「Python實用秘技04」為pdf文件批量添加文字水印使用PDFminer3k解析pdf為文字遇到：WARING：root:GBK-EUC-H