Python對pdf中的關鍵字過濾（pdfminer3k或pdfminer使用）

本文轉載自查看原文 2019-06-12 17:08 1335

最近在實習，老板一下子發給了我120份研報，然而很多都是沒用的。聰明的大腦一定要想辦法讓電腦幫助自己完成簡單的工作！

下面是Python篩選含有“”丙烯“”關鍵字的程序，由於文件的保密性只能貼出代碼。

注意：

pip install pdfminer3k而不是pdfminer
導入的時候名字是pdfminer，原因我才是python版本的問題

# -*- coding: utf-8 -*-
"""
Created on Fri May 10 16:54:16 2019

@author: didi.lv
"""



import os


from io import StringIO
import shutil

# 注意：一定要pip install pdfminer3k 而不是pdfminer
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import  LAParams

# 讀取pdf的函數，返回內容
def readPdf(pdf_file):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr=rsrcmgr, outfp=retstr, laparams=laparams)

    process_pdf(rsrcmgr=rsrcmgr, device=device, fp=pdf_file)
    device.close()

    content = retstr.getvalue()
    retstr.close()

    return content

def file_name(file_dir):   
    names = []
    for root, dirs, files in os.walk(file_dir):
        names.append(files)
        
    return files

    


if __name__ == '__main__':
    file_dir = r'C:\\Users\didi.lv\Desktop\filenames'
    file_names_str = str(file_name(file_dir))
    name_ = file_names_str.split('.pdf\', ')

# 簡單的check下這個代碼的細節，需要理解
    name_temp1 = name_[0]
    name_[0] = name_temp1[1:]

    name_temp2 = name_[-1]
    name_[-1] = name_temp2[0:-6] 
    
    i = 0
    for name_check in name_[48:]:
        print('--------------------------------------------------------')
        i += 1
        print(i)
        name_check = name_check[1:]
        name_check += '.pdf'
        name_check_open = r'C:\\Users\didi.lv\Desktop\filenames' + '\\' + name_check
        pdf_file = open(name_check_open, 'rb')
        content = readPdf(pdf_file)
        if '丙烯' in content:
        # 注意這里是從原始位置filenames1復制到目標位置filenames2
            file_origin = r'C:\\Users\didi.lv\Desktop\filenames1' + '\\' + name_check
            file_target = r'C:\\Users\didi.lv\Desktop\filenames2' + '\\' + name_check
            shutil.copyfile(file_origin,file_target)
            print('copy No. %d file' %i)

原文：https://blog.csdn.net/Eric2016_Lv/article/details/90082280

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python3使用pdfminer3k解析pdf文件 python3用pdfminer3k在線讀取pdf文件 PDFMiner(搬運, 文章末尾有我寫的PDFMiner3K使用實例) 使用PDFminer3k解析pdf為文字遇到：WARING：root:GBK-EUC-H Python使用PDFMiner解析PDF 使用PyPDF2結合pdfminer拆分PDF，並提取關鍵字重命名拆分出來的文件使用python的pdfminer庫提取pdf中的圖像之填坑記 python3安裝pdfminer並使用 pdfminer實現pdf布局分析 python （pdfminer realize layout analysis with PDF python） pdfminer批量處理PDF文件