利用python第三方庫提取PDF文件的表格內容
小爬最近接到一個棘手任務:需要提取手機話費電子發票PDF文件中的數據。接到這個任務的第一時間,小爬決定搜集各個地區各個時間段的電子發票文件,看看其中的差異點。粗略統計下來,PDF文件的表格框架是統一的 ...
小爬最近接到一個棘手任務:需要提取手機話費電子發票PDF文件中的數據。接到這個任務的第一時間,小爬決定搜集各個地區各個時間段的電子發票文件,看看其中的差異點。粗略統計下來,PDF文件的表格框架是統一的 ...
可以使用 pymupdf對pdf操作 添加目錄 import fitz doc = fitz.open('/Users/zhang_gy/Desktop/知識點集錦.pdf') # 獲取目錄 toc = doc.getToC() # 目錄內容 tocs = [ # [目錄 ...