Apache-Tika解析PDF文檔

本文轉載自查看原文 2015-11-03 12:05 1799 Tika

通常在使用爬蟲時，爬取到網上的文章都是各式各樣的格式處理起來比較麻煩，這里我們使用Apache-Tika來處理PDF格式的文章，如下：

 1 package com.mengyao.tika.app;
 2 
 3 import java.io.File;
 4 import java.io.FileInputStream;
 5 
 6 import org.apache.tika.metadata.Metadata;
 7 import org.apache.tika.parser.ParseContext;
 8 import org.apache.tika.parser.pdf.PDFParser;
 9 import org.apache.tika.sax.BodyContentHandler;
10 
11 public class PDFApp {
12 
13     public static void main(String[] args) throws Exception {
14         //Tika默認是10*1024*1024，這里防止文件過大導致Tika報錯
15         BodyContentHandler handler = new BodyContentHandler(100*1024*1024);
16         
17         Metadata metadata = new Metadata();
18         FileInputStream inputstream = new FileInputStream(new File("D:/Nutch入門教程.pdf"));
19         ParseContext pcontext = new ParseContext();
20 
21         // 解析PDF文檔時應由超類AbstractParser的派生類PDFParser實現
22         PDFParser pdfparser = new PDFParser();
23         pdfparser.parse(inputstream, handler, metadata, pcontext);
24 
25         // 獲取PDF文檔的內容
26         System.out.println("PDF文檔內容:" + handler.toString());
27 
28         // 獲取PDF文檔的元數據
29         System.out.println("PDF文檔元數據:");
30         String[] metadataNames = metadata.names();
31 
32         for (String name : metadataNames) {
33             System.out.println(name + " : " + metadata.get(name));
34         }
35 
36     }
37 
38 }

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Apache Tika實戰 Tika解析word文件 Apache Tika源碼研究（一） tika提取pdf信息異常 Tika解析word文件【apache tika】apache tika獲取文件內容(與FileUtils的對比) apache tika檢測文件是否損壞使用apache.tika判斷文件類型 Apache Tika:通用的內容分析工具 Apache PDFbox開發指南之PDF文檔讀取