[轉].NET下讀取PDF文本


本文轉自:http://blog.csdn.net/wangqiuyun/article/details/8548779

在.NET下讀取PDF文本用到的類庫主要有兩個:PDFBox和iTextSharp。

先說PDFBox,這個類庫據說功能很強大,本人在這只是簡單介紹一下:

1、下載PDFBox

下載地址:http://sourceforge.net/projects/pdfbox/

2、引用動態鏈接庫

解壓縮下載的PDFBox,找到其中的Bin目錄,需要在項目中添加引用的dll文件有: IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 將以上4個文件引用到項目中,在文件中需要引入以下2個命名空間: using org.pdfbox.pdmodel; using org.pdfbox.util;

3、API的使用方法看代碼:

[csharp] view plain copy print ?
  1. using org.pdfbox.pdmodel;  
  2. using org.pdfbox.util;  
  3. public void pdf2txt(FileInfo file,FileInfo txtfile)  
  4. {  
  5.         PDDocument doc = PDDocument.load(file.FullName);  
  6.         PDFTextStripper pdfStripper = new PDFTextStripper();  
  7.         string text = pdfStripper.getText(doc);  
  8.         StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  
  9.         swPdfChange.Write(text);  
  10.         swPdfChange.Close();  
  11. }  
using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
        PDDocument doc = PDDocument.load(file.FullName);
        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText(doc);
        StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
        swPdfChange.Write(text);
        swPdfChange.Close();
}

iTextSharp,其實很多時候都是用於生成PDF,但是他讀取PDF的能力也不差,使用如下:

 

1、下載iTextSharp

下載地址:http://sourceforge.net/projects/itextsharp/

2、引用動態鏈接庫

解壓縮下載的壓縮包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在項目中添加引用itextsharp.dll即可 在文件中需要引入以下3個命名空間: using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf;

3、API的使用方法看代碼:

[csharp] view plain copy print ?
  1. private string OnCreated(string filepath)  
  2. {  
  3.     try  
  4.     {  
  5.         string pdffilename = filepath;  
  6.         PdfReader pdfReader = new PdfReader(pdffilename);  
  7.         int numberOfPages = pdfReader.NumberOfPages;  
  8.         string text = string.Empty;  
  9.   
  10.         for (int i = 1; i <= numberOfPages; ++i)  
  11.         {  
  12.             byte[] bufferOfPageContent = pdfReader.GetPageContent(i);  
  13.             text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);  
  14.         }  
  15.         pdfReader.Close();  
  16.   
  17.         return text;  
  18.     }  
  19.     catch (Exception ex)  
  20.     {  
  21.         StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");  
  22.         wlog.WriteLine("出錯文件:" + e.FullPath + "原因:" + ex.ToString());  
  23.         wlog.Flush();  
  24.         wlog.Close();return null;  
  25.     }  
  26.   
  27. }  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM