PDFBox API 簡介


PDFBox 設計時采用面向對象的方式來描述PDF文件。PDF文件的數據時一系列基本對象的集合:數組,布爾型,字典,數字,字符串和二進制流。PDFBox在org.pdfbox.cos包(COS模型)中定義這些基本對象類型,我們可以使用這些對象與PDF文檔進行任何交互,但是首先應該對PDF文檔內部結構以及高層概念做一些深入的了解。例如,頁面和字體都是帶有特殊屬性的字典對象。

       新浪下載地址:http://ishare.iask.sina.com.cn/f/15276873.html

      .NET下使用C#讀取PDF步驟:

       解壓縮下載的PDFBox,找到其中的Bin目錄,需要在項目中添加引用的dll文件有:
        IKVM.GNU.Classpath.dll
        PDFBox-0.7.3.dll
        FontBox-0.1.0-dev.dll
        IKVM.Runtime.dll
        將以上4個文件引用到項目中,在文件中需要引入以下2個命名空間:
        using org.pdfbox.pdmodel;
        using org.pdfbox.util;
      以下為一個非常簡單的讀取PDF文件的例子:

     void ReadPdf()
     {
       FileInfo file = new FileInfo(Server.MapPath("./pdf/Silverlight.pdf"));
       FileInfo txtfile = new FileInfo(Server.MapPath("./pdf/moon.txt"));
       pdf2txt(file, txtfile);
     }
    public void pdf2txt(FileInfo file, FileInfo txtfile)
    {
         PDDocument doc = PDDocument.load(file.FullName);
         PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText(doc);
        StreamWriter swPdfChange = new StreamWriter(txtfile .FullName ,false,System.Text.Encoding.GetEncoding("gb2312"));
        swPdfChange.Write(text);
        swPdfChange.Close();
      }

如此便可以將PDF中的內容讀取到txt文件中。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM