Java 讀取PDF中的文本和圖片

本文轉載自查看原文 2019-07-18 11:49 4752 Java PDF/ Java/ Maven/ 免費PDF控件/ 讀取PDF圖片/ Spire.PDF for Java/ 讀取PDF文本

本文將介紹通過Java程序來讀取PDF文檔中的文本和圖片的方法。分別調用方法extractText()和extractImages()來讀取。

使用工具：Free Spire.PDF for Java（免費版）

Jar文件獲取導入：

方法1：通過官網下載jar文件包。下載后，解壓文件，並將lib文件夾下的Spire.Pdf.jar文件導入java程序。導入后如下圖：

方法2：可通過maven倉庫安裝導入。

Java代碼示例

import com.spire.pdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

public class ExtractText {
    public static void main(String[]args) throws Exception {
        //加載測試文檔
        PdfDocument pdf = new PdfDocument("sample.pdf");

        //實例化StringBuilder類
        StringBuilder sb = new StringBuilder();
        //定義一個int型變量
        int index = 0;

        //遍歷PDF文檔中每頁
        PdfPageBase page;
        for (int i= 0; i<pdf.getPages().getCount();i++) {
            page = pdf.getPages().get(i);
            //調用extractText()方法提取文本
            sb.append(page.extractText(true));
            FileWriter writer;
            try {
                //將StringBuilder對象中的文本寫入到txt
                writer = new FileWriter("ExtractText.txt");
                writer.write(sb.toString());
                writer.flush();
            } catch (IOException e) {
                e.printStackTrace();
            }

            //調用extractImages方法獲取圖片
            for (BufferedImage image : page.extractImages()) {
                    //指定輸出圖片名，指定圖片格式
                    File output = new File(String.format("Image_%d.png", index++));
                    ImageIO.write(image, "PNG", output);
            }
        }
        pdf.close();
    }
}

文本和圖片讀取效果：

（本文完）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用iText 7讀取PDF文件中的文本和圖片 Java 讀取Word批注中的文本和圖片 Java 在PDF中添加水印——文本/圖片水印 java讀取pdf文本轉換html java -PDF添加文本水印與圖片水印 Java 查找並替換PDF中的指定文本 python 讀取pdf文本內容 Java 讀取Word文檔中的文本內容 Java 添加、提取PDF中的圖片 pdf轉圖片、提取pdf文本、提取pdf圖片