Html轉換PDF（Java實用版）

本文轉載自查看原文 2022-04-20 16:39 11198 Java/ maven

前言：

在工作當中，遇到了需要把HTML頁面轉化為PDF文檔，有很多中實現，如下進行一個對比，大家個借鑒去進行使用

各實現對比表

於Windows平台進行測試：

此博客僅基於IText和基於WKHtmlToPdf來介紹並使用，均為博主親測

其他兩個可自行研究哈

1、基於IText（推薦）

iText 是業界使用最為廣泛的創建 PDF 的框架，從 iText 5 升級到 iText 7 后，功能模塊的划分更加清晰，兩者在使用上，有較為明顯的區別。

此處就不進行區別的贅述了，直接上代碼，本次使用的是iText7

1.1、引入依賴

注意兩個依賴的版本對應，進入html2pdf的pom文件就能看到itext的版本，font-asian的版本最低也要是html2pdf中itext7的版本。

<!-- itext7html轉pdf  -->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>html2pdf</artifactId>
    <version>3.0.2</version>
</dependency>
<!-- 中文字體支持 -->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>font-asian</artifactId>
    <version>7.1.13</version>
</dependency>

1.2、水印和頁碼

導出pdf一般是需要水印和頁碼的，我們只要實現com.itextpdf.kernel.events.IEventHandler接口就可以了

水印

水印代碼

/**
 * 水印
 */
public class WaterMarkEventHandler implements IEventHandler {

    /**
     * 水印內容
     */
    private String waterMarkContent;

    /**
     * 一頁中有幾列水印
     */
    private int waterMarkX;

    /**
     * 一頁中每列有多少水印
     */
    private int waterMarkY;

    public WaterMarkEventHandler(String waterMarkContent) {
        this(waterMarkContent, 5, 5);
    }

    public WaterMarkEventHandler(String waterMarkContent, int waterMarkX, int waterMarkY) {
        this.waterMarkContent = waterMarkContent;
        this.waterMarkX = waterMarkX;
        this.waterMarkY = waterMarkY;
    }

    @Override
    public void handleEvent(Event event) {

        PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;
        PdfDocument document = documentEvent.getDocument();
        PdfPage page = documentEvent.getPage();
        Rectangle pageSize = page.getPageSize();

        PdfFont pdfFont = null;
        try {
            pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
        } catch (IOException e) {
            e.printStackTrace();
        }

        PdfCanvas pdfCanvas = new PdfCanvas(page.newContentStreamAfter(), page.getResources(), document);

        Paragraph waterMark = new Paragraph(waterMarkContent).setOpacity(0.5f);
        Canvas canvas = new Canvas(pdfCanvas, pageSize)
            .setFontColor(WebColors.getRGBColor("lightgray"))
            .setFontSize(16)
            .setFont(pdfFont);

        for (int i = 0; i < waterMarkX; i++) {
            for (int j = 0; j < waterMarkY; j++) {
                canvas.showTextAligned(waterMark, (150 + i * 300), (160 + j * 150), document.getNumberOfPages(), TextAlignment.CENTER, VerticalAlignment.BOTTOM, 120);
            }
        }
        canvas.close();
    }
}

頁碼

頁碼代碼

/**
 * 頁碼
 */
public class PageEventHandler implements IEventHandler {

    @Override
    public void handleEvent(Event event) {
        PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;
        PdfDocument document = documentEvent.getDocument();
        PdfPage page = documentEvent.getPage();
        Rectangle pageSize = page.getPageSize();

        PdfFont pdfFont = null;
        try {
            pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
        } catch (IOException e) {
            e.printStackTrace();
        }

        PdfCanvas pdfCanvas = new PdfCanvas(page.getLastContentStream(), page.getResources(), document);
        Canvas canvas = new Canvas(pdfCanvas, pageSize);
        float  x = (pageSize.getLeft() + pageSize.getRight()) / 2;
        float  y = pageSize.getBottom() + 15;
        Paragraph paragraph = new Paragraph("第" + document.getPageNumber(page) + "頁/共" + document.getNumberOfPages() + "頁")
            .setFontSize(10)
            .setFont(pdfFont);
        canvas.showTextAligned(paragraph, x, y, TextAlignment.CENTER);
        canvas.close();
    }
}

1.3、轉換工具類

轉換工具類

/**
 * Itext7轉換工具類
 */
@Slf4j
public class HtmlToPdfUtils {

    /**
     * html轉pdf
     *
     * @param inputStream  輸入流
     * @param waterMark    水印
     * @param fontPath     字體路徑，ttc后綴的字體需要添加<b>,0<b/>
     * @param outputStream 輸出流
     * @date : 2021/1/15 14:07
     */
    public static void convertToPdf(InputStream inputStream, String waterMark, String fontPath, OutputStream outputStream) throws IOException {

        PdfWriter pdfWriter = new PdfWriter(outputStream);
        PdfDocument pdfDocument = new PdfDocument(pdfWriter);
        //設置為A4大小
        pdfDocument.setDefaultPageSize(PageSize.A4);
        //添加水印
        pdfDocument.addEventHandler(PdfDocumentEvent.END_PAGE, new WaterMarkEventHandler(waterMark));

        //添加中文字體支持
        ConverterProperties properties = new ConverterProperties();
        FontProvider fontProvider = new FontProvider();

        //        設置字體
        /*PdfFont sysFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
        fontProvider.addFont(sysFont.getFontProgram(), "UniGB-UCS2-H");*/

        //添加自定義字體，例如微軟雅黑
        if (StringUtils.isNotBlank(fontPath)) {
            PdfFont microsoft = PdfFontFactory.createFont(fontPath, PdfEncodings.IDENTITY_H, false);
            fontProvider.addFont(microsoft.getFontProgram(), PdfEncodings.IDENTITY_H);
        }

        properties.setFontProvider(fontProvider);
        //        讀取Html文件流，查找出當中的&nbsp;或出現類似的符號空格字符
        inputStream = readInputStrem(inputStream);
        if (inputStream != null) {
            //        生成pdf文檔
            HtmlConverter.convertToPdf(inputStream, pdfDocument, properties);
            pdfWriter.close();
            pdfDocument.close();
            return;
        } else {
            log.error("轉換失敗！");
        }
    }

    /**
     * 讀取HTML 流文件，並查詢當中的&nbsp;或類似符號直接替換為空格
     *
     * @param inputStream
     * @return
     */
    private static InputStream readInputStrem(InputStream inputStream) {
        // 定義一些特殊字符的正則表達式 如：
        String regEx_special = "\\&[a-zA-Z]{1,10};";
        try {
            //<1>創建字節數組輸出流，用來輸出讀取到的內容
            ByteArrayOutputStream baos = new ByteArrayOutputStream();
            //<2>創建緩存大小
            byte[] buffer = new byte[1024]; // 1KB
            //每次讀取到內容的長度
            int len = -1;
            //<3>開始讀取輸入流中的內容
            while ((len = inputStream.read(buffer)) != -1) { //當等於-1說明沒有數據可以讀取了
                baos.write(buffer, 0, len);   //把讀取到的內容寫到輸出流中
            }
            //<4> 把字節數組轉換為字符串
            String content = baos.toString();
            //<5>關閉輸入流和輸出流
            //            inputStream.close();
            baos.close();
            //            log.info("讀取的內容：{}", content);
            //            判斷HTML內容是否具有HTML的特殊字符標記
            Pattern compile = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);
            Matcher matcher = compile.matcher(content);
            String replaceAll = matcher.replaceAll("");
            //            log.info("替換后的內容：{}", replaceAll);
            //            將字符串轉化為輸入流返回
            InputStream stringStream = getStringStream(replaceAll);
            //<6>返回結果
            return stringStream;
        } catch (Exception e) {
            e.printStackTrace();
            log.error("錯誤信息：{}", e.getMessage());
            return null;
        }
    }

    /**
     * 將一個字符串轉化為輸入流
     * @param sInputString 字符串
     * @return
     */
    public static InputStream getStringStream(String sInputString) {
        if (sInputString != null && !sInputString.trim().equals("")) {
            try {
                ByteArrayInputStream tInputStringStream = new ByteArrayInputStream(sInputString.getBytes());
                return tInputStringStream;
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return null;
    }

}

1.4、測試類

測試代碼

@Slf4j
public class Test {

    public static void main(String[] args) throws IOException {
        long startTime = System.currentTimeMillis();
        //       html文件所在相對路徑
        String htmlFile = "src/main/resources/html/index2.html";
        //       pdf文件存儲相對路徑
        String pdfFile = "src/main/resources/x6.pdf";
        //        自定義水印
        String waterMarkText =  "";
        InputStream inputStream = new FileInputStream(htmlFile);
        OutputStream outputStream = new FileOutputStream(pdfFile);
        //微軟雅黑在windows系統里的位置如下，linux系統直接拷貝該文件放在linux目錄下即可
        //        String fontPath = "src/main/resources/font/STHeiti Light.ttc,0";
        String fontPath = "src/main/resources/font/simsun.ttc,0";
        HtmlToPdfUtils.convertToPdf(inputStream, waterMarkText, fontPath, outputStream);
        log.info("轉換結束，耗時：{}ms",System.currentTimeMillis()-startTime);
    }
}

1.5、注意事項

頁面中不能出現html的特殊字符標記，如 等（代碼中已經處理，所有都替換為空）可忽略
頁面中的圖片路徑，必須是在項目根路徑后面的所有地址（相對路徑）例如：
頁面中的標簽要符合規范，必須都具有結束標簽等

展示：

HTML

PDF

2、基於WKHtmlToPdf

wkhtmltopdf是一個用webkit網頁渲染引擎開發的用來將html轉成 pdf的工具，可跟多種腳本語言進行集成來轉換文檔，有windows、linux等平台版本。

Wkhtmltopdf可直接把瀏覽器中瀏覽的網頁轉換成一個pdf，他是一個把html頁面轉換成pdf的軟件（需要安裝在服務器上）。使用時可通過java代碼調用cmd指令完成網頁轉換為pdf的功能。

下載wkhtmltopdf官網地址：https://wkhtmltopdf.org/downloads.html

藍奏雲地址：https://aerfazhe.lanzouw.com/b01pc4uib
密碼：h01i

2.1、安裝

2.1.1、Windows

功能測試：

在安裝目錄 bin 執行如下命令生成 PDF

wkhtmltopdf.exe https://www.baidu.com/ C:\Users\wk\Desktop\1\1.pdf

效果圖：

為了方便使用：可自行配置全局環境變量哈

注意事項：

如果是轉換本地HTML頁面，可能會出現圖片禁止訪問類型的錯誤，可加上以下命令進行轉換，這是因為wkhtmltopdf升級版本之后默認禁止了訪問

# 允許訪問
--enable-local-file-access

整合后命令：

wkhtmltopdf.exe --enable-local-file-access D:\1.html C:\Users\wk\Desktop\1\1.pdf

2.1.2、Linux

安裝

#  -ivh 安裝
rpm -ivh wkhtmltox-0.12.6-1.centos7.x86_64.rpm

配置環境變量

vim /etc/profile

在最后一行加 export PATH=$DIR/wkhtmltox/bin:$PATH 保存退出、

# 刷新環境
source /etc/profile

功能測試

運行 wkhtmltopdf

報：以下錯誤

報wkhtmltopdf: error while loading shared libraries: libXrender.so.1: cannot open shared object file: No such file or directory這個錯，請運行 apt-get/yum install libXrender*

運行 wkhtmltopdf 報wkhtmltopdf: error while loading shared libraries: libfontconfig.so.1: cannot open shared object file: No such file or directory這個錯，請運行apt-get/yum install libfontconfig*

運行 wkhtmltopdf 報wkhtmltopdf: error while loading shared libraries: libXext.so.6: cannot open shared object file: No such file or directory這個錯，請運行 apt-get/yum install libXext*

總的來說就是缺少依賴,下載安裝依賴

yum install xorg-x11-fonts-75dpi.noarch -g

yum install xorg-x11-fonts-Type1.noarch -g

yum install icu.x86_64 -g

yum install libjpeg -g

yum install libpng -g

優點：

支持中文、圖片、CSS等

缺點：

有時對於html文件的轉化可能比較慢，對於url的轉化速度較快。存在失真情況

2.2、代碼實現

2.2.1、wkhtmltopdf工具安裝bin地址

wkhtmltopdf工具安裝bin地址

public class Consts {

    /**
     * 0.12.6版本默認禁用本地文件訪問（圖片等）
     * cmd 命令 加上以下命令參數即可
     * 表示啟動本地文件訪問
     */
    private final static String PARAMETER = "--enable-local-file-access";

    /**
     * 允許本地文件訪問
     */
    private final static String ALLOW = "--allow";

    /**
     * wkhtmltopdf在系統中的路徑(全路徑)
     */
    public final static String CONVERSION_PLUGSTOOL_PATH_WINDOW = "D:/Software/Software-1/JAVA/wkhtmltopdf/bin/wkhtmltopdf.exe "+PARAMETER;


    /**
     * wkhtmltopdf在Linux系統中的路徑
     */
    public final static String CONVERSION_PLUGSTOOL_PATH_LINUX = " "+PARAMETER;

}

2.2.2、轉換工具類

轉換工具類

/**
 * wkhtmltopdf 轉換工具類
 */
@Slf4j
public class HtmlToPdfUtil {

    /**
     * wkhtmltopdf在系統中的路徑
     */
    private static String toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_WINDOW;

    /**
     * html轉pdf
     *
     * @param srcPath  html路徑，可以是硬盤上的路徑，也可以是網絡路徑
     * @param destPath pdf保存路徑
     * @return 轉換成功返回true
     */
    public static boolean convert(String srcPath, String destPath) {

        log.info("convert.req srcPath={} ,destPath={}",srcPath,destPath);
        File file = new File(destPath);
        File parent = file.getParentFile();
        // 如果pdf保存路徑不存在，則創建路徑
        if (!parent.exists()) {
            parent.mkdirs();
        }
        StringBuilder cmd = new StringBuilder();
        String property = System.getProperty("os.name");
        log.info("當前運行系統：{}",property);
        if (property.indexOf("Windows") == -1) {
            // 非windows 系統
            toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_LINUX;
        }
        cmd.append(toPdfTool);
        cmd.append(" ");
        cmd.append(" \"");
        cmd.append(srcPath);
        cmd.append("\" ");
        cmd.append(" ");
        cmd.append(destPath);

        System.out.println(cmd.toString());
        boolean result = true;
        try {
            //            打開系統命令
            Process proc = Runtime.getRuntime().exec(cmd.toString());
            HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream());
            HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream());
            error.start();
            output.start();
            proc.waitFor();
        } catch (Exception e) {
            result = false;
            e.printStackTrace();
        }

        return result;
    }

    public static void main(String[] args) {
        long startTime = System.currentTimeMillis();
        log.info("generate pdf start ... ");
        // 源HTML頁面地址或路徑
        String srcPath = "src/main/resources/html/index2.html";
        // pdf文檔存儲路徑
        String destPath = "src/main/resources/x5.pdf";
        HtmlToPdfUtil.convert(srcPath, destPath);
        log.info("Time-consuming to generate pdf time(ms)={}",System.currentTimeMillis()-startTime);
    }
}

2.2.3、開啟線程執行

線程執行類

/**
 * 線程執行
 */
public class HtmlToPdfInterceptor extends Thread {

    private InputStream is;

    protected HtmlToPdfInterceptor(InputStream is){
        this.is = is;
    }

    @Override
    public void run(){
        try{
            InputStreamReader isr = new InputStreamReader(is, StandardCharsets.UTF_8);
            BufferedReader br = new BufferedReader(isr);
            String line ;
            while ((line = br.readLine()) != null) {
                System.out.println(line); //輸出內容
            }
        }catch (IOException e){
            e.printStackTrace();
        }
    }
}

3、Spire.Doc系列（擴展）

將文檔從一種格式轉換為另一種格式是Spire.Doc的主要功能之一。這種轉換只不過是加載和保存操作的組合。因此，使用Spire.DOC可以將文檔從任何受支持的加載格式轉換為任何受支持的保存格式。

注意：spire.doc分為商業版和免費版，免費版只支持轉換前3頁，本次示例采用免費版演示

3.1、pom.xml引入Maven倉庫路徑和依賴

Maven倉庫路徑

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <url>http://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>

引入依賴

<!--    免費版，只支持前三頁轉化 -->
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.doc.free</artifactId>
    <version>3.9.0</version>
</dependency>

3.2、轉換工具類

spire轉換工具類

/**
 * @Author：wk
 * @Create：2022/4/19/18:04
 * @Description：html轉換pdf
 * @Version：1.0
 */
public class Html3Pdf {

    public static void main(String[] args) throws IOException {

    }

    /**
     * 免費版，只支持前三頁轉換
     * @param inputHtml HTML地址
     * @param pdfName pdf保存地址
     * @throws IOException
     */
    public void  spireDoc(String inputHtml,String pdfName) throws IOException {
        inputHtml = "src/main/resources/html/index2.html";
        //新建Document對象
        Document doc = new Document();
        //添加section
        Section sec = doc.addSection();

//        將html轉化為流字符串
        String htmlText = readTextFromFile(inputHtml);
        //添加段落並寫入HTML文本
        sec.addParagraph().appendHTML(htmlText);
        pdfName = "src/main/resources/x4.pdf";
        //將文檔另存為PDF
        doc.saveToFile(pdfName, FileFormat.PDF);
        doc.dispose();
    }


    /**
     * 將該路徑的HTML頁面轉化為流字符串
     * @param fileName 文件地址
     * @return
     * @throws IOException
     */
    public static String readTextFromFile(String fileName) throws IOException {
        StringBuffer sb = new StringBuffer();
        BufferedReader br = new BufferedReader(new FileReader(fileName));
        String content;
        while ((content = br.readLine()) != null) {
            sb.append(content);
        }
        return sb.toString();
    }
}

至此就完結啦，可自行根據需求進行選擇哦，測試效果和上面截圖一樣，此處就不進行展示啦

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PDF轉換OFD（Java實用版） java讀取pdf文本轉換html JAVA中將html轉換成pdf Java中將Html轉換為PDF html轉換為pdf Java實現HTML轉換為PDF的常見方法 python轉換html到pdf文件網頁(HTML)轉換為PDF Python將HTML轉換為PDF java——PDF轉換txt