前言:
在工作當中,遇到了需要把HTML頁面轉化為PDF文檔,有很多中實現,如下進行一個對比,大家個借鑒去進行使用
各實現對比表
於Windows平台進行測試:
此博客僅基於IText和基於WKHtmlToPdf來介紹並使用,均為博主親測
其他兩個可自行研究哈
1、基於IText(推薦)
iText 是業界使用最為廣泛的創建 PDF 的框架,從 iText 5 升級到 iText 7 后,功能模塊的划分更加清晰,兩者在使用上,有較為明顯的區別。
此處就不進行區別的贅述了,直接上代碼,本次使用的是iText7
1.1、引入依賴
注意兩個依賴的版本對應,進入html2pdf的pom文件就能看到itext的版本,font-asian的版本最低也要是html2pdf中itext7的版本。
<!-- itext7html轉pdf -->
<dependency>
<groupId>com.itextpdf</groupId>
<artifactId>html2pdf</artifactId>
<version>3.0.2</version>
</dependency>
<!-- 中文字體支持 -->
<dependency>
<groupId>com.itextpdf</groupId>
<artifactId>font-asian</artifactId>
<version>7.1.13</version>
</dependency>
1.2、水印和頁碼
導出pdf一般是需要水印和頁碼的,我們只要實現com.itextpdf.kernel.events.IEventHandler接口就可以了
水印
水印代碼
/**
* 水印
*/
public class WaterMarkEventHandler implements IEventHandler {
/**
* 水印內容
*/
private String waterMarkContent;
/**
* 一頁中有幾列水印
*/
private int waterMarkX;
/**
* 一頁中每列有多少水印
*/
private int waterMarkY;
public WaterMarkEventHandler(String waterMarkContent) {
this(waterMarkContent, 5, 5);
}
public WaterMarkEventHandler(String waterMarkContent, int waterMarkX, int waterMarkY) {
this.waterMarkContent = waterMarkContent;
this.waterMarkX = waterMarkX;
this.waterMarkY = waterMarkY;
}
@Override
public void handleEvent(Event event) {
PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;
PdfDocument document = documentEvent.getDocument();
PdfPage page = documentEvent.getPage();
Rectangle pageSize = page.getPageSize();
PdfFont pdfFont = null;
try {
pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
} catch (IOException e) {
e.printStackTrace();
}
PdfCanvas pdfCanvas = new PdfCanvas(page.newContentStreamAfter(), page.getResources(), document);
Paragraph waterMark = new Paragraph(waterMarkContent).setOpacity(0.5f);
Canvas canvas = new Canvas(pdfCanvas, pageSize)
.setFontColor(WebColors.getRGBColor("lightgray"))
.setFontSize(16)
.setFont(pdfFont);
for (int i = 0; i < waterMarkX; i++) {
for (int j = 0; j < waterMarkY; j++) {
canvas.showTextAligned(waterMark, (150 + i * 300), (160 + j * 150), document.getNumberOfPages(), TextAlignment.CENTER, VerticalAlignment.BOTTOM, 120);
}
}
canvas.close();
}
}
頁碼
頁碼代碼
/**
* 頁碼
*/
public class PageEventHandler implements IEventHandler {
@Override
public void handleEvent(Event event) {
PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;
PdfDocument document = documentEvent.getDocument();
PdfPage page = documentEvent.getPage();
Rectangle pageSize = page.getPageSize();
PdfFont pdfFont = null;
try {
pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
} catch (IOException e) {
e.printStackTrace();
}
PdfCanvas pdfCanvas = new PdfCanvas(page.getLastContentStream(), page.getResources(), document);
Canvas canvas = new Canvas(pdfCanvas, pageSize);
float x = (pageSize.getLeft() + pageSize.getRight()) / 2;
float y = pageSize.getBottom() + 15;
Paragraph paragraph = new Paragraph("第" + document.getPageNumber(page) + "頁/共" + document.getNumberOfPages() + "頁")
.setFontSize(10)
.setFont(pdfFont);
canvas.showTextAligned(paragraph, x, y, TextAlignment.CENTER);
canvas.close();
}
}
1.3、轉換工具類
轉換工具類
/**
* Itext7轉換工具類
*/
@Slf4j
public class HtmlToPdfUtils {
/**
* html轉pdf
*
* @param inputStream 輸入流
* @param waterMark 水印
* @param fontPath 字體路徑,ttc后綴的字體需要添加<b>,0<b/>
* @param outputStream 輸出流
* @date : 2021/1/15 14:07
*/
public static void convertToPdf(InputStream inputStream, String waterMark, String fontPath, OutputStream outputStream) throws IOException {
PdfWriter pdfWriter = new PdfWriter(outputStream);
PdfDocument pdfDocument = new PdfDocument(pdfWriter);
//設置為A4大小
pdfDocument.setDefaultPageSize(PageSize.A4);
//添加水印
pdfDocument.addEventHandler(PdfDocumentEvent.END_PAGE, new WaterMarkEventHandler(waterMark));
//添加中文字體支持
ConverterProperties properties = new ConverterProperties();
FontProvider fontProvider = new FontProvider();
// 設置字體
/*PdfFont sysFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
fontProvider.addFont(sysFont.getFontProgram(), "UniGB-UCS2-H");*/
//添加自定義字體,例如微軟雅黑
if (StringUtils.isNotBlank(fontPath)) {
PdfFont microsoft = PdfFontFactory.createFont(fontPath, PdfEncodings.IDENTITY_H, false);
fontProvider.addFont(microsoft.getFontProgram(), PdfEncodings.IDENTITY_H);
}
properties.setFontProvider(fontProvider);
// 讀取Html文件流,查找出當中的 或出現類似的符號空格字符
inputStream = readInputStrem(inputStream);
if (inputStream != null) {
// 生成pdf文檔
HtmlConverter.convertToPdf(inputStream, pdfDocument, properties);
pdfWriter.close();
pdfDocument.close();
return;
} else {
log.error("轉換失敗!");
}
}
/**
* 讀取HTML 流文件,並查詢當中的 或類似符號直接替換為空格
*
* @param inputStream
* @return
*/
private static InputStream readInputStrem(InputStream inputStream) {
// 定義一些特殊字符的正則表達式 如:
String regEx_special = "\\&[a-zA-Z]{1,10};";
try {
//<1>創建字節數組輸出流,用來輸出讀取到的內容
ByteArrayOutputStream baos = new ByteArrayOutputStream();
//<2>創建緩存大小
byte[] buffer = new byte[1024]; // 1KB
//每次讀取到內容的長度
int len = -1;
//<3>開始讀取輸入流中的內容
while ((len = inputStream.read(buffer)) != -1) { //當等於-1說明沒有數據可以讀取了
baos.write(buffer, 0, len); //把讀取到的內容寫到輸出流中
}
//<4> 把字節數組轉換為字符串
String content = baos.toString();
//<5>關閉輸入流和輸出流
// inputStream.close();
baos.close();
// log.info("讀取的內容:{}", content);
// 判斷HTML內容是否具有HTML的特殊字符標記
Pattern compile = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);
Matcher matcher = compile.matcher(content);
String replaceAll = matcher.replaceAll("");
// log.info("替換后的內容:{}", replaceAll);
// 將字符串轉化為輸入流返回
InputStream stringStream = getStringStream(replaceAll);
//<6>返回結果
return stringStream;
} catch (Exception e) {
e.printStackTrace();
log.error("錯誤信息:{}", e.getMessage());
return null;
}
}
/**
* 將一個字符串轉化為輸入流
* @param sInputString 字符串
* @return
*/
public static InputStream getStringStream(String sInputString) {
if (sInputString != null && !sInputString.trim().equals("")) {
try {
ByteArrayInputStream tInputStringStream = new ByteArrayInputStream(sInputString.getBytes());
return tInputStringStream;
} catch (Exception e) {
e.printStackTrace();
}
}
return null;
}
}
1.4、測試類
測試代碼
@Slf4j
public class Test {
public static void main(String[] args) throws IOException {
long startTime = System.currentTimeMillis();
// html文件所在相對路徑
String htmlFile = "src/main/resources/html/index2.html";
// pdf文件存儲相對路徑
String pdfFile = "src/main/resources/x6.pdf";
// 自定義水印
String waterMarkText = "";
InputStream inputStream = new FileInputStream(htmlFile);
OutputStream outputStream = new FileOutputStream(pdfFile);
//微軟雅黑在windows系統里的位置如下,linux系統直接拷貝該文件放在linux目錄下即可
// String fontPath = "src/main/resources/font/STHeiti Light.ttc,0";
String fontPath = "src/main/resources/font/simsun.ttc,0";
HtmlToPdfUtils.convertToPdf(inputStream, waterMarkText, fontPath, outputStream);
log.info("轉換結束,耗時:{}ms",System.currentTimeMillis()-startTime);
}
}
1.5、注意事項
- 頁面中不能出現html的特殊字符標記,如 等(代碼中已經處理,所有都替換為空)可忽略
- 頁面中的圖片路徑,必須是在項目根路徑后面的所有地址(相對路徑)例如:
- 頁面中的標簽要符合規范,必須都具有結束標簽等
展示:
HTML
2、基於WKHtmlToPdf
wkhtmltopdf是一個用webkit網頁渲染引擎開發的用來將html轉成 pdf的工具,可跟多種腳本語言進行集成來轉換文檔,有windows、linux等平台版本。
Wkhtmltopdf可直接把瀏覽器中瀏覽的網頁轉換成一個pdf,他是一個把html頁面轉換成pdf的軟件(需要安裝在服務器上)。使用時可通過java代碼調用cmd指令完成網頁轉換為pdf的功能。
下載wkhtmltopdf官網地址:https://wkhtmltopdf.org/downloads.html
藍奏雲地址:https://aerfazhe.lanzouw.com/b01pc4uib
密碼:h01i
2.1、安裝
2.1.1、Windows
功能測試:
在安裝目錄 bin 執行如下命令生成 PDF
wkhtmltopdf.exe https://www.baidu.com/ C:\Users\wk\Desktop\1\1.pdf
效果圖:
為了方便使用:可自行配置全局環境變量哈
注意事項:
如果是轉換本地HTML頁面,可能會出現圖片禁止訪問類型的錯誤,可加上以下命令進行轉換,這是因為wkhtmltopdf升級版本之后默認禁止了訪問
# 允許訪問
--enable-local-file-access
整合后命令:
wkhtmltopdf.exe --enable-local-file-access D:\1.html C:\Users\wk\Desktop\1\1.pdf
2.1.2、Linux
安裝
# -ivh 安裝
rpm -ivh wkhtmltox-0.12.6-1.centos7.x86_64.rpm
配置環境變量
vim /etc/profile
在最后一行加 export PATH=$DIR/wkhtmltox/bin:$PATH 保存退出、
# 刷新環境
source /etc/profile
功能測試
運行 wkhtmltopdf
報:以下錯誤
報wkhtmltopdf: error while loading shared libraries: libXrender.so.1: cannot open shared object file: No such file or directory這個錯,請運行 apt-get/yum install libXrender*
運行 wkhtmltopdf 報wkhtmltopdf: error while loading shared libraries: libfontconfig.so.1: cannot open shared object file: No such file or directory這個錯,請運行apt-get/yum install libfontconfig*
運行 wkhtmltopdf 報wkhtmltopdf: error while loading shared libraries: libXext.so.6: cannot open shared object file: No such file or directory這個錯,請運行 apt-get/yum install libXext*
總的來說就是缺少依賴,下載安裝依賴
yum install xorg-x11-fonts-75dpi.noarch -g
yum install xorg-x11-fonts-Type1.noarch -g
yum install icu.x86_64 -g
yum install libjpeg -g
yum install libpng -g
優點:
支持中文、圖片、CSS等
缺點:
有時對於html文件的轉化可能比較慢,對於url的轉化速度較快。存在失真情況
2.2、代碼實現
2.2.1、wkhtmltopdf工具安裝bin地址
wkhtmltopdf工具安裝bin地址
public class Consts {
/**
* 0.12.6版本默認禁用本地文件訪問(圖片等)
* cmd 命令 加上以下命令參數即可
* 表示啟動本地文件訪問
*/
private final static String PARAMETER = "--enable-local-file-access";
/**
* 允許本地文件訪問
*/
private final static String ALLOW = "--allow";
/**
* wkhtmltopdf在系統中的路徑(全路徑)
*/
public final static String CONVERSION_PLUGSTOOL_PATH_WINDOW = "D:/Software/Software-1/JAVA/wkhtmltopdf/bin/wkhtmltopdf.exe "+PARAMETER;
/**
* wkhtmltopdf在Linux系統中的路徑
*/
public final static String CONVERSION_PLUGSTOOL_PATH_LINUX = " "+PARAMETER;
}
2.2.2、轉換工具類
轉換工具類
/**
* wkhtmltopdf 轉換工具類
*/
@Slf4j
public class HtmlToPdfUtil {
/**
* wkhtmltopdf在系統中的路徑
*/
private static String toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_WINDOW;
/**
* html轉pdf
*
* @param srcPath html路徑,可以是硬盤上的路徑,也可以是網絡路徑
* @param destPath pdf保存路徑
* @return 轉換成功返回true
*/
public static boolean convert(String srcPath, String destPath) {
log.info("convert.req srcPath={} ,destPath={}",srcPath,destPath);
File file = new File(destPath);
File parent = file.getParentFile();
// 如果pdf保存路徑不存在,則創建路徑
if (!parent.exists()) {
parent.mkdirs();
}
StringBuilder cmd = new StringBuilder();
String property = System.getProperty("os.name");
log.info("當前運行系統:{}",property);
if (property.indexOf("Windows") == -1) {
// 非windows 系統
toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_LINUX;
}
cmd.append(toPdfTool);
cmd.append(" ");
cmd.append(" \"");
cmd.append(srcPath);
cmd.append("\" ");
cmd.append(" ");
cmd.append(destPath);
System.out.println(cmd.toString());
boolean result = true;
try {
// 打開系統命令
Process proc = Runtime.getRuntime().exec(cmd.toString());
HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream());
HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream());
error.start();
output.start();
proc.waitFor();
} catch (Exception e) {
result = false;
e.printStackTrace();
}
return result;
}
public static void main(String[] args) {
long startTime = System.currentTimeMillis();
log.info("generate pdf start ... ");
// 源HTML頁面地址或路徑
String srcPath = "src/main/resources/html/index2.html";
// pdf文檔存儲路徑
String destPath = "src/main/resources/x5.pdf";
HtmlToPdfUtil.convert(srcPath, destPath);
log.info("Time-consuming to generate pdf time(ms)={}",System.currentTimeMillis()-startTime);
}
}
2.2.3、開啟線程執行
線程執行類
/**
* 線程執行
*/
public class HtmlToPdfInterceptor extends Thread {
private InputStream is;
protected HtmlToPdfInterceptor(InputStream is){
this.is = is;
}
@Override
public void run(){
try{
InputStreamReader isr = new InputStreamReader(is, StandardCharsets.UTF_8);
BufferedReader br = new BufferedReader(isr);
String line ;
while ((line = br.readLine()) != null) {
System.out.println(line); //輸出內容
}
}catch (IOException e){
e.printStackTrace();
}
}
}
3、Spire.Doc系列(擴展)
將文檔從一種格式轉換為另一種格式是Spire.Doc的主要功能之一。這種轉換只不過是加載和保存操作的組合。因此,使用Spire.DOC可以將文檔從任何受支持的加載格式轉換為任何受支持的保存格式。
注意:spire.doc分為商業版和免費版,免費版只支持轉換前3頁,本次示例采用免費版演示
3.1、pom.xml引入Maven倉庫路徑和依賴
Maven倉庫路徑
<repositories>
<repository>
<id>com.e-iceblue</id>
<url>http://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
引入依賴
<!-- 免費版,只支持前三頁轉化 -->
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.doc.free</artifactId>
<version>3.9.0</version>
</dependency>
3.2、轉換工具類
spire轉換工具類
/**
* @Author:wk
* @Create:2022/4/19/18:04
* @Description:html轉換pdf
* @Version:1.0
*/
public class Html3Pdf {
public static void main(String[] args) throws IOException {
}
/**
* 免費版,只支持前三頁轉換
* @param inputHtml HTML地址
* @param pdfName pdf保存地址
* @throws IOException
*/
public void spireDoc(String inputHtml,String pdfName) throws IOException {
inputHtml = "src/main/resources/html/index2.html";
//新建Document對象
Document doc = new Document();
//添加section
Section sec = doc.addSection();
// 將html轉化為流字符串
String htmlText = readTextFromFile(inputHtml);
//添加段落並寫入HTML文本
sec.addParagraph().appendHTML(htmlText);
pdfName = "src/main/resources/x4.pdf";
//將文檔另存為PDF
doc.saveToFile(pdfName, FileFormat.PDF);
doc.dispose();
}
/**
* 將該路徑的HTML頁面轉化為流字符串
* @param fileName 文件地址
* @return
* @throws IOException
*/
public static String readTextFromFile(String fileName) throws IOException {
StringBuffer sb = new StringBuffer();
BufferedReader br = new BufferedReader(new FileReader(fileName));
String content;
while ((content = br.readLine()) != null) {
sb.append(content);
}
return sb.toString();
}
}
至此就完結啦,可自行根據需求進行選擇哦,測試效果和上面截圖一樣,此處就不進行展示啦