前言

只有光頭才能變強

之前有讀者問過我：“3y你的博客有沒有電子版的呀？我想要份電子版的”。我說：“沒有啊，我沒有弄過電子版的，我這邊有個文章導航頁面，你可以去文章導航去找來看呀”..然后就沒有然后了。

最近也有個讀者提過這個問題，然后這兩天也沒什么事做，所以打算折騰折騰，看看怎么把博客轉成PDF。

一、准備工作

要將博客轉成PDF，我首先想到的是能不能將markdown文件轉成PDF(因為平時我就是用markdown來寫博客的)。

想了一下，原生markdown顯示的話，代碼是沒有高亮的，格式也不會太好看。
所以就放棄了這個想法。

於是就去想一下，可不可以將HTML轉成PDF呢。就去GitHub搜了有沒有相關的輪子，也搜到了一些關於Python的爬蟲啥的，感覺還是蠻復雜的。

后來，終於搜到了個不錯的：

https://github.com/petterobam/my-html2file

介紹：收集一系列html轉文檔的開源插件，做成html頁面轉文件的微服務集成Web應用，目前包含 html轉PDF、html轉圖片、html轉markdown等等。

功能：

網頁轉PDF（參用wkhtml2pdf插件）
網頁轉圖片（參用wkhtml2pdf插件）
網頁轉Markdown（參用jHTML2Md）
網頁轉WORD（參用Apache POI）

這里我主要用到的網頁轉PDF這么一個功能，對應的插件是wkhtml2pdf。

1.1踩坑

發現了一個不錯的輪子了，感覺可行，於是就去下載來跑一下看看怎么樣。啟動的時候倒沒有出錯，但在調接口的時候，老是拋出異常。

於是就開始查一下路徑，url有沒有問題啦，查來查去發現都沒問題啊。

后來才發現我的wkhtml2pdf.exe文件打不開，說我缺少幾個dll文件。於是，我首先想到的是去wkhtml2pdf官網看看有沒有相關的問題，想重新下載一個，但官網都進不去...(不是牆的問題)

https://wkhtmltopdf.org/
(ps：一個周末過去了，發現又能打開了。)

好吧，於是就去找‘dll文件缺失怎么辦’。后面發現，安裝一下Visual C++ Redistributable for Visual Studio 2015就好了(沒有網上說得那么復雜)

https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145

完了之后，發現可以將一個HTML轉成PDF了，效果還不錯：

有目錄
可復制粘貼
可跳轉到鏈接
清晰度好評

HTML轉成PDF

缺點：

頁面加載速度慢的HTML，圖片還沒加載出來就已經生成PDF了
- 所以我選用了博客園(速度快)
在PDF的末尾有好幾頁不相關的(評論，廣告啥的)

本來想着能不能只截取HTML博文的部分啊(評論，廣告和其他不相關的不截取)。於是就去搜了一下，感覺是挺麻煩的，自己做了幾次試驗都沒弄出來，最后放棄了。

后來又想了一下，我不是有一個沒有廣告的博客平台嗎，剛好可以拿來用了。但是，我自己寫完的markdown是沒有全部保存在硬盤上的，后來發現簡書可以下載已發布文章的所有markdown。

簡書可以下載所有的文章

下載下來的文章，我想全部導入到之前那個無廣告的博客平台上。但發現導出來的markdown沒有高亮語法..

下載下來的markdown沒有高亮語法

// 沒有語法高亮咋看啊，所以到這里我就放棄了，將就用一下博客園生成的PDF吧

1.2爬蟲學習

上面GitHub提供的接口是一個URL生成一個PDF文件，我是不可能一個一個將鏈接和標題放上去生成的(因為博客園上發的也將近200篇了)。

而我是一點也不會爬蟲的，於是也去搜了一下Java的爬蟲輪子，發現一個很出名(WebMagic)

https://github.com/code4craft/webmagic

於是就跟着文檔學習，也遇到了坑...文檔給出的版本是0.7.3，我使用的JDK版本是8，用它的例子跑的時候拋出了SSLException異常(然而網上的0.6.x版本是沒有問題的)

折騰完折騰去，也找到了0.7.3版本在JDK8上如何解決SSLException異常的辦法了：

http://www.cnblogs.com/vcmq/p/9484418.html

修改HttpClientDownloader和HttpClientGenerator這兩個類的部分代碼就好了。

但是，我還是死活寫不出能用的代碼出來(真的菜!)..后來去問了一下同事(公眾號：Rude3Knife)咋搞，他用Python幾分鍾就寫好了。


def get_blog_yuan(blog_name, header):
    for i in range(1, 6):
        url = 'https://www.cnblogs.com/' + blog_name + '/default.html?page=' + str(i)
        r = requests.get(url, headers=header, timeout=6)
        selector = etree.HTML(r.text)
        names = selector.xpath("//*[@class='postTitle']/a/text()")
        links = selector.xpath("//*[@class='postTitle']/a/@href")
        for num in range(len(names)):
            print(names[num], links[num])
        time.sleep(5)

我也不糾結了..直接用他爬下來的數據吧(:

WebMagic中文文檔：