寫機器學習相關博文,經常會碰到很多公式,而Latex正式編輯公式的利器。目前國內常用的博客系統,好像只有博客園支持,所以當初選擇落戶博客園。我現在基本都是用Latex寫博文,然后要發表到博客園上與大家共享,就又得經歷一番功夫:首先,將Latex源碼拷貝到博文的HTML源碼編輯器中;然后,修改部分HTML不支持的Latex源碼,使得最后的博文跟我生成的PDF文檔幾乎一摸一樣。這里面設計到圖標的引用,論文的引用,文字顏色的調整,部分段落的標號等一些列問題。一旦文檔有些長了,做這些工作就挺讓人郁悶的。最討厭的是,發現最后修改完工的HTML顯示出來的文章也很部美觀,而且文字大小和標題什么的也會隨着博客主題的變化而變化,就美觀性而言完全比不上Latex生成的PDF。對於我這種比較挑剔的人,我還希望看到的東西都是很美的,即便是博文!人嘛,都是有惰性的,我願意跟大家分享學習的心得,但是不想把太多時間浪費在這些瑣碎的事情上面。
人都是有惰性的,請原諒我總是有那么些偷懶的點子。那么如何非常便捷的將PDF文檔的內容與大家共享呢?貌似沒有博客支持直接瀏覽PDF文檔的,但是幾乎所有博客都支持圖片。所以,我們可以用Adobe之類的軟件將PDF轉成JPG或PNG等格式的圖片,但是轉換得到的是每一頁PDF對應一張圖片。我甚至懶得將那十幾頁的圖片一個個上傳到博文中,然后如圖圖片大小不合適的話還得挨個調整,着實沒有這個耐心啦!我希望可以直接有個工具幫我合並這些所有的圖片。想了想,貌似沒有現成的工具可用用。不過好像不難,自己完全可以搞定的。上述這些原因,也就促成了這篇短小的博文。
我計划以后的博文都如下操作:
- 用Latex寫原始博文,生成PDF文檔;
- 將PDF轉成高清的PNG格式的圖片;
- 將多個PNG格式的圖片合並成一大張圖片;
- 將最終的大圖片直接上傳到博文編輯器中
- 啊哈,大功告成!
如何將PDF文檔轉換成其他的圖片格式呢?我建議windowns下可用Adobe Acrobat X Pro軟件完成這個工作,操作步驟如下面兩圖所示。注意在圖二中一定要自己指定一個分辨率,不用用自動的,否則生成的圖片大小會有差異的。就我的多次嘗試來看,分辨率設置得太大了,雖然圖片放大后仍然很清晰,但是貼到博文中仍然需要不斷地調整大小,選擇“59.06像素/厘米”就非常合適了;彩色空間最好還是選擇RGB吧,如果選自動的生成的圖片的通道數目可能會不一樣。需要注意的是,博客的主題要選那種供博文顯示的頁面比較寬的,否則貼圖片上去也不怎么好看的。這樣做的弊端在哪呢?最明顯的就是其他用戶通過搜索引擎查找某些關鍵詞的方式搜到博文的概率要降低很多。彌補的方式就是把博文的摘要、標題和Tag信息好好寫一下,尤其是摘要部分。
將PDF文檔用Adobe Acrobat X Pro另存為圖片后,就會在PDF文檔所在的目錄下生成一系列的名為“PDFfilename_頁面_XX.png"的一系列圖片。我們接下來的任務就是要將這些圖片合並成一張圖片。我選用了強大便捷的Python來完成這項任務。剛開始用matplotlib庫來操作,可是最終發現matplotlib中的保存圖片的函數(無論是Image.imsave()還是pyplot.imsave())都有一定的限制,那就是圖片的長或寬都不能超過32768。這個限制讓我很不滿意,繼續嘗試其他的圖像操作的庫,最終發現PIL庫不存在這個限制,問題也得到了解決。下面這段Python代碼默認所有圖片對應的順序是文件名末尾序號的升序,序號可以不連續,能處理的圖片名字必須是形如xx_1.png ... xx_100.png或者xx_001.png ... xx_100.png。最后短小精悍的Python代碼如下:
#!/usr/bin/python3 #encoding=utf-8 import numpy as np from PIL import Image import glob,os if __name__=='__main__': prefix=input('Input the prefix of images:') files=glob.glob(prefix+'_*') num=len(files) filename_lens=[len(x) for x in files] #length of the files min_len=min(filename_lens) #minimal length of filenames max_len=max(filename_lens) #maximal length of filenames if min_len==max_len:#the last number of each filename has the same length files=sorted(files) #sort the files in ascending order else:#maybe the filenames are:x_0.png ... x_10.png ... x_100.png index=[0 for x in range(num)] for i in range(num): filename=files[i] start=filename.rfind('_')+1 end=filename.rfind('.') file_no=int(filename[start:end]) index[i]=file_no index=sorted(index) files=[prefix+'_'+str(x)+'.png' for x in index] print(files[0]) baseimg=Image.open(files[0]) sz=baseimg.size basemat=np.atleast_2d(baseimg) for i in range(1,num): file=files[i] im=Image.open(file) im=im.resize(sz,Image.ANTIALIAS) mat=np.atleast_2d(im) print(file) basemat=np.append(basemat,mat,axis=0) final_img=Image.fromarray(basemat) final_img.save('merged.png')