PDF轉EPUB格式電子書經驗總結


依據本人將PDF轉換為EPUB電子書的經驗,總結整理了這篇文章。因本人水平有限,難免有錯誤和不足之處,望大家及時批評指正。
 
寫這篇文章時,假定讀者已經會使用文中所列出軟件的基本操作,比方如何用Notepad++打開HTML文件,如何使用PDF Password
Remover(這個軟件非常easy,稍有電腦操作基礎的人打開后就知道怎么做)。另外讀者須要對ePubBuilder的操作比較了解。
 
本文主要討論圖文並茂、非掃描版的PDF文檔。對於掃描版PDF文件,假設是漫畫一類的,能夠直接用Adobe
Acrobat轉化為圖片制作EPUB,假設是文字形式的掃描電子書,能夠使用OCR軟件識別以轉化成文字(ABBYY
FineReader識別效果相對較好)。但OCR識別中文准確率不夠高,部分無法識別的漢字須要人工輸入。對於純文本形式的PDF,直接保存為TXT,然后轉換就能夠。

假設文字無法復制。能夠用PDF
Password Remover解密,詳細請參考本文的PDF解密部分。

 
下面摘自百度百科:
PDF是Portable Document Format(便攜文件格式)的縮寫,是一種電子文件格式,與操作系統平台無關,由Adobe
公司開發而成。PDF
文件是以PostScript語言圖象模型為基礎,不管在哪種打印機上都可保證精確的顏色和准確的打印效果,即PDF會忠實地再現原稿的每個字符、顏色以及圖象。
PDF主要由三項技術組成:
  · 衍生自PostScript,能夠說是PostScript的縮小版;
  · 字型嵌入系統,可使字型隨文件一起傳輸;
  · 資料壓縮及傳輸系統。
PDF文件結構主要能夠分為四個部分:
1.首部
2.文件體
3. 交叉引用表
4.尾部
 
 
一方面,PDF格式作為印前出版的工業標准。因為其排版相對復雜,文件內容也有比較復雜,比方PDF能夠內嵌特殊字體,能夠非常自由的保存每一個圖片、文本對象的絕對位置,而還有一方面,EPUB採用類似網頁格式的XML標准,即使添加了CSS樣式表的支持。排版效果還是遠難及PDF,因此想把排版優良的PDF電子書完美地轉換成EPUB格式。相對照較復雜。一些正版收費閱讀器會推出一些排版質量非常高的EPUB,我試用過,排版確實不錯。可是那僅僅有在非常精心的制作下才干得出,對於我們轉換PDF的人來說,是非常不現實的,並且那些電子書一般收費是比較高的。應該還有授權限制,不可能共享出來讓大家都能用(這些文件僅僅有在特定應用中登錄特定賬號后才干打開,復制給別人就打不開了)。

 
 
可能要用到的全部軟件:
PDF Password Remover 3.0
Adobe Acrobat
Chrome瀏覽器(其它瀏覽器應該也行)
Notepad++
Microsoft Word
WPS
數碼照片壓縮大師
ePubBuilder
 
大致思路是首先解除password限制。然后導出為HTML格式,去除無關信息、修正亂碼等。然后用ePubBuilder導入,完好書籍信息。分章節。自己用閱讀器打開檢查有無嚴重錯誤,然后公布。

為什么要轉為HTML,由於這樣的格式全然開源。優點理。出錯率低,也和EPUB內部保存格式一致。

 
詳細過程例如以下:
首先指明一點,下面的步驟最后要達到的排版上的目標是:全部圖片都能正常顯示。但都默認靠左(有些閱讀器能夠設定圖片強制居中顯示)。文字段落和圖片分開。文字不會圍繞圖片,也就是不會左邊一半是圖,右邊一半是文字。盡管那樣效果更好,但難度太大。不易實現。

 
 
 
 
 
1、假設加密了,使用PDF Password Remover移除PDF文件加密限制。加密問題后面還會詳細討論。

 
 
 
2、用Acrobat打開,菜單中
文件,另存為(或導出)。選擇生成HTML3.2格式(無CSS)。生成的時候可能比較慢。一定要耐心等,不要亂點鼠標。easy死機。依據經驗,這里不選擇HTML4.0(CSS1.0),雖然后者有CSS的支持,排版按理說會更好。但其實導入ePubBuilder中出錯率大增,效果也並不好。
 
 
3、在瀏覽器中查看,有沒有明顯的錯誤。比方根本打不開,全是亂碼。沒有中文,沒有圖片等。全是亂碼可能是HTML編碼的問題,沒有中文可能是PDF字體、編碼的問題,沒有圖片也許是HTML鏈接的問題,解決起來非常麻煩,也不一定對。

假設真遇到這種嚴重問題,我也無能為力了。只是幸運地是,僅僅要PDF比較正常。不會出現這種問題。

 
這里簡要說明一下,HTML一般由源文件和數據目錄組成,如“攝影.html”和相應目錄“攝影_files”,目錄也有可能是其它名稱。如images,源代碼和數據目錄通常要放在同一父目錄下,目錄中主要為圖片等多媒體文件。可能還有CSS樣式表、Javascript腳本一類的東西。在PDF導出的HTML3.2中,基本上僅僅會是圖片。而html源文件事實上是文本文件,用記事本就能夠打開,后面我們會用Notepad++直接操作HTML源文件。
 
 
4、從這一步開始,我們須要修正HTML的各種問題。會涉及一些可能不好懂得知識。對於了解HTML和正則表達式的人,應該能非常快明確。不懂的話照着做就能夠了。

假設你在上一步打開HTML時感覺排版已經非常好了,並且沒有多余的東西。能夠直接跳過HTML修正的這些步驟。直接導入到ePubBuilder看效果假設。

 
5、用Notepad++打開HTML文件,我們能夠看到其源代碼如圖。
 
 
6、替換刪去html源代碼中align代碼以去除圖片文字指定的對齊。使其默認左對齊。詳細方法是,按Ctrl+H,或菜單中  搜索 -
替換。“查找模式”為“普通”,“查找目標”為align="center",,“替換為”這個框不填,勾選“循環查找”,然后點擊“所有替換”。

假設一次處理多個文件,則所有打開,點擊“替換所有打開文件”就可以。

相同。“查找目標”分別改為align="left",align="right",align="justify",所有替換。再次打開HTML時。你會發現原先位置有些混亂的圖片看上去好多了。假設有些圖片確實是居中更合適,能夠不所有替換。或者在后文還會利用Word來改動。

 
這個版式就有點亂,原因就在於有些圖片靠右對齊。有些靠左,還有的文字設定了兩端對齊。

 
 
 
 
7、替換刪去頁眉等干擾圖文(使用正則表達式)
一般的圖書都會有頁眉和頁腳,比如圖中紅色框出的部分。還有像頁碼一類的標注。這些信息在生成EPUB后全然沒有意義,由於EPUB在不同情況下頁碼分布並不一樣。了解Word的人知道,在圖書編輯時。頁眉是能夠批量編輯改動的,可是生成PDF之后頁眉頁腳變成了分別獨立的對象,沒辦法同一時候刪除。
 
 
假設頁眉是文字,將在下一步處理,源代碼中有可能文本採用的是轉義字符,看不懂的情況下也不便改動。假設頁眉含有圖片。如圖中的數字02,須要通過HTML源代碼進行替換。方法例如以下。

用Chrome和Notepad++同一時候打開HTML文件。在Chrome中右擊頁眉圖片,審查元素。底下會有個顯示源代碼的窗體,看清width和height后面相應的表示圖片寬高的數字,切換到Notepad++,還是使用替換功能。首先把“查找模式”改為“正則表達式”,取消勾選“匹配大寫和小寫”,勾選“.
matches newline”。其它選項不變,查找目標為

<[^<>]*IMG[^<>]*width="39"[^<>]*height="71"[^<>]*>
注意中間沒有不論什么空格,width和height后面的數字是剛剛在Chrome中看到的數字,然后所有替換,保存文件,但不要關閉Notepad++。

這時,寬度和高度符合要求的圖片就沒有了。然后在Chrome中刷新,看改動后有沒有問題,假設有問題。在Notepad++中撤銷更改,然后得針對實際情況詳細分析(此處略去)。

一般在Chrome中還能看到一些頁眉沒有被替換掉,原因是他們的寬高可能與之前的有所差距,這時僅僅需反復前面動作即可了。

 
 
 
採用轉義字符(形如& # 20154 ;)表示的漢字,非常難看明確:
 
 
 
 
 
8、用word進一步編輯
這一步完畢后HTML就會接近完美了。所以也非常關鍵。

用Word打開HTML(不推薦其它軟件,由於包括整本書的HTML文件一般非常大,非常多軟件打開非常easy死機。如WPS、DreamWeaver。而Word2010在這方面優化的不錯,2003版的不清楚),打開后能夠全選改動字體等。然后替換,去除少量無法顯示的字符亂碼。即顯示為問號(相同注意盡量不要把原文問號替換沒了),替換掉反復出現的站點信息、廣告等。還有就是文字形式的頁眉頁腳(再次強調,注意盡量不要把原文中和頁眉相同內容替換沒了,Word中能夠依據指定字體來替換,這樣比較方便),對於不是非常規則的頁碼如:第x頁,這種信息去除,則交給ePubBuilder來完畢。然后用Word把圖文中排版不當的進行適度改動,不須要的文件夾則去除,沒有嚴重問題就可以。

注意這里有個問題,假設PDF比較完整,有文件夾,要把文件夾中相應頁碼刪除。就像這樣:前言………………………………………………………………1,這個第一頁在轉換為HTML時就已失去意義了,沒有必要保留。

另外此處注意一種常見的問題。就是個別文字是圖片形式保存的。將在后文常見問題中具體說明。
 
 
Word強大的替換功能,能夠指定替換前后的文字格式。
 
 
 
9、假設有必要的話。優化HTML文件。以便正確導入ePubBuilder。

這一步其實能夠說應該還是ePubBuilder不夠完好造成的吧。用Word編輯保存后的HTML文件頭部會增加非常多特殊信息,如圖中<meta....>,還有綠色的<!--..........-->部分(在標准的HTML中這樣的形式的文本為凝視。刪除后沒有影響)等,另外還有圖片的鏈接問題。這些問題有時會影響ePubBuilder導入,出現一些錯誤。

假設出現了錯誤。請嘗試使用瀏覽器打開另存,用Notepad++刪除綠色的<!--..........-->部分。

假設還是不行,使用用WPS新建文檔(Word不行,WPS生成時會又一次鏈接圖片,Word則不會),用瀏覽器打開HTML。全選並復制網頁內容。粘貼到WPS。保存為HTML。

此時HTML文件會全然又一次生成,但圖片可能會被WPS轉為png,占用空間通常會增大,不推薦。

 
 
10、假設用了WPS又一次保存,請查看HTML文件的圖片目錄大小。假設過大,有必要壓縮一下
壓縮方法例如以下:
用數碼照片壓縮大師加入目錄,輸出jpg保存到還有一目錄。然后用Notepad++打開HTML源代碼。能夠找到類似

<IMG 。。。 width="711" height="911" src="images/img_0.png"
。。

。>

這種圖片標簽,然后用普通模式替換“.png”為“.jpg”。

然后把圖片目錄的png圖片刪除,將壓縮后的jpg移進去。

最后用瀏覽器打開后確認一下。

 
 
 
11、用ePubBuilder導入,編輯書籍信息,分章節,智能排版等
看有沒有錯誤,有錯的話改動一下。前面可能還遺留了一個問題,頁腳形如“第x頁”的去除。能夠使用刪除特征行的功能實現。

這里我還是提出ePubBuilder的一個缺陷。你可能會發現,原先的HTML排版非常好。還有字體信息等。但導入后都沒有了,有些圖片也會有些小問題,比方我的HTML如圖。但導入后,字體格式沒有了。文字、圖片居中沒有了並且原先在“攝影大師之道”左邊的那個紅框位置就全然亂了。這個我眼下還沒有好的對策,期待着ePubBuilder功能繼續完好吧。

 
 
12、導出EPUB,用掌上書苑或者其它查看器再查看一下是否正常。然后公布,等着審核通過拿書幣吧^_^。是不是認為這書幣拿的格外開心呢?
 
 
 
easy出現的問題,我分析了下面,大致有這些吧:
一是PDF的加密版權保護。

非常多PDF因為涉及版權問題,採用了一定的加密手段,最嚴格的一種是打開文件時要求輸入password,如圖所看到的。對於這樣的情況,我們僅僅能使用Advanced
PDF Password Recovery一類軟件暴力破解。這里就不具體介紹了,成功率不高。須要大量時間。

 
 
更常見的加密方式是。文件能夠打開,但不能復制當中的文本。或者復制的是亂碼。這種情況。我們使用PDF Password
Remover一般就能非常快移除加密限制。從而復制當中的文本。

 
 
二是PDF內嵌的字體。非常多PDF內嵌一些字體,會導致復制出來出現亂碼現象。假設整個文檔導出的文件錯字連篇,我也不知有什么好辦法,可是假設僅僅有少量錯字,還是能夠手工改動的,或者某幾個字出錯。能夠採用替換的方式解決,當然自己主動替換所有文字時非常可能把正確的字給替換錯了。

舉個樣例。假設文中所有“的”字變成了“癿”,我們能夠放心的替換回來。由於這個字非常少見。可是假設“的”字所有變成了“白”字,盲目替換會把“明確”替換成“明的”,就出問題了。

對於這種情況,確實沒有好辦法解決。這一點尤其要注意。

另一種情況。個別文字的字體系統中沒有(一般是由於其它文字使用的字體不支持這幾個字,這幾個字就會換成其它字體),然后會被轉換成圖片,如圖。這就須要在Word中耐心一點手動改正了。
 
 
 
三是排版的問題。

比方以下這邊排版精美的攝影電子書,圖文並茂,文字在圖片中間。轉換成HTML后會如何呢?最后如你所料,有些混亂。這個也不好解決。假設你想制作優質的書,那就在Word中手動改動吧^_^。

(非常可惜我實在沒有這般的耐心。)

另一種情況。非常奇特。在PDF中,文字也是一個個對象。通常一段字體同樣的文字是一個對象。而每張圖片是一個對象。

可是,PDF編輯器有個非常有意思的地方。比方說,兩段文字原先是一個對象,你在當中插入一個空行,可能它就被分成兩個對象了,反過來,兩個同一性質的對象(都是文字或都是文字),靠得比較近時。又會自己主動並成一個對象。

奇跡就發生了。試想。下圖中如果中間的圖和以下的圖靠得非常近,寬度也一致,然后就奇跡般地組合成一個對象了,然后輸出的HTML中,他們成為了“連體嬰兒”。成了一張圖片,然后。你就不知道該怎么安排旁邊那些描寫敘述性的文字了(除非手工又把圖片切割開)。所以僅僅好希望讀者將就着看吧。哎,PDF轉EPUB的無奈在此也可見一斑了。

 
 
 
 


本文首發自我的個人主頁。轉載請注明來源:http://www.hainter.com/pdf-to-epub


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM