PDF轉EPUB格式電子書經驗總結

本文轉載自查看原文 2017-07-24 08:21 20961

依據本人將PDF轉換為EPUB電子書的經驗，總結整理了這篇文章。因本人水平有限，難免有錯誤和不足之處，望大家及時批評指正。

寫這篇文章時，假定讀者已經會使用文中所列出軟件的基本操作，比方如何用Notepad++打開HTML文件，如何使用PDF Password
Remover（這個軟件非常easy，稍有電腦操作基礎的人打開后就知道怎么做）。另外讀者須要對ePubBuilder的操作比較了解。

本文主要討論圖文並茂、非掃描版的PDF文檔。對於掃描版PDF文件，假設是漫畫一類的，能夠直接用Adobe
Acrobat轉化為圖片制作EPUB，假設是文字形式的掃描電子書，能夠使用OCR軟件識別以轉化成文字(ABBYY
FineReader識別效果相對較好)。但OCR識別中文准確率不夠高，部分無法識別的漢字須要人工輸入。對於純文本形式的PDF，直接保存為TXT，然后轉換就能夠。

假設文字無法復制。能夠用PDF
Password Remover解密，詳細請參考本文的PDF解密部分。

下面摘自百度百科：

PDF是Portable Document Format（便攜文件格式）的縮寫，是一種電子文件格式，與操作系統平台無關，由Adobe
公司開發而成。PDF
文件是以PostScript語言圖象模型為基礎，不管在哪種打印機上都可保證精確的顏色和准確的打印效果，即PDF會忠實地再現原稿的每個字符、顏色以及圖象。

PDF主要由三項技術組成：

　　· 衍生自PostScript，能夠說是PostScript的縮小版；

　　· 字型嵌入系統，可使字型隨文件一起傳輸；

　　· 資料壓縮及傳輸系統。

PDF文件結構主要能夠分為四個部分：

1．首部

2．文件體

3. 交叉引用表

4．尾部

一方面，PDF格式作為印前出版的工業標准。因為其排版相對復雜，文件內容也有比較復雜，比方PDF能夠內嵌特殊字體，能夠非常自由的保存每一個圖片、文本對象的絕對位置，而還有一方面，EPUB採用類似網頁格式的XML標准，即使添加了CSS樣式表的支持。排版效果還是遠難及PDF，因此想把排版優良的PDF電子書完美地轉換成EPUB格式。相對照較復雜。一些正版收費閱讀器會推出一些排版質量非常高的EPUB，我試用過，排版確實不錯。可是那僅僅有在非常精心的制作下才干得出，對於我們轉換PDF的人來說，是非常不現實的，並且那些電子書一般收費是比較高的。應該還有授權限制，不可能共享出來讓大家都能用（這些文件僅僅有在特定應用中登錄特定賬號后才干打開，復制給別人就打不開了）。

可能要用到的全部軟件：

PDF Password Remover 3.0

Adobe Acrobat

Chrome瀏覽器（其它瀏覽器應該也行）

Notepad++

Microsoft Word

WPS

數碼照片壓縮大師

ePubBuilder

大致思路是首先解除password限制。然后導出為HTML格式，去除無關信息、修正亂碼等。然后用ePubBuilder導入，完好書籍信息。分章節。自己用閱讀器打開檢查有無嚴重錯誤，然后公布。

為什么要轉為HTML，由於這樣的格式全然開源。優點理。出錯率低，也和EPUB內部保存格式一致。

詳細過程例如以下：

首先指明一點，下面的步驟最后要達到的排版上的目標是：全部圖片都能正常顯示。但都默認靠左（有些閱讀器能夠設定圖片強制居中顯示）。文字段落和圖片分開。文字不會圍繞圖片，也就是不會左邊一半是圖，右邊一半是文字。盡管那樣效果更好，但難度太大。不易實現。

1、假設加密了，使用PDF Password Remover移除PDF文件加密限制。加密問題后面還會詳細討論。

2、用Acrobat打開，菜單中
文件，另存為（或導出）。選擇生成HTML3.2格式（無CSS）。生成的時候可能比較慢。一定要耐心等，不要亂點鼠標。easy死機。依據經驗，這里不選擇HTML4.0（CSS1.0），雖然后者有CSS的支持，排版按理說會更好。但其實導入ePubBuilder中出錯率大增，效果也並不好。

3、在瀏覽器中查看，有沒有明顯的錯誤。比方根本打不開，全是亂碼。沒有中文，沒有圖片等。全是亂碼可能是HTML編碼的問題，沒有中文可能是PDF字體、編碼的問題，沒有圖片也許是HTML鏈接的問題，解決起來非常麻煩，也不一定對。

假設真遇到這種嚴重問題，我也無能為力了。只是幸運地是，僅僅要PDF比較正常。不會出現這種問題。

這里簡要說明一下，HTML一般由源文件和數據目錄組成，如“攝影.html”和相應目錄“攝影_files”，目錄也有可能是其它名稱。如images，源代碼和數據目錄通常要放在同一父目錄下，目錄中主要為圖片等多媒體文件。可能還有CSS樣式表、Javascript腳本一類的東西。在PDF導出的HTML3.2中，基本上僅僅會是圖片。而html源文件事實上是文本文件，用記事本就能夠打開，后面我們會用Notepad++直接操作HTML源文件。

4、從這一步開始，我們須要修正HTML的各種問題。會涉及一些可能不好懂得知識。對於了解HTML和正則表達式的人，應該能非常快明確。不懂的話照着做就能夠了。

假設你在上一步打開HTML時感覺排版已經非常好了，並且沒有多余的東西。能夠直接跳過HTML修正的這些步驟。直接導入到ePubBuilder看效果假設。

5、用Notepad++打開HTML文件，我們能夠看到其源代碼如圖。

6、替換刪去html源代碼中align代碼以去除圖片文字指定的對齊。使其默認左對齊。詳細方法是，按Ctrl+H，或菜單中搜索 -
替換。“查找模式”為“普通”，“查找目標”為align="center"，，“替換為”這個框不填，勾選“循環查找”，然后點擊“所有替換”。

假設一次處理多個文件，則所有打開，點擊“替換所有打開文件”就可以。

相同。“查找目標”分別改為align="left"，align="right"，align="justify"，所有替換。再次打開HTML時。你會發現原先位置有些混亂的圖片看上去好多了。假設有些圖片確實是居中更合適，能夠不所有替換。或者在后文還會利用Word來改動。

這個版式就有點亂，原因就在於有些圖片靠右對齊。有些靠左，還有的文字設定了兩端對齊。

7、替換刪去頁眉等干擾圖文（使用正則表達式）

一般的圖書都會有頁眉和頁腳，比如圖中紅色框出的部分。還有像頁碼一類的標注。這些信息在生成EPUB后全然沒有意義，由於EPUB在不同情況下頁碼分布並不一樣。了解Word的人知道，在圖書編輯時。頁眉是能夠批量編輯改動的，可是生成PDF之后頁眉頁腳變成了分別獨立的對象，沒辦法同一時候刪除。

假設頁眉是文字，將在下一步處理，源代碼中有可能文本採用的是轉義字符，看不懂的情況下也不便改動。假設頁眉含有圖片。如圖中的數字02，須要通過HTML源代碼進行替換。方法例如以下。

用Chrome和Notepad++同一時候打開HTML文件。在Chrome中右擊頁眉圖片，審查元素。底下會有個顯示源代碼的窗體，看清width和height后面相應的表示圖片寬高的數字，切換到Notepad++，還是使用替換功能。首先把“查找模式”改為“正則表達式”，取消勾選“匹配大寫和小寫”，勾選“.
matches newline”。其它選項不變，查找目標為

<[^<>]*IMG[^<>]*width="39"[^<>]*height="71"[^<>]*>

注意中間沒有不論什么空格，width和height后面的數字是剛剛在Chrome中看到的數字，然后所有替換，保存文件，但不要關閉Notepad++。

這時，寬度和高度符合要求的圖片就沒有了。然后在Chrome中刷新，看改動后有沒有問題，假設有問題。在Notepad++中撤銷更改，然后得針對實際情況詳細分析（此處略去）。

一般在Chrome中還能看到一些頁眉沒有被替換掉，原因是他們的寬高可能與之前的有所差距，這時僅僅需反復前面動作即可了。

採用轉義字符（形如& # 20154 ；）表示的漢字，非常難看明確：

8、用word進一步編輯

這一步完畢后HTML就會接近完美了。所以也非常關鍵。

用Word打開HTML（不推薦其它軟件，由於包括整本書的HTML文件一般非常大，非常多軟件打開非常easy死機。如WPS、DreamWeaver。而Word2010在這方面優化的不錯，2003版的不清楚），打開后能夠全選改動字體等。然后替換，去除少量無法顯示的字符亂碼。即顯示為問號（相同注意盡量不要把原文問號替換沒了），替換掉反復出現的站點信息、廣告等。還有就是文字形式的頁眉頁腳（再次強調，注意盡量不要把原文中和頁眉相同內容替換沒了，Word中能夠依據指定字體來替換，這樣比較方便），對於不是非常規則的頁碼如：第x頁，這種信息去除，則交給ePubBuilder來完畢。然后用Word把圖文中排版不當的進行適度改動，不須要的文件夾則去除，沒有嚴重問題就可以。

注意這里有個問題，假設PDF比較完整，有文件夾，要把文件夾中相應頁碼刪除。就像這樣：前言………………………………………………………………1，這個第一頁在轉換為HTML時就已失去意義了，沒有必要保留。

另外此處注意一種常見的問題。就是個別文字是圖片形式保存的。將在后文常見問題中具體說明。

Word強大的替換功能，能夠指定替換前后的文字格式。

9、假設有必要的話。優化HTML文件。以便正確導入ePubBuilder。

這一步其實能夠說應該還是ePubBuilder不夠完好造成的吧。用Word編輯保存后的HTML文件頭部會增加非常多特殊信息，如圖中<meta....>，還有綠色的部分（在標准的HTML中這樣的形式的文本為凝視。刪除后沒有影響）等，另外還有圖片的鏈接問題。這些問題有時會影響ePubBuilder導入，出現一些錯誤。

假設出現了錯誤。請嘗試使用瀏覽器打開另存，用Notepad++刪除綠色的部分。

假設還是不行，使用用WPS新建文檔（Word不行，WPS生成時會又一次鏈接圖片，Word則不會），用瀏覽器打開HTML。全選並復制網頁內容。粘貼到WPS。保存為HTML。

此時HTML文件會全然又一次生成，但圖片可能會被WPS轉為png，占用空間通常會增大，不推薦。

10、假設用了WPS又一次保存，請查看HTML文件的圖片目錄大小。假設過大，有必要壓縮一下

壓縮方法例如以下：

用數碼照片壓縮大師加入目錄，輸出jpg保存到還有一目錄。然后用Notepad++打開HTML源代碼。能夠找到類似

<IMG 。。。 width="711" height="911" src="images/img_0.png"
。。

。>

這種圖片標簽，然后用普通模式替換“.png”為“.jpg”。

然后把圖片目錄的png圖片刪除，將壓縮后的jpg移進去。

最后用瀏覽器打開后確認一下。

11、用ePubBuilder導入，編輯書籍信息，分章節，智能排版等

看有沒有錯誤，有錯的話改動一下。前面可能還遺留了一個問題，頁腳形如“第x頁”的去除。能夠使用刪除特征行的功能實現。

這里我還是提出ePubBuilder的一個缺陷。你可能會發現，原先的HTML排版非常好。還有字體信息等。但導入后都沒有了，有些圖片也會有些小問題，比方我的HTML如圖。但導入后，字體格式沒有了。文字、圖片居中沒有了並且原先在“攝影大師之道”左邊的那個紅框位置就全然亂了。這個我眼下還沒有好的對策，期待着ePubBuilder功能繼續完好吧。

12、導出EPUB，用掌上書苑或者其它查看器再查看一下是否正常。然后公布，等着審核通過拿書幣吧^_^。是不是認為這書幣拿的格外開心呢？

easy出現的問題，我分析了下面，大致有這些吧：

一是PDF的加密版權保護。

非常多PDF因為涉及版權問題，採用了一定的加密手段，最嚴格的一種是打開文件時要求輸入password，如圖所看到的。對於這樣的情況，我們僅僅能使用Advanced
PDF Password Recovery一類軟件暴力破解。這里就不具體介紹了，成功率不高。須要大量時間。

更常見的加密方式是。文件能夠打開，但不能復制當中的文本。或者復制的是亂碼。這種情況。我們使用PDF Password
Remover一般就能非常快移除加密限制。從而復制當中的文本。

二是PDF內嵌的字體。非常多PDF內嵌一些字體，會導致復制出來出現亂碼現象。假設整個文檔導出的文件錯字連篇，我也不知有什么好辦法，可是假設僅僅有少量錯字，還是能夠手工改動的，或者某幾個字出錯。能夠採用替換的方式解決，當然自己主動替換所有文字時非常可能把正確的字給替換錯了。

舉個樣例。假設文中所有“的”字變成了“癿”，我們能夠放心的替換回來。由於這個字非常少見。可是假設“的”字所有變成了“白”字，盲目替換會把“明確”替換成“明的”，就出問題了。

對於這種情況，確實沒有好辦法解決。這一點尤其要注意。

另一種情況。個別文字的字體系統中沒有（一般是由於其它文字使用的字體不支持這幾個字，這幾個字就會換成其它字體），然后會被轉換成圖片，如圖。這就須要在Word中耐心一點手動改正了。

三是排版的問題。

比方以下這邊排版精美的攝影電子書，圖文並茂，文字在圖片中間。轉換成HTML后會如何呢？最后如你所料，有些混亂。這個也不好解決。假設你想制作優質的書，那就在Word中手動改動吧^_^。

（非常可惜我實在沒有這般的耐心。）

另一種情況。非常奇特。在PDF中，文字也是一個個對象。通常一段字體同樣的文字是一個對象。而每張圖片是一個對象。

可是，PDF編輯器有個非常有意思的地方。比方說，兩段文字原先是一個對象，你在當中插入一個空行，可能它就被分成兩個對象了，反過來，兩個同一性質的對象（都是文字或都是文字），靠得比較近時。又會自己主動並成一個對象。

奇跡就發生了。試想。下圖中如果中間的圖和以下的圖靠得非常近，寬度也一致，然后就奇跡般地組合成一個對象了，然后輸出的HTML中，他們成為了“連體嬰兒”。成了一張圖片，然后。你就不知道該怎么安排旁邊那些描寫敘述性的文字了（除非手工又把圖片切割開）。所以僅僅好希望讀者將就着看吧。哎，PDF轉EPUB的無奈在此也可見一斑了。

本文首發自我的個人主頁。轉載請注明來源：http://www.hainter.com/pdf-to-epub

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 修改EPUB電子書的格式和樣式【電子書分享】Learning PySpark下載，包含pdf、epub格式 EPUB PDF DOCX格式轉換及主流格式電子書制作終極攻略（內含用WORD制作精美EPUB方法）劍指Offer 電子書 epub和PDF資源電子書轉換為PDF格式 vue + epub.js 電子書 epub電子書--目錄結構介紹《烏合之眾》古斯塔夫 txt+pdf+epub+mobi 電子書下載思考快與慢丹尼爾·卡尼曼 txt+pdf+epub+mobi 電子書下載 24個比利丹尼爾·凱斯 txt+pdf+epub+mobi 電子書下載