Python爬蟲-爬小說

本文轉載自查看原文 2017-06-02 23:27 3618

用途

用來爬小說網站的小說默認是這本御天邪神，雖然我並沒有看小說，但是絲毫不妨礙我用爬蟲來爬小說啊。
如果下載不到txt，那不如自己把txt爬下來好了。

功能

將小說取回，去除HTML標簽
記錄已爬過/未爬過的章節
從最后爬過那一頁開始繼續爬，不會重復爬取爬過的目錄
因為爬過的章節是要有順序的，目前版本還沒有支持多線程。（線程混亂分不清章節先后）

使用方式

Python的安裝是必須，除此之外，還有這些依賴

(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns
Package        Version  
-------------- ---------
beautifulsoup4 4.6.0    
html2text      2016.9.19
lxml           3.7.3    
requests       2.14.2

依賴安裝方式
pip install beautifulsoup4 lxml requests html2text
新建一個task.json的文件，放入spider.py同目錄，內容如下

{
    "title": "御天邪神", 
    "base_url": "http://i.258zw.com/wapbook-1852/", 
    "last_page_url": ""
}

title是書名，base_url是章節的第一頁，last_page_url留空就好
python spider.py開始運行，然后等待直到結束。
就像這樣：

python源碼：Github-Syler-Fun-spider.py

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲之爬取小說（一） python爬蟲爬小說，來不及解釋了。 Python爬蟲爬取目標小說並保存到本地 Java爬蟲框架 | 爬小說 Python爬蟲練習（一）爬取筆趣閣小說（搜索+爬取）從“頂點小說”下載完整小說——python爬蟲 Golang 簡單爬蟲實現，爬取小說 Java爬蟲：用java爬取小說 Python基礎之爬取小說 Python的scrapy之爬取頂點小說網的所有小說