用途
用來爬小說網站的小說默認是這本御天邪神,雖然我並沒有看小說,但是絲毫不妨礙我用爬蟲來爬小說啊。
如果下載不到txt,那不如自己把txt爬下來好了。
功能
- 將小說取回,去除HTML標簽
- 記錄已爬過/未爬過的章節
- 從最后爬過那一頁開始繼續爬,不會重復爬取爬過的目錄
因為爬過的章節是要有順序的,目前版本還沒有支持多線程。(線程混亂分不清章節先后)
使用方式
Python的安裝是必須,除此之外,還有這些依賴
(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns
Package Version
-------------- ---------
beautifulsoup4 4.6.0
html2text 2016.9.19
lxml 3.7.3
requests 2.14.2
依賴安裝方式
pip install beautifulsoup4 lxml requests html2text
新建一個task.json的文件,放入spider.py同目錄,內容如下
{
"title": "御天邪神",
"base_url": "http://i.258zw.com/wapbook-1852/",
"last_page_url": ""
}
title是書名,base_url是章節的第一頁,last_page_url留空就好
python spider.py開始運行,然后等待直到結束。
就像這樣:

python源碼:Github-Syler-Fun-spider.py
