Python爬蟲-爬小說


用途

用來爬小說網站的小說默認是這本御天邪神,雖然我並沒有看小說,但是絲毫不妨礙我用爬蟲來爬小說啊。
如果下載不到txt,那不如自己把txt爬下來好了。

功能

  • 將小說取回,去除HTML標簽
  • 記錄已爬過/未爬過的章節
  • 從最后爬過那一頁開始繼續爬,不會重復爬取爬過的目錄
    因為爬過的章節是要有順序的,目前版本還沒有支持多線程。(線程混亂分不清章節先后)

使用方式

Python的安裝是必須,除此之外,還有這些依賴

(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns
Package        Version  
-------------- ---------
beautifulsoup4 4.6.0    
html2text      2016.9.19
lxml           3.7.3    
requests       2.14.2   

依賴安裝方式
pip install beautifulsoup4 lxml requests html2text
新建一個task.json的文件,放入spider.py同目錄,內容如下

{
    "title": "御天邪神", 
    "base_url": "http://i.258zw.com/wapbook-1852/", 
    "last_page_url": ""
}

title是書名,base_url是章節的第一頁,last_page_url留空就好
python spider.py開始運行,然后等待直到結束。
就像這樣:

python源碼:Github-Syler-Fun-spider.py


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM