python爬蟲之小說網站--下載小說(正則表達式)

本文轉載自查看原文 2019-01-30 10:12 2762 python/ pyhon爬蟲之小說網站--下載小說

思路:

1.找到要下載的小說首頁,打開網頁源代碼進行分析(例:https://www.kanunu8.com/files/old/2011/2447.html)

2.分析自己要得到的內容,首先分析url,發現只有后面的是變化的，先獲得小說的沒有相對路徑，然后組合成新的url(每章小說的url)

3.獲得每章小說的內容，進行美化處理

代碼如下:

#小說爬蟲
import requests import re url='https://www.kanunu8.com/book4/10509/'
#因為編碼原因,先獲取二進制內容再進行解碼
txt=requests.get(url).content.decode('gbk') #當前小說編碼為"gbk2312"
m1=re.compile(r'<td colspan="4" align="center"><strong>(.+)</strong>') #print(m1.findall(txt))
m2=re.compile(r'<td( width="25%")?><a href="(.+\.html)">(.+)</a></td>') #print(m2.findall(txt))
raw=m2.findall(txt) #獲得小說的目錄以及對應的每個章節的相對路徑
sanguo=[] for i in raw: sanguo.append([i[2],url+i[1]])  #生成每個章節的url

#print(sanguo)
 m3=re.compile(r'<p>(.+)</p>',re.S)  #每章節小說內容
m4=re.compile(r'<br />')            #<br />小說內容中的符號
m5=re.compile(r'&nbsp;&nbsp;&nbsp;&nbsp;') with open('中國合伙人1.txt','a') as f: for i in sanguo: i_url=i[1]  #i[1]為小說章節url
        print("正在下載----->",i[0])    #i[0]為小說章節目錄
        r_nr=requests.get(i_url).content.decode('gbk') n_nr=m3.findall(r_nr) #print(n_nr)
        n=m4.sub('',n_nr[0]) #把n_nr[0]中"<br />"替換為空
        n2=m5.sub('',n) f.write('\n'+i[0]+'\n') #把小說的目錄寫入文件
        f.write(n2)

運行效果如下：

保存的內容如下:

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 批量下載小說網站上的小說（python爬蟲）初次嘗試python爬蟲，爬取小說網站的小說。 python 3 爬取某小說網站小說，注釋詳細我用Python實現了一個小說網站雛形 python爬蟲之正則表達式 Python爬蟲（二）正則表達式 python爬蟲之正則表達式 c# 使用正則表達式提取章節小說正文全本篇正則表達式爬取小說各章節鏈接分享一個多方式精確爬取下載某小說網站上萬本小說的自寫爬蟲腳本