import urllib.request import re import time num=input("輸入日期(20150101000):") def openpage(url): html=urllib.request.urlopen(url) page=html.read().decode('gb2312') return page def getpassage(page): passage = re.findall(r'<p class="MsoNormal" align="left">([\s\S]*)</FONT>',str(page)) passage1=re.sub("</?\w+[^>]*>", "", str(passage)) passage2=passage1.replace('\\r', '\r').replace('\\n', ' \n').replace('\\t','\t').replace(']','').replace('[','').replace(' ',' ') print(passage2) with open(load,'a',encoding='utf-8') as f: f.write("-----------------------------"+"日期"+str(date)+"---------------------------------\n"+passage2+"----------------------------------------------------\n") for i in range(1,32): date=int(num)+int(i) print(date) load="C:/Users/home/Desktop/新建文本文檔.txt" url=("http://www.hbuas.edu.cn/news/xyxw/news_"+str(date)+".htm")
try: page=openpage(url) getpassage(page) print("第"+str(i)+"號有文章,----已下載") except: print("第"+str(i)+"號無文章。") time.sleep(2)
寫了一個爬學校新聞網的爬蟲,
主要涉及 re正則 urllib.request 文件的寫入
在爬取文章時通常會返回很多影響美感的代碼
如下:
優化:
兩次正則
passage = re.findall(r'<p align="left">([\s\S]*)</FONT>',str(page)) #第一次匹配字段 passage1=re.sub("</?\w+[^>]*>", "", str(passage)) # 第二次去掉html標簽
替換
passage2=passage1.replace('\\r', '\r').replace('\\n', ' \n').replace('\\t','\t').replace(']','').replace('[','').replace(' ',' ')
效果如下:
over!