這里我們利用強大的python爬蟲來爬取一篇文章。僅僅做一個示范,更高級的用法還要大家自己實踐。
好了,這里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/article/673911.html
(注意,有一些網站會做一些反爬處理,關於這些網站的爬取會在近期的文章中說明)
這是一篇散文,)
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> 可知網頁的編碼方式為GB2312
但在解碼是要decode(’GB18030‘),
具體說明:http://www.cnblogs.com/jjj-fly/p/6696523.html
下面開始實現代碼:
1 #coding=GB18030 2 import urllib.request 3 from bs4 import BeautifulSoup 4 import re 5 6 url="http://www.duanwenxue.com/article/673911.html" 7 a=urllib.request.urlopen(url) 8 9 htmlstr=a.read().decode('GB18030') 10 11 soup=BeautifulSoup(htmlstr,'html.parser') 12 13 y=re.compile(r'<p>([\s\S]*?)</p>') 14 text=y.findall(str(soup)) #第一次正則表達式篩選所有<p></p>中的內容 15 16 x='' 17 print(len(text)) 18 for i in range(0,len(text)): 19 x=x+text[i] 20 21 text1=re.sub("</?\w+[^>]*>",'',x) #去掉html標簽 22 23 text2=text1.replace("。",'。\n\n\0\0') #讓文本更好看 24 print(text2)
輸出結果
over!
參考:http://www.cnblogs.com/jjj-fly/p/6901022.html