python 爬取文章

本文轉載自查看原文 2017-04-11 23:03 2803 python基礎/ python爬蟲

這里我們利用強大的python爬蟲來爬取一篇文章。僅僅做一個示范，更高級的用法還要大家自己實踐。

好了，這里就不啰嗦了，找到一篇文章的url地址：http://www.duanwenxue.com/article/673911.html

（注意，有一些網站會做一些反爬處理，關於這些網站的爬取會在近期的文章中說明）

這是一篇散文，）

但在解碼是要decode（’GB18030‘），

具體說明：http://www.cnblogs.com/jjj-fly/p/6696523.html

下面開始實現代碼：

 1 #coding=GB18030
 2 import urllib.request
 3 from bs4 import BeautifulSoup
 4 import re
 5 
 6 url="http://www.duanwenxue.com/article/673911.html"
 7 a=urllib.request.urlopen(url)
 8 
 9 htmlstr=a.read().decode('GB18030')
10 
11 soup=BeautifulSoup(htmlstr,'html.parser')
12 
13 y=re.compile(r'<p>([\s\S]*?)</p>')
14 text=y.findall(str(soup))      #第一次正則表達式篩選所有<p></p>中的內容
15 
16 x=''
17 print(len(text))
18 for i in range(0,len(text)):
19     x=x+text[i]
20 
21 text1=re.sub("</?\w+[^>]*>",'',x)  #去掉html標簽
22 
23 text2=text1.replace("。",'。\n\n\0\0')  #讓文本更好看
24 print(text2)

輸出結果

over!

參考：http://www.cnblogs.com/jjj-fly/p/6901022.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲實踐——爬取網站文章 Python爬取CSDN博客文章 Python爬蟲(5) 借助搜狗搜索爬取微信文章 python爬取百家號文章 python：爬取博主的所有文章的鏈接、標題和內容 Python爬蟲案例：爬取微信公眾號文章 Python 微信公眾號文章爬取 python 爬取微信公眾號歷史文章爬取伯樂在線文章（一）爬取微信文章