Python之小測試：用正則表達式寫一個小爬蟲用於保存貼吧里的所有圖片

本文轉載自查看原文 2017-06-12 01:20 3275 Python 菜鳥之基礎

很簡單的兩步：

　　1、獲取網頁源代碼

　　2、利用正則表達式提取出圖片地址

　　3、下載

 1 #!/usr/bin/python
 2 #coding=utf8
 3 import re       # 正則表達式
 4 import urllib   # 獲取網頁源代碼
 5 
 6 # 用正則表達式寫一個小爬蟲用於保存貼吧里的所有圖片
 7 
 8 # 獲取網頁源代碼
 9 def getHtml(url):
10         page = urllib.urlopen(url)      # 打開url，返回頁面對象
11         html = page.read()              # 讀取頁面源代碼
12         return html
13 
14 # 獲得圖片地址
15 def getImg(html):
16         reg = r'src="(.*?\.jpg)" size="'        # 定義一個正則來匹配頁面當中的圖片
17         imgre = re.compile(reg)         # 為了讓正則更快，給它來個編譯
18         #這個時候做個測試，把匹配的數據都給打印出來
19         imglist = re.findall(imgre, html)                       # 通過正則返回所有數據列表
20         # 把這個地址一個一個的拿下來進行下載
21         x = 0 
22         for imgurl in imglist:
23                 urllib.urlretrieve(imgurl,'%s.jpg' % x)
24                 x+=1
25 
26 html = getHtml("https://tieba.baidu.com/p/5154221980")
27 getImg(html)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲之正則表達式 Python爬蟲(九)_案例：使用正則表達式的爬蟲 Python爬蟲學習第一天--利用正則表達式爬取圖片 Python爬蟲(十)_正則表達式 python爬蟲-vmgirls-正則表達式 java爬蟲之正則表達式 Python 網絡爬蟲 009 (編程) 通過正則表達式來獲取一個網頁中的所有的URL鏈接，並下載這些URL鏈接的源代碼 Python正則表達式 python正則表達式 python正則表達式