很簡單的兩步:
1、獲取網頁源代碼
2、利用正則表達式提取出圖片地址
3、下載
1 #!/usr/bin/python 2 #coding=utf8 3 import re # 正則表達式 4 import urllib # 獲取網頁源代碼 5 6 # 用正則表達式寫一個小爬蟲用於保存貼吧里的所有圖片 7 8 # 獲取網頁源代碼 9 def getHtml(url): 10 page = urllib.urlopen(url) # 打開url,返回頁面對象 11 html = page.read() # 讀取頁面源代碼 12 return html 13 14 # 獲得圖片地址 15 def getImg(html): 16 reg = r'src="(.*?\.jpg)" size="' # 定義一個正則來匹配頁面當中的圖片 17 imgre = re.compile(reg) # 為了讓正則更快,給它來個編譯 18 #這個時候做個測試,把匹配的數據都給打印出來 19 imglist = re.findall(imgre, html) # 通過正則返回所有數據列表 20 # 把這個地址一個一個的拿下來進行下載 21 x = 0 22 for imgurl in imglist: 23 urllib.urlretrieve(imgurl,'%s.jpg' % x) 24 x+=1 25 26 html = getHtml("https://tieba.baidu.com/p/5154221980") 27 getImg(html)