爬取的網頁鏈接為https://tieba.baidu.com/p/5177270774
是一個美女警花哦!
所用Python環境為:python 3.3.2 用到的庫為:urllib.request re
下面上代碼:
import urllib.request import re #獲得url的html 源碼格式,其中使用了一個通過修改User-Agent實現了隱藏 def open_url(url): req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36') page = urllib.request.urlopen(req) html = page.read().decode('utf-8') #二進制的utf-8要解碼得到html代碼(Unicode) return html #寫正則表達式,獲得html代碼 def get_image(html): p = r'<img class="BDE_Image" src="([^"]+\.jpg)"' #正則表達式 [^]中的^是取反的意思 temp = re.findall(p,html) i = 0 page = 'C:/Users/lenovo/Desktop/mm/' for each in temp: i += 1 file = open(page+str(i)+'.jpg','wb') each = urllib.request.urlopen(each).read() #將圖片鏈接讀出來寫入文件中 file.write(each) file.close() def main(url): get_image(open_url(url)) #規定只有直接運行這個模塊才能執行主程序 if __name__ == '__main__': url = 'https://tieba.baidu.com/p/5177270774' main(url)
下面是爬取結果:
當然,這個爬蟲是不完善的,除了四張美女圖片外還多了一些慕名奇妙的圖片,但是總的來說還是爬到了美女的圖片的。