在慕課網看了正則表達式和requests的課程后,為了加深學習記憶,決定簡單記錄。
實現步驟:
1、先打開你要下載的網頁,查看源碼找出圖片位置
2、編寫正則匹配圖片url
3、保存圖片到本地
圖文步驟:
1、以圖蟲網為例(https://tuchong.com/),隨便點進去個主題(https://mrpig.tuchong.com/14390318/)
定位圖片
2、寫出正則
通過觀察可以發現圖片url是以 // 開頭以 .jpg結尾的
則正則表達式為 “//.+\.jpg”
1 import requests 2 import re 3 4 url='https://mrpig.tuchong.com/14390318/' 5 response = requests.get(url) 6 url_lst = re.findall(r"//.+\.jpg",response.text) 7 print url_lst
輸出
通過拷貝到瀏覽器,發現前面兩個圖片不是我們感興趣的,則把他們切掉 [2:]
3、最后使用一個遍歷,將圖片保存到本地。
完整代碼:
1 import requests 2 import re 3 4 url='https://mrpig.tuchong.com/14390318/' 5 response = requests.get(url) 6 url_lst = re.findall(r"//.+\.jpg",response.text)[2:] 7 i=0 8 for url in url_lst: 9 with open(str(i)+".jpg","wb") as fd: 10 #在url前面加上http 11 response=requests.get("http:"+url) 12 fd.write(response.content) 13 print '圖片',i,"保存成功\n" 14 i+=1