基於正則表達式用requests下載網頁中的圖片


在慕課網看了正則表達式和requests的課程后,為了加深學習記憶,決定簡單記錄。

 

實現步驟:

1、先打開你要下載的網頁,查看源碼找出圖片位置

2、編寫正則匹配圖片url

3、保存圖片到本地

 

圖文步驟:

1、以圖蟲網為例(https://tuchong.com/),隨便點進去個主題(https://mrpig.tuchong.com/14390318/)

定位圖片

2、寫出正則

通過觀察可以發現圖片url是以 // 開頭以 .jpg結尾的

則正則表達式為 “//.+\.jpg”

1 import requests
2 import re
3 
4 url='https://mrpig.tuchong.com/14390318/'
5 response = requests.get(url)
6 url_lst = re.findall(r"//.+\.jpg",response.text)
7 print url_lst

輸出

通過拷貝到瀏覽器,發現前面兩個圖片不是我們感興趣的,則把他們切掉 [2:]

3、最后使用一個遍歷,將圖片保存到本地。

 

完整代碼:

 1 import requests
 2 import re
 3 
 4 url='https://mrpig.tuchong.com/14390318/'
 5 response = requests.get(url)
 6 url_lst = re.findall(r"//.+\.jpg",response.text)[2:]
 7 i=0
 8 for url in url_lst:
 9     with open(str(i)+".jpg","wb") as fd:
10         #在url前面加上http
11         response=requests.get("http:"+url)
12         fd.write(response.content)
13         print '圖片',i,"保存成功\n"
14         i+=1

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM