功能描述:
使用python獲取目標網頁的源碼及保存網頁圖片保存到本地
代碼:
1 import re 2 import urllib 3 import sys 4 5 6 #獲取頁面源碼 7 8 def getHtml(url): 9 page=urllib.urlopen(url) # 打開頁面 10 html = page.read() #獲取目標頁面的源碼 11 return html 12 13 #獲取頁面中的圖片地址 14 15 def getImg(html): 16 reg=r'src="(.+?\.png)"' #正則表達是篩選圖片格式 17 img = re.compile(reg) #創建模式對象 18 imglist = re.findall(img,html) #解析頁面源碼獲取圖片列表 19 x=0 20 for imgurl in imglist: 21 try: 22 imgurl1=url+imgurl 23 #由於獲取的地址不帶域名信息,所以拼接上域名 24 urllib.urlretrieve(imgurl1,'%s.png' % x) 25 # 保存圖片,進行重命名 26 except: 27 print('Unexpected error:',sys.exc_info()) 28 return imglist 29 30 #調用方法 31 32 url = “http://www.zjgdpf.org.cn” 33 html = getHtml(url) 34 print(html) 35 print(getImg(html))