這兩天在接觸爬蟲,記錄一下學習
使用了兩個包
下載器使用的是第三方的requests,
Requests 使用的是 urllib3,繼承了urllib2的所有特性。Requests支持HTTP連接保持和連接池,支持使用cookie保持會話,支持文件上傳,支持自動確定響應內容的編碼,支持國際化的 URL 和 POST 數據自動編碼。
有關requests使用有個比較詳細的文檔:requests快速上手。
解析使用的正則表達式 re。
1 import re 2 import requests 3 import datetime 4 5 url = 'https://www.bing.com/' 6 html = requests.get(url).text #獲取這個網頁源碼 7 Nurl = re.findall('id="bgLink" rel="preload" href="(.*?)&',html,re.S) #正則表達式寫好 8 for temp in Nurl: #循環獲取里邊的圖片,其實這里只有一個 9 url = 'https://www.bing.com' + temp 10 print(url) 11 pic = requests.get(url) #接着把圖片保存下來,再提前准備一個bingImage目錄用來存放 12 file = 'bingImage\\' + str(datetime.datetime.now().year)+'-'+str(datetime.datetime.now().month)+'-'+str(datetime.datetime.now().day) + '.jpg' 13 #print(file) 14 fp = open(file,'wb') 15 fp.write(pic.content) 16 fp.close()
運行后
成功到手今日份的美圖