廢話不多說,上代碼
#!/usr/bin/env python # -*- coding:utf-8 -*- # 導包 import urllib.request import urllib.parse # 如下兩行代碼表示忽略https證書,如果請求不是https則該兩行代碼可不用。 import ssl ssl._create_default_https_context = ssl._create_unverified_context if __name__ == "__main__": """指定爬取的網頁URL""" url = 'https://www.baidu.com' """通過urlopen函數向指定url發起請求,返回響應對象""" response = urllib.request.urlopen(url) """通過調用相應對象中的read函數,反饋響應回客戶端的數據值(爬到的數據)""" data = response.read() # 獲取響應中的數據值(字節類型) # data = response.geturl() # 獲取請求的url # data = response.getcode() # 獲取響應狀態碼 # data = response.headers() # 獲取響應頭信息 # data = str(data, encoding="utf-8") # 方法一、使用str()函數將bytes類型轉換為str類型 # data = bytes.decode(data) # 方法二、使用bytes.decode()函數將bytes類型轉換為str類型 data = response.read().decode() # 方法三、decode()將響應中字節(byte)類型的數據值轉成字符串類型 with open('./baidu.html', 'w') as e: #使用IO操作將data表示的數據值以'w'權限的方式寫入到baidu.html文件中 e.write(data) print('寫入文件完畢') """ 1、爬取網絡上某張圖片數據,且存儲到本地 if __name__ == '__main__': url = 'http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E5%9B%BE%E7%89%87&step_word=&hs=0&pn=5&spn=0&di=103290&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=undefined&cs=3139953554%2C3011511497&os=282365737%2C413977936&simid=0%2C0&adpicid=0&lpn=0&ln=737&fr=&fmq=1564044690482_R&fm=&ic=undefined&s=undefined&hd=undefined&latest=undefined©right=undefined&se=&sme=&tab=0&width=undefined&height=undefined&face=undefined&ist=&jit=&cg=&bdtype=0&oriquery=&objurl=http%3A%2F%2Fpic30.nipic.com%2F20130619%2F9885883_210838271000_2.jpg&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Bgtrtv_z%26e3Bv54AzdH3Ffi5oAzdH3F8AzdH3F9aAzdH3Fbdl0c0lhu9kvac8k_z%26e3Bip4s&gsm=0&rpstart=0&rpnum=0&islist=&querylist=&force=undefined' response = urllib.request.urlopen(url) data = response.read() # 因為爬取的是圖片數據值(二進制數據),則無需使用decode進行類型轉換。 with open('./bird.jpg', 'wb') as e: # 視頻、圖片等流式數據(二進制數據)使用'wb'進行寫入 e.write(data) print('寫入完畢') 2、爬取使用百度根據指定詞條搜索到的頁面數據(例如爬取詞條為‘蔡徐坤’的頁面數據) url的特性:url必須為ASCII編碼的數據值。所以我們在爬蟲代碼中編寫url時,如果url中存在非ASCII編碼的數據值,則必須對其進行ASCII編碼后,該url方可被使用 if __name__ == "__main__": #原始url中存在非ASCII編碼的值,則該url無法被使用。 #url = 'http://www.baidu.com/s?wd=蔡徐坤' #處理url中存在的非ASCII數據值 url = 'http://www.baidu.com/s?' #將帶有非ASCII的數據封裝到字典中,url中非ASCII的數據往往都是'?'后面鍵值形式的請求參數 param = { 'wd':'蔡徐坤' } #使用parse子模塊中的urlencode函數將封裝好的字典中存在的非ASCII的數值進行ASCII編碼 param = urllib.parse.urlencode(param) #將編碼后的數據和url進行整合拼接成一個完整可用的url url = url + param #偽裝UA #將瀏覽器的UA數據獲取,封裝到一個字典中。該UA值可以通過抓包工具或者瀏覽器自帶的開發者工具中獲取某請求,從中獲取UA的值 headers={ 'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } #自定義一個請求對象 #參數:url為請求的url,headers為UA的值,data為post請求的請求參數(后續介紹) request = urllib.request.Request(url=url,headers=headers) #發送我們自定義的請求(該請求的UA已經進行了偽裝) response = urllib.request.urlopen(request) data = response.read() with open('./蔡徐坤.html','wb') as e: e.write(data) print('寫入文件完畢') """