下面主要是python3中的urllib庫中的相關知識及User-Agent設置:
一、什么是User-Agent?
User-Agent是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。用較為普通的一點來說,是一種向訪問網站提供你所使用的瀏覽器類型、操作系統及版本、CPU 類型、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等信息的標識。UA字符串在每次瀏覽器 HTTP 請求時發送到服務器!
瀏覽器UA 字串的標准格式為: 瀏覽器標識 (操作系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識 版本信息。
二、User-Agent在python3中的urllib使用:
#如果一個網站屏蔽了你 #解決辦法: (1)模擬瀏覽器 ; (2)偽裝瀏覽器 import urllib.request def download1(url): headers={"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"} #header 字典形式 #選擇代碼 ctrl + 鼠標左鍵 查看變量或者函數或者類的定義 request=urllib.request.Request(url,headers=headers) # 發送請求 #也可以通過調用Request.add_header() 添加/修改一個特定的 header request.add_header("Connection","keep-alive") #一直活着 response=urllib.request.urlopen(request) #打開請求 data=response.read() #讀取數據 print(response.code) #可以查看相應狀態碼 return data url="https://sou.zhaopin.com/?jl=538&kw=python&kt=3" print(download1(url).decode("utf-8")) #decode("utf-8") 二進制解碼為utf-8