urllib中的User-Agent使用


  下面主要是python3中的urllib庫中的相關知識及User-Agent設置:

        一、什么是User-Agent?
  
  User-Agent是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。用較為普通的一點來說,是一種向訪問網站提供你所使用的瀏覽器類型、操作系統及版本、CPU 類型、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等信息的標識。UA字符串在每次瀏覽器 HTTP 請求時發送到服務器!
  
  瀏覽器UA 字串的標准格式為: 瀏覽器標識 (操作系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識 版本信息。

  二、User-Agent在python3中的urllib使用:

#如果一個網站屏蔽了你
#解決辦法: (1)模擬瀏覽器  ; (2)偽裝瀏覽器
import urllib.request
def download1(url):
    headers={"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}  #header 字典形式
    #選擇代碼  ctrl + 鼠標左鍵 查看變量或者函數或者類的定義
    request=urllib.request.Request(url,headers=headers)   # 發送請求
    #也可以通過調用Request.add_header()  添加/修改一個特定的  header
    request.add_header("Connection","keep-alive")  #一直活着
    response=urllib.request.urlopen(request)  #打開請求
    data=response.read()    #讀取數據
    print(response.code)    #可以查看相應狀態碼
    return data
url="https://sou.zhaopin.com/?jl=538&kw=python&kt=3"
print(download1(url).decode("utf-8"))    #decode("utf-8")  二進制解碼為utf-8

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM