UserAgent簡介
UserAgent中文名為用戶代理,是Http協議中的一部分,屬於頭域的組成部分,UserAgent也簡稱UA。它是一個特殊字符串頭,是一種向訪問網站提供你所使用的瀏覽器類型及版本、操作系統及版本、瀏覽器內核、等信息的標識。通過這個標識,用戶所訪問的網站可以顯示不同的排版從而為用戶提供更好的體驗或者進行信息統計;例如用手機訪問谷歌和電腦訪問是不一樣的,這些是谷歌根據訪問者的UA來判斷的。UA可以進行偽裝。
瀏覽器的UA字串的標准格式:瀏覽器標識(操作系統標識;加密等級標識;瀏覽器語言)渲染引擎標識版本信息。但各個瀏覽器有所不同。
我們在做爬蟲的時候,不是通過瀏覽器正常訪問,所以會被很多網站禁止訪問,這個時候我們就需要手動在headers里加上UA屬性,來偽裝成瀏覽器進行訪問。
常見的UserAgent值
我們用的時候直接復制即可,放到headers里的對應User-Agent參數
UserAgent的兩種添加方法
1 直接定義一個headers字典,然后傳遞給Request類來實例化一個對象,然后在傳給urlopen,格式如下:
1
2
3
4
5
6
7
8
9
10
|
from
urllib
import
request
url
=
'http://baidu.com'
headers
=
{
'User-Agent'
:
'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5'
}
req
=
request.Request(url,headers
=
headers)
response
=
request.urlopen(req)
print
(response.read().decode())
|
2.使用add_header()方法
1
2
3
4
5
6
7
8
9
|
from
urllib
import
request
url
=
'http://baidu.com'
req
=
request.Request(url)
req.add_header(
'User-Agent'
,
'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5'
)
response
=
request.urlopen(req)
print
(response.read().decode())
|