一個隨機切換user_agent的第三方python庫:my_fake_useragent


因為my_fake_useragent 是第三方,所以需要自己進行安裝。

不用擔心,它沒有任何依賴或者附加環境,只安裝它自己就行。

方法1:

pycharm傳統安裝方式。

方法2:

pip install ...

fake_useragent 和 my_fake_useragent 其實是一個東西。

使用:這里只列舉兩個最簡單的方式去調用。

# -*- coding: utf-8 -*-

import my_fake_useragent as ua

if __name__ == '__main__':
user_agent = ua.UserAgent()

# 方法1
# 隨機獲取一個user-agent,每次獲取的都不一樣
for _ in range(10):
print(user_agent.random())

# 方法2
# user_agent.get_useragent_list(): 返回一個user-agent的列表
for index, each_useragent in enumerate(user_agent.get_useragent_list()):
print(index, ': ', each_useragent)

既然說到了user_agent,那就再多說一點。

乍看user agent 時,只覺得它是一串亂七八糟的字符串,其實包含的內容還是挺多的。中文名為用戶代理(區別於爬蟲時使用的代理ip),簡稱UA,是一個特殊字符串頭,使得服務器能夠識別客戶使用的操系統及版本、CPU類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言等。

一些網站常常通過 UA 來給不同的操作系統、不同的瀏覽器發送不同的頁面。

UA字串的標准格式:

瀏覽器標識(操作系統標識;加密等級標識;瀏覽器語言)渲染引擎標識 版本信息

下面列舉 UA 中包含的字符串信息

操作系統標識
FreeBSD
X11; FreeBSD (version no.) i386
X11; FreeBSD (version no.) AMD64
Linux
X11; Linux ppc
X11; Linux ppc64
X11; Linux i686
X11; Linux x86_64
Mac
Macintosh; PPC Mac OS X
Macintosh; Intel Mac OS X
Solaris
X11; SunOS i86pc
X11; SunOS sun4u
Windows:
Windows NT 10.0 對應操作系統windows 10
windows NT 6.2 對應操作系統 windows 8
Windows NT 6.1 對應操作系統 windows 7
Windows NT 6.0 對應操作系統 windows vista
Windows NT 5.2 對應操作系統 windows 2003
Windows NT 5.1 對應操作系統 windows xp
Windows NT 5.0 對應操作系統 windows 2000
Windows ME
Windows 98
加密等級標識 N: 表示無安全加密 I: 表示弱安全加密 U: 表示強安全加密
瀏覽器語言 在首選項 > 常規 > 語言中指定的語言
渲染引擎 瀏覽器 使用 Presto 渲染引擎,格式為: Presto/版本號
版本信息 顯示 瀏覽器 真實版本信息,格式為: Version/版本號

用這些信息去剛才的python代碼輸出中去對照,基本都能找到對應的信息。說這些,其實是python爬蟲面試過程中可能會被問到的一個點,雖然是個冷門的知識點,不過了解一下也好。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM