在我們的工作中,可能會遇到這樣的情況:我們需要爬取的數據是通過ajax異步加載的,這樣的話通過requests得到的只是一個靜態頁面,而我們需要的是ajax動態加載的數據!
那我們應該怎么辦呢???
思路是這樣的:F12,查看網絡,篩選XHR,點擊下拉菜單,等待異步加載的文件 ,得到異步加載url,在通過這個url請求得到我們想要的數據。

以下為實戰代碼,可以供大家參考。
import requests from lxml import etree # 瀏覽器偽裝 ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko' header = {"User-Agent": ua} # GET請求 url = 'http://www.runoob.com/ajax/ajax-database.html' r = requests.get(url, headers=header) r.encoding = 'urf-8' text = r.text # xpath提取信息 element = etree.HTML(text) options = element.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/div[1]/div/form/select/option/@value') print(options) # 提取異步加載的信息 for option in options: url = 'http://www.runoob.com/try/ajax/getcustomer.php?q='+option.strip() r = requests.get(url, headers=header) r.encoding = 'GBK' text = r.text # xpath提取信息 element = etree.HTML(text) em = element.xpath('/html/body/table/tr[1]/td[1]/em/text()') td = element.xpath('/html/body/table/tr[1]/td[2]/text()') for e, t in zip(em, td): print(e, ' | ', t) print('-' * 55, options.index(option) + 1)
希望能夠幫到有需要的朋友。(如果沒有安裝requests和lxml 模塊的話,需要在命令行pip install request、pip install lxml,不然會報錯)
