Python 爬取異步加載的數據


在我們的工作中,可能會遇到這樣的情況:我們需要爬取的數據是通過ajax異步加載的,這樣的話通過requests得到的只是一個靜態頁面,而我們需要的是ajax動態加載的數據!

那我們應該怎么辦呢???

思路是這樣的:F12,查看網絡,篩選XHR,點擊下拉菜單,等待異步加載的文件 ,得到異步加載url,在通過這個url請求得到我們想要的數據。

以下為實戰代碼,可以供大家參考。

import requests
from lxml import etree
# 瀏覽器偽裝
ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'
header = {"User-Agent": ua}
# GET請求
url = 'http://www.runoob.com/ajax/ajax-database.html'
r = requests.get(url, headers=header)
r.encoding = 'urf-8'
text = r.text
# xpath提取信息
element = etree.HTML(text)
options = element.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/div[1]/div/form/select/option/@value')
print(options)
# 提取異步加載的信息
for option in options:
    url = 'http://www.runoob.com/try/ajax/getcustomer.php?q='+option.strip()
    r = requests.get(url, headers=header)
    r.encoding = 'GBK'
    text = r.text
    # xpath提取信息
    element = etree.HTML(text)
    em = element.xpath('/html/body/table/tr[1]/td[1]/em/text()')
    td = element.xpath('/html/body/table/tr[1]/td[2]/text()')
    for e, t in zip(em, td):
        print(e, ' | ', t)
    print('-' * 55, options.index(option) + 1)

希望能夠幫到有需要的朋友。(如果沒有安裝requests和lxml 模塊的話,需要在命令行pip install request、pip install lxml,不然會報錯


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM