Python 爬取異步加載的數據

本文轉載自查看原文 2019-06-24 14:02 1714 python

在我們的工作中，可能會遇到這樣的情況：我們需要爬取的數據是通過ajax異步加載的，這樣的話通過requests得到的只是一個靜態頁面，而我們需要的是ajax動態加載的數據！

那我們應該怎么辦呢？？？

思路是這樣的：F12，查看網絡，篩選XHR，點擊下拉菜單，等待異步加載的文件，得到異步加載url，在通過這個url請求得到我們想要的數據。

以下為實戰代碼，可以供大家參考。

import requests
from lxml import etree
# 瀏覽器偽裝
ua = 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'
header = {"User-Agent": ua}
# GET請求
url = 'http://www.runoob.com/ajax/ajax-database.html'
r = requests.get(url, headers=header)
r.encoding = 'urf-8'
text = r.text
# xpath提取信息
element = etree.HTML(text)
options = element.xpath('/html/body/div[3]/div/div[2]/div/div[3]/div/div[1]/div/form/select/option/@value')
print(options)
# 提取異步加載的信息
for option in options:
    url = 'http://www.runoob.com/try/ajax/getcustomer.php?q='+option.strip()
    r = requests.get(url, headers=header)
    r.encoding = 'GBK'
    text = r.text
    # xpath提取信息
    element = etree.HTML(text)
    em = element.xpath('/html/body/table/tr[1]/td[1]/em/text()')
    td = element.xpath('/html/body/table/tr[1]/td[2]/text()')
    for e, t in zip(em, td):
        print(e, ' | ', t)
    print('-' * 55, options.index(option) + 1)

希望能夠幫到有需要的朋友。（如果沒有安裝requests和lxml 模塊的話，需要在命令行pip install request、pip install lxml，不然會報錯）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲爬取異步加載的數據爬蟲之異步爬取加載數據關於爬取異步加載的頁面 python爬取動態加載的數據 Python+selenium+PhantomJS爬取異步加載的網站 Python 爬蟲練習項目——異步加載爬取 Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取關於python爬取異步ajax數據的一些見解爬取動態加載的數據 scrapy爬取的數據異步存儲至MySQL