數據的加載方式
常見的加載方式
朝服務器發送請求,頁面數據直接全部返回並加載。
如何驗證數據是直接加載還是其他方式
瀏覽器空白處鼠標右鍵,點擊查看網頁源碼,在源碼界面搜索對應的數據。
如果能收到就表示該數據是直接加載的,可以直接發送相應的請求獲取。
內部js代碼請求
先加載一個頁面的框架,之后再朝各項數據的網址發送請求獲取數據。
如何查找關鍵性的數據來源
需要借助於瀏覽器的network監測核對內部請求
請求的數據一般都是json格式
實例
爬取天氣數據
思路
1.拿到頁面之后先分析數據加載方式
2.發現歷史數據並不是直接加載的
統一的研究方向>>>:利用network查看
3.查找到可疑的網址並查看請求方式
如果是get請求那么可以直接拷貝網址在瀏覽器地址欄訪問
4.將請求獲得的數據稍作分析
https://www.bejson.com/
5.利用requests模塊朝發現的地址發送get請求獲取json數據
6.可以研究歷史天氣數據的url找規律 即可爬取指定月份的數據
import requests import pandas res = requests.get('https://tianqi.2345.com/Pc/GetHistory?areaInfo%5BareaId%5D=60010&areaInfo%5BareaType%5D=2&date%5Byear%5D=2021&date%5Bmonth%5D=9') real_data = res.json().get('data') df2 = pandas.read_html(real_data)[0] print(df2)
百度翻譯
思路
1.在查找單詞的時候頁面是在動態變化的
2.並且針對單詞的詳細翻譯結果數據是動態請求獲取的
3.打開network之后輸入英文查看內部請求變化
sug請求頻率固定且較高
4.研究sug請求發現每次輸入的單詞都會朝固定的一個網址發送post請求
並且請求體攜帶了改單詞數據
import requests keyword = input('請輸入你需要查詢的單詞>>>:') res = requests.post('https://fanyi.baidu.com/sug', data={'kw': keyword} ) data_dict = res.json() data_list = data_dict.get('data') for d in data_list: print(d)
爬取葯品許可證
思路
1.先明確是否需要爬取頁面數據 如果需要則先查看數據的加載方式
2.通過network查看得知數據是動態加載的 網頁地址只會加載一個外殼
3.通過network點擊fetch/xhr篩選動態獲取數據的地址和請求方式
4.利用requests模塊發送相應請求獲取數據 之后再分析
5.利用瀏覽器點擊詳情頁查找關鍵數據
http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=911d4f256300476abb78012427d38c9d
6.由於我們需要爬取詳情頁的數據所以要驗證數據的加載方式
7.詳情頁核心數據也是動態加載的 發現是post請求並攜帶了一個id參數
id: 911d4f256300476abb78012427d38c9d
8.通過比對得知id數據與第一次爬取的公司簡介里面的id一致 從而得出結論
循環獲取格式簡介id 然后發送post請求 獲取每個公司的詳細數據
import requests res = requests.post('http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList', data={ "on": "true", "page": 1, "pageSize": 15, "productName": '', "conditionType": 1, "applyname": '', "applysn": '' } ) data_list = res.json().get('list') # 循環獲取格式id值 for d in data_list: # 字段取值 獲取id值 ID = d.get("ID") # 發送網絡請求 res1 = requests.post('http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById', data={'id': ID} ) # 獲取數據結果 data_dict = res1.json().get('epsName') data_dict2 = res1.json().get('certStr') data_dict3 = res1.json().get('epsAddress') data_con = data_dict + '\n' + data_dict2 + '\n' + data_dict3 + '\n' with open(r'medicine.txt', 'a', encoding='utf8')as af: af.write(data_con + '\n')
爬取北京新發地蔬菜價格表
思路:
1.確定需要訪問網址:http://www.xinfadi.com.cn/priceDetail.html
2.右鍵選擇‘查看網頁源代碼’,ctrl+f搜索,觀察數據是否是直接放在網頁中的
本次數據並未放在網頁中
3.右鍵選擇‘檢查’,根據network,可以確認數據是動態加載的,選擇Fetch/XHR,篩選出對應的文件
4.單擊該文件,查看對應的是get還是post方法,以及對應的From Data數據
5.選擇Response,將內容復制到:https://www.bejson.com/,點擊Unicode轉中文,查看數據存放的具體位置
本次數據存放在字典中,鍵名是“list”,數據格式是json格式
6.打開pycharm,新建文件夾及文件,導入requests模塊
7.使用post-data方法,反序列化並使用get方法從字典中獲取數據
8.循環取值,獲得數據
9.根據自身的需要,用鍵名取得需要的值
10.將獲取的數據寫入文件
import requests import time def get_price_data(n): res = requests.post('http://www.xinfadi.com.cn/getPriceData.html', data={ "limit": '', "current": n, "pubDateStartTime": '', "pubDateEndTime": '', "prodPcatid": '', "prodCatid": '', "prodName": '', } ) data_list = res.json().get('list') for d in data_list: pro_name = d.get('prodName') low_price = d.get('lowPrice') high_price = d.get('highPrice') avg_price = d.get('avgPrice') pub_date = d.get('pubDate') source_place = d.get('place') print(""" 蔬菜名稱:%s 最低價:%s 最高價:%s 平均價:%s 上市時間:%s 原產地:%s """ % (pro_name, low_price, high_price, avg_price, pub_date, source_place)) time.sleep(1) """涉及到多頁數據爬取的時候 最好不要太頻繁 可以自己主動設置延遲""" for i in range(1, 5): time.sleep(1) get_price_data(i)