python爬蟲爬取get請求的頁面數據代碼樣例


廢話不多說,上代碼

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# 導包
import urllib.request
import urllib.parse
# 如下兩行代碼表示忽略https證書,如果請求不是https則該兩行代碼可不用。
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

if __name__ == "__main__":
    """指定爬取的網頁URL"""
    url = 'https://www.baidu.com'
    """通過urlopen函數向指定url發起請求,返回響應對象"""
    response = urllib.request.urlopen(url)
    """通過調用相應對象中的read函數,反饋響應回客戶端的數據值(爬到的數據)"""
    data = response.read()  # 獲取響應中的數據值(字節類型)
    # data = response.geturl() # 獲取請求的url
    # data = response.getcode() # 獲取響應狀態碼
    # data = response.headers() # 獲取響應頭信息
    # data = str(data, encoding="utf-8")  # 方法一、使用str()函數將bytes類型轉換為str類型
    # data = bytes.decode(data)  # 方法二、使用bytes.decode()函數將bytes類型轉換為str類型
    data = response.read().decode()  # 方法三、decode()將響應中字節(byte)類型的數據值轉成字符串類型
    with open('./baidu.html', 'w') as e:  #使用IO操作將data表示的數據值以'w'權限的方式寫入到baidu.html文件中
        e.write(data)
    print('寫入文件完畢')

"""
1、爬取網絡上某張圖片數據,且存儲到本地
if __name__ == '__main__':
    url = 'http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%E5%9B%BE%E7%89%87&step_word=&hs=0&pn=5&spn=0&di=103290&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=0&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=undefined&cs=3139953554%2C3011511497&os=282365737%2C413977936&simid=0%2C0&adpicid=0&lpn=0&ln=737&fr=&fmq=1564044690482_R&fm=&ic=undefined&s=undefined&hd=undefined&latest=undefined&copyright=undefined&se=&sme=&tab=0&width=undefined&height=undefined&face=undefined&ist=&jit=&cg=&bdtype=0&oriquery=&objurl=http%3A%2F%2Fpic30.nipic.com%2F20130619%2F9885883_210838271000_2.jpg&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Bgtrtv_z%26e3Bv54AzdH3Ffi5oAzdH3F8AzdH3F9aAzdH3Fbdl0c0lhu9kvac8k_z%26e3Bip4s&gsm=0&rpstart=0&rpnum=0&islist=&querylist=&force=undefined'
    response = urllib.request.urlopen(url)
    data = response.read()  # 因為爬取的是圖片數據值(二進制數據),則無需使用decode進行類型轉換。
    with open('./bird.jpg', 'wb') as e:  # 視頻、圖片等流式數據(二進制數據)使用'wb'進行寫入
        e.write(data)
    print('寫入完畢')

2、爬取使用百度根據指定詞條搜索到的頁面數據(例如爬取詞條為‘蔡徐坤’的頁面數據)
url的特性:url必須為ASCII編碼的數據值。所以我們在爬蟲代碼中編寫url時,如果url中存在非ASCII編碼的數據值,則必須對其進行ASCII編碼后,該url方可被使用
if __name__ == "__main__":
    #原始url中存在非ASCII編碼的值,則該url無法被使用。
    #url = 'http://www.baidu.com/s?wd=蔡徐坤'
    #處理url中存在的非ASCII數據值
    url = 'http://www.baidu.com/s?'
    #將帶有非ASCII的數據封裝到字典中,url中非ASCII的數據往往都是'?'后面鍵值形式的請求參數
    param = {
        'wd':'蔡徐坤'
    }
    #使用parse子模塊中的urlencode函數將封裝好的字典中存在的非ASCII的數值進行ASCII編碼
    param = urllib.parse.urlencode(param)
    #將編碼后的數據和url進行整合拼接成一個完整可用的url
    url = url + param
    #偽裝UA
    #將瀏覽器的UA數據獲取,封裝到一個字典中。該UA值可以通過抓包工具或者瀏覽器自帶的開發者工具中獲取某請求,從中獲取UA的值
    headers={
        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
    }
    #自定義一個請求對象
    #參數:url為請求的url,headers為UA的值,data為post請求的請求參數(后續介紹)
    request = urllib.request.Request(url=url,headers=headers)
    #發送我們自定義的請求(該請求的UA已經進行了偽裝)
    response = urllib.request.urlopen(request)
    data = response.read()
    with open('./蔡徐坤.html','wb') as e:
        e.write(data)
    print('寫入文件完畢')

"""

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM