關於請求網頁,不得不提requests這個庫,這是爬蟲經常用到的一個第三方庫,用pip安裝即可。
requests用法很多,這里只寫一些基礎的,其他高級功能可參考官方文檔。
import requests url = 'http://www.baidu.com' #這里用get方法用來請求網頁,其他還有post等方法來請求網頁 data = requests.get(url) print(data) #<Response [200]> print(data.text)#這里的 .text 就等同於上一篇中的 read() #此時同樣打印出網頁源碼 #<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="
關於requests還有一些其他用法對我們已有的爬蟲程序也很有用。
code = data.encoding#獲取頁面的編碼方式 print(code) #utf-8 page_status = data.status_code#獲取狀態碼,檢查是否請求成功 print(page_status) #200
這些是requests的基礎用法,爬蟲開始掌握這些簡單的用法就可以啦。后面還會繼續對requests進行總結。