Python從零開始寫爬蟲-1 使用Python發送http請求並獲得網頁源代碼

本文轉載自查看原文 2020-02-06 20:52 1019 Python從零開始寫爬蟲

寫爬蟲, 首先需要了解爬蟲是什么?網絡爬蟲,是自動從網絡下載自己需要的網頁,進行處理並保存的工具.Python從零開始寫爬蟲將從零開始寫爬蟲,最終該爬蟲能夠從筆趣閣(http://www.biquger.com/)爬取小說.

竟然爬蟲是自動下載自己需要的網頁, 那么Python如何獲取網頁呢?Python通過發送http請求到網頁服務器,從而獲得網頁的源碼.python使用http請求主要有4種方式:

　　　urllib

Requests

Octopus

HTTPie

其中Request是目前最受歡迎的的http請求庫. 本教程也將使用該庫來進行http請求. Reustests不是Python自帶的庫, 所以需要通過pip進行安裝, python 3 以及pip的安裝請自行百度安裝:

pip install requests

安裝成功后:

這個時候, 就可以在python中使用Requests了.

首先導入Requests庫

import requests

導入之后, 就可以使用其來發送http請求了.這里以獲取Python的Api文檔https://docs.python.org/zh-cn/3/library/index.html為例

r = requests.get('https://docs.python.org/zh-cn/3/library/index.html')

之后就可以輸入獲取到的網頁了.

print(r.text)

輸出之后,會發現出現許多亂碼.

做過網頁開發的人應該都知道這是應為編碼的問題,獲取Requests使用的網絡編碼:

print(r.encoding)

發現Requests使用的是ISO-8859-1編碼, 而通過查看網頁源碼發現,該網頁使用的是UTF-8編碼.這應該就是造成亂碼的原因,設置Request的編碼:

r.encoding='utf-8'

之后在輸出網頁, 發現亂碼消失了.

Python從零開始寫爬蟲第一步, 使用http請求后的網頁源碼就已經完成了.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲第一步之獲取網頁源代碼 Python爬蟲（二）——發送請求 Python爬蟲(一)_HTTP的請求與響應 Java 網絡爬蟲獲取網頁源代碼原理及實現 Python爬蟲常用之登錄(三) 使用http請求登錄使用httpwebrequest發送http請求 C# 模擬http請求網頁數據 [網頁爬蟲] 開源代碼:Http請求封裝類庫HttpLib介紹、使用說明使用Python發送請求如何修改網頁源代碼