【Python網絡爬蟲一】爬蟲原理和URL基本構成

本文轉載自查看原文 2016-11-22 15:04 2376 Python

1.爬蟲定義

網絡爬蟲，即Web Spider，是一個很形象的名字。
把互聯網比喻成一個蜘蛛網，那么Spider就是在網上爬來爬去的蜘蛛。
網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。
從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，
然后通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓取完為止。

2.瀏覽網頁的過程

爬蟲爬取網頁數據的過程和用戶瀏覽網頁的原理是一樣的。

用戶輸入一個地址如“www.baidu.com”，客戶端瀏覽器首先查詢DNS服務器，查找IP地址（瀏覽器緩存->系統緩存->路由器緩存...）

瀏覽器向web服務器發送一個http請求。

服務器處理請求，根據http協議組建一個數據包，返回給客戶端瀏覽器。

瀏覽器接受數據包，將HTML的內容渲染出來顯示在瀏覽器中。

3.URL的概念和舉例

簡單的來講，URL是Uniform Resource Locator的縮寫，譯為“統一資源定位符”。

就是在瀏覽器端輸入的 http://www.baidu.com 這個字符串。

采用URL可以用一種統一的格式來描述各種信息資源，包括文件、服務器的地址和目錄等。

URL的格式由三部分組成：

①第一部分是協議(或稱為服務方式)。

②第二部分是存有該資源的主機IP地址(有時也包括端口號)。

③第三部分是主機資源的具體地址，如目錄和文件名等。

第一部分和第二部分用“://”符號隔開，

第二部分和第三部分用“/”符號隔開。

第一部分和第二部分是不可缺少的，第三部分有時可以省略。

總結：

爬蟲最主要的處理對象就是URL，它根據URL地址取得所需要的文件內容，然后對它進行進一步的處理。
因此，准確地理解URL對理解網絡爬蟲至關重要。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【網絡爬蟲學習】網頁的基本構成 python網絡爬蟲（一）：網絡爬蟲科普與URL含義 Python網絡爬蟲的概念和基本原理 2.02_Python網絡爬蟲分類及其原理 Python網絡爬蟲(認識爬蟲) python爬蟲之認識爬蟲和爬蟲原理網絡爬蟲工作原理 python爬蟲入門之URL python爬蟲 url轉義什么是網絡爬蟲？為什么要選擇Python寫網絡爬蟲？