【Python網絡爬蟲一】爬蟲原理和URL基本構成


1.爬蟲定義

網絡爬蟲,即Web Spider,是一個很形象的名字。
把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。
網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。
從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,
然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。

2.瀏覽網頁的過程

爬蟲爬取網頁數據的過程和用戶瀏覽網頁的原理是一樣的。

用戶輸入一個地址如“www.baidu.com”,客戶端瀏覽器首先查詢DNS服務器,查找IP地址(瀏覽器緩存->系統緩存->路由器緩存...)

瀏覽器向web服務器發送一個http請求。

服務器處理請求,根據http協議組建一個數據包,返回給客戶端瀏覽器。

瀏覽器接受數據包,將HTML的內容渲染出來顯示在瀏覽器中。

3.URL的概念和舉例

簡單的來講,URL是Uniform Resource Locator的縮寫,譯為“統一資源定位符”。

就是在瀏覽器端輸入的    http://www.baidu.com    這個字符串。

采用URL可以用一種統一的格式來描述各種信息資源,包括文件、服務器的地址和目錄等。

URL的格式由三部分組成: 

①第一部分是協議(或稱為服務方式)。

②第二部分是存有該資源的主機IP地址(有時也包括端口號)。

③第三部分是主機資源的具體地址,如目錄和文件名等。

第一部分和第二部分用“://”符號隔開,

第二部分和第三部分用“/”符號隔開。

第一部分和第二部分是不可缺少的,第三部分有時可以省略。 

 

總結:

爬蟲最主要的處理對象就是URL,它根據URL地址取得所需要的文件內容,然后對它 進行進一步的處理。
因此,准確地理解URL對理解網絡爬蟲至關重要。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM