1.爬蟲定義
網絡爬蟲,即Web Spider,是一個很形象的名字。
把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。
網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。
從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,
然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。
2.瀏覽網頁的過程
爬蟲爬取網頁數據的過程和用戶瀏覽網頁的原理是一樣的。
用戶輸入一個地址如“www.baidu.com”,客戶端瀏覽器首先查詢DNS服務器,查找IP地址(瀏覽器緩存->系統緩存->路由器緩存...)
瀏覽器向web服務器發送一個http請求。
服務器處理請求,根據http協議組建一個數據包,返回給客戶端瀏覽器。
瀏覽器接受數據包,將HTML的內容渲染出來顯示在瀏覽器中。
3.URL的概念和舉例
簡單的來講,URL是Uniform Resource Locator的縮寫,譯為“統一資源定位符”。
就是在瀏覽器端輸入的 http://www.baidu.com 這個字符串。
采用URL可以用一種統一的格式來描述各種信息資源,包括文件、服務器的地址和目錄等。
URL的格式由三部分組成:
①第一部分是協議(或稱為服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。
第一部分和第二部分用“://”符號隔開,
第二部分和第三部分用“/”符號隔開。
第一部分和第二部分是不可缺少的,第三部分有時可以省略。
總結:
爬蟲最主要的處理對象就是URL,它根據URL地址取得所需要的文件內容,然后對它 進行進一步的處理。
因此,准確地理解URL對理解網絡爬蟲至關重要。