爬蟲入門urlib,urlib2的基本使用和進階


python2中的urlib和urlib2

1.分分鍾扒一個網頁下來

怎樣扒網頁呢?其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段HTML代碼,加 JS、CSS,如果把網頁比作一個人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在於HTML中的,下面我們就寫個例子來扒一個網頁下來。

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

2.分析扒網頁的方法

那么我們來分析這兩行代碼,第一行

 response = urllib2.urlopen("http://www.baidu.com")

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM