爬蟲到底是什么?


1. 簡單來講,就是通過軟件訪問目標網站,把目標網站上指定的信息獲取到,一切都是通過軟件實現。

    例如,如果想獲取豆瓣網上,評分最靠前的250個影片的名稱,而不用人工去寫,可以參考下面的博客。

    http://www.cnblogs.com/huangguifeng/p/7632799.html

2. 基本思路是,通過python代碼,掌握豆瓣前250名影片的html的規律。

    例如:第一頁是:

 

    第二頁是:

 

    第三頁是:

 

   可以看出基本規律是,每頁顯示25條,250條就是10頁,對應代碼如下:

   

3.  訪問每一頁,獲取http的返回結果,通過解析html文本內容,得到得分和電影名稱。

     

  4. 期間,通過隊列這種數據結構,將每頁的解析結果記錄到隊列中,最后一次性顯示隊列內容。

      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM