爬蟲到底是什么？

本文轉載自查看原文 2017-10-06 21:40 2029 python

1. 簡單來講，就是通過軟件訪問目標網站，把目標網站上指定的信息獲取到，一切都是通過軟件實現。

例如，如果想獲取豆瓣網上，評分最靠前的250個影片的名稱，而不用人工去寫，可以參考下面的博客。

http://www.cnblogs.com/huangguifeng/p/7632799.html

2. 基本思路是，通過python代碼，掌握豆瓣前250名影片的html的規律。

例如：第一頁是：

第二頁是：

第三頁是：

可以看出基本規律是，每頁顯示25條，250條就是10頁，對應代碼如下：

3. 訪問每一頁，獲取http的返回結果，通過解析html文本內容，得到得分和電影名稱。

4. 期間，通過隊列這種數據結構，將每頁的解析結果記錄到隊列中，最后一次性顯示隊列內容。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Docker到底是什么 RESTful到底是什么？白盒測試到底是什么？ sbit和sfr到底是什么？ ESB和SOA到底是什么？ Docker容器到底是什么? Spring Aware 到底是什么？ WSGI到底是什么？ newSQL 到底是什么？幀同步到底是什么