相關內容簡體繁體

Web Scraper 翻頁——控制鏈接批量抓取數據（Web Scraper 高級用法）| 簡易數據分析 05

本文轉載自查看原文 2019-07-09 08:14 5944 web scraper/ 簡易數據分析

Web Scraper 翻頁——控制鏈接批量抓取數據

這是簡易數據分析系列的第 5 篇文章。

上篇文章我們爬取了豆瓣電影 TOP250 前 25 個電影的數據，今天我們就要在原來的 Web Scraper 配置上做一些小改動，讓爬蟲把 250 條電影數據全部爬取下來。

前面我們同時說了，爬蟲的本質就是找規律，當初這些程序員設計網頁時，肯定會依循一些規則，當我們找到規律時，就可以預測他們的行為，達到我們的目的。

今天我們就找找豆瓣網站的規律，想辦法抓取全部數據。今天的規律就從常常被人忽略的網址鏈接開始。

1.鏈接分析

我們先看看第一頁的豆瓣網址鏈接：

https://movie.douban.com/top250?start=0&filter=

https://movie.douban.com 這個很明顯就是個豆瓣的電影網址，沒啥好說的
top250 這個一看就是網頁的內容，豆瓣排名前 250 的電影，也沒啥好說的
? 后面有個 start=0&filter= ，根據英語提示來看，好像是說篩選（filter），從 0 開始（start）

再看看第二頁的網址鏈接，前面都一樣，只有后面的參數變了，變成了 start=25，從 25 開始；

我們再看看第三頁的鏈接，參數變成了 start=50 ，從 50 開始；

分析 3 個鏈接我們很容易得出規律：

start=0，表示從排名第 1 的電影算起，展示 1-25 的電影

start=25，表示從排名第 26 的電影算起，展示 26-50 的電影

start=50，表示從排名第 51 的電影算起，展示 51-75 的電影

…...

start=225，表示從排名第 226 的電影算起，展示 226-250 的電影

規律找到了就好辦了，只要技術提供支持就行。隨着深入學習，你會發現 Web Scraper 的操作並不是難點，最需要思考的其實還是這個找規律。

2.Web Scraper 控制鏈接參數翻頁

Web Scraper 針對這種通過超鏈接數字分頁獲取分頁數據的網頁，提供了非常便捷的操作，那就是范圍指定器。

比如說你想抓取的網頁鏈接是這樣的：

http://example.com/page/1
http://example.com/page/2
http://example.com/page/3

你就可以寫成 http://example.com/page/[1-3]，把鏈接改成這樣，Web Scraper 就會自動抓取這三個網頁的內容。

當然，你也可以寫成 http://example.com/page/[1-100]，這樣就可以抓取前 100 個網頁。

那么像我們之前分析的豆瓣網頁呢？它不是從 1 到 100 遞增的，而是 0 -> 25 -> 50 -> 75 這樣每隔 25 跳的，這種怎么辦？

http://example.com/page/0
http://example.com/page/25
http://example.com/page/50

其實也很簡單，這種情況可以用 [0-100:25] 表示，每隔 25 是一個網頁，100/25=4，爬取前 4 個網頁，放在豆瓣電影的情景下，我們只要把鏈接改成下面的樣子就行了；

https://movie.douban.com/top250?start=[0-225:25]&filter=

這樣 Web Scraper 就會抓取 TOP250 的所有網頁了。

3.抓取數據

解決了鏈接的問題，接下來就是如何在 Web Scraper 里修改鏈接了，很簡單，就點擊兩下鼠標：

1.點擊 Stiemaps，在新的面板里點擊 ID 為 top250 的這列數據：

web-scraper-sitemaps

2.進入新的面板后，找到 Stiemap top250 這個 Tab，點擊，再點擊下拉菜單里的 Edit metadata：

web-scraper-edit-metadata

3.修改原來的網址，圖中的紅框是不同之處：

web-scraper-start-url

修改好了超鏈接，我們重新抓取網頁就好了。操作和上文一樣，我這里就簡單復述一下：

點擊 Sitemap top250 下拉菜單里的 Scrape 按鈕
新的操作面板的兩個輸入框都輸入 2000
點擊 Start scraping 藍色按鈕開始抓取數據
抓取結束后點擊面板上的 refresh 藍色按鈕，檢測我們抓取的數據

如果你操作到這里並抓取成功的話，你會發現數據是全部抓取下來了，但是順序都是亂的。

web-scraper-data

我們這里先不管順序問題，因為這個屬於數據清洗的內容了，我們現在的專題是數據抓取。先把相關的知識點講完，再攻克下一個知識點，才是更合理的學習方式。

這期講了通過修改超鏈接的方式抓取了 250 個電影的名字。下一期我們說一些簡單輕松的內容換換腦子，講講 Web Scraper 如何導入別人寫好的爬蟲文件，導出自己寫好的爬蟲軟件。

4.參考閱讀：

簡易數據分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影

5.聯系我

因為文章發在各大平台上，賬號較多不能及時回復評論和私信，有問題可關注公眾號 ——「鹵蛋實驗室」，（或 wx 搜索 egglabs）關注上車防失聯。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Web Scraper 翻頁——抓取分頁器翻頁的網頁（Web Scraper 高級用法）| 簡易數據分析 12 Web Scraper 翻頁——抓取「滾動加載」類型網頁（Web Scraper 高級用法）| 簡易數據分析 10 Web Scraper 高級用法——Web Scraper 抓取多條內容 | 簡易數據分析 07 Web Scraper 翻頁——點擊「更多按鈕」翻頁（Web Scraper 高級用法） | 簡易數據分析 08 Web Scraper 高級用法——Web Scraper 自動控制抓取數量 & Web Scraper 父子選擇器 | 簡易數據分析 09 Web Scraper 高級用法——如何導入別人已經寫好的 Web Scraper 爬蟲 | 簡易數據分析 06 Web Scraper 高級用法——抓取表格數據 | 簡易數據分析 11 Web Scraper 高級用法——抓取屬性信息 | 簡易數據分析 16 Web Scraper 高級用法——抓取二級網面 | 簡易數據分析 13 Web Scraper 初級用法——Web Scraper 初嘗--抓取豆瓣高分電影 | 簡易數據分析 04

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM