Web Scraper 初級用法——Web Scraper 初嘗--抓取豆瓣高分電影 | 簡易數據分析 04 - 碼上歡樂

相關內容簡體繁體

Web Scraper 初級用法——Web Scraper 初嘗--抓取豆瓣高分電影 | 簡易數據分析 04

本文轉載自查看原文 2019-07-03 21:17 4775 web scraper/ 簡易數據分析

這是簡易數據分析系列的第 4 篇文章。

今天我們開始數據抓取的第一課，完成我們的第一個爬蟲。因為是剛剛開始，操作我會講的非常詳細，可能會有些啰嗦，希望各位不要嫌棄啊：）

有人之前可能學過一些爬蟲知識，總覺得這是個復雜的東西，什么 HTTP、HTML、IP 池，在這里我們都不考慮這些東西。一是小的數據量根本不需要考慮，二是這些亂七八糟的東西根本沒有說到爬蟲的本質。

爬蟲的本質是什么？其實就是找規律。

而且爬蟲的找規律難度，大部分都是小學三年級的數學題水平。

我們下面拿個例子說明一下，下圖歷史文章的一個截圖，我們可以很清晰的看到，每一條推文可以分為三大部分：標題、圖片和作者，我們只要找到這個規律，就可以批量的抓取這類數據。

好了，理論的地方我們講完了，下面我們開始進行實操。

但凡做爬蟲練手，第一個爬取的網站一般都是豆瓣電影 TOP 250，網址鏈接是 https://movie.douban.com/top250?start=0&filter=。第一次上手，我們爬取的內容盡量簡單，所以我們只爬取第一頁的電影標題。

瀏覽器按 F12 打開控制台，並把控制台放在網頁的下方（具體操作可以看上一篇文章），然后找到 Web Scraper 這個 Tab，點進去就來到了 Web Scraper 的控制頁面。

進入 Web Scraper 的控制頁面后，我們按照 Create new sitemap -> Create Sitemap 的操作路徑，創建一個新的爬蟲，sitemap 是啥意思並不重要，你就當他是個爬蟲的別名就好了。

我們在接下來出現的輸入框里依次輸入爬蟲名和要爬取的鏈接。

爬蟲名可能會有字符類型的限制，我們看一下規則規避就好了，最后點擊 Create Sitemap 這個按鈕，創建我們的第一個爬蟲。

這時候會跳到一個新的操作面板，不要管別的，我們直接點擊 Add new selector 這個藍底白字的按鈕，顧名思義，創建一個選擇器，用來選擇我們想要抓取的元素。

這時候就要開始正式的數據抓取環節了！我們先觀察一下這個面板有些什么東西：

1.首先有個 Id，這個就是給我們要爬取的內容標注一個 id，因為我們要抓取電影的名字，簡單起見就取個 name 吧；

2.電影名字很明顯是一段文字，所以 Type 類型肯定是 Text，在這個爬蟲工具里，默認 Type 類型就是 Text，這次的爬取工作就不需要改動了；

3.我們把多選按鈕 Multiple 勾選上，因為我們要抓的是批量的數據，不勾選的話只能抓取一個；

4.最后我們點擊黃色圓圈里的 Select，開始在網頁上勾選電影名字；

當你把鼠標移動到網頁時，會發現網頁上出現了綠色的方塊兒，這些方塊就是網頁的構成元素，當我們點擊鼠標時，綠色的方塊兒就會變為紅色，表示這個元素被選中了：

這時候我們就可以進行我們的抓取工作了。

我們先選擇「肖生克的救贖」這個標題，然后再選擇「霸王別姬」這個標題（注意：想達到多選的效果，一定要手動選取兩個以上的內容）

選完這兩個標題后，向下拉動網頁，你就會發現所有的電影名字都被選中了：

拉動網頁檢查一遍，發現所有的電影標題都被選中后，我們就可以點擊 Done selecting!這個按鈕，表示選擇完畢；

點擊按鈕后你會發現下圖的紅框位置會出現了一些字符，一般出現這個就表示選取成功了：

我們點擊 Data preview 這個按鈕，就可以預覽我們的抓取效果了：

沒什么問題的話，關閉 Data Preview 彈窗，翻到面板的最下面，有個 Save selector 的藍色按鈕，點擊后我們會回退到上一個面板。

這時候你會發現多了一行數據，其實就是我們剛剛的操作內容被記錄下來了。

在頂部的 tab 欄，有一個 Sitemap top250 的 tab，這個就是我們剛剛創建的爬蟲。點擊它，再點擊下拉菜單里的 Scrape 按鈕，開始我們的數據抓取。

這時候你會跳到另一個面板，里面有兩個輸入框，先別管他們是什么，全部輸入 2000 就好了。

點擊 Start scraping 藍色按鈕后，會跳出一個新的網頁，Web Scraper 插件會在這里進行數據抓取：

一般彈出的網頁自動關閉就代表着數據抓取結束了，我們點擊面板上的 refresh 藍色按鈕，就可以看到我們抓取的數據了！

在這個預覽面板上，第一列是 web scraper 自動添加的編號，沒啥意義；第二列是抓取的鏈接，第三列就是我們抓取的數據了。

這個數據會存儲在我們的瀏覽器里，我們也可以點擊 Sitemap top250 下的 Export data as CSV，這樣就可以導出成 .csv 格式的數據，這種格式可以用 Excel 打開，我們可以用 Excel 做一些數據格式化的操作。

今天我們爬取了豆瓣電影TOP250 的第 1 頁數據（也就是排名最高的 25 部電影），下一篇我們講講，如何抓取所有的電影名。

推薦閱讀：

簡易數據分析 03 | 瀏覽器中那些不為人知的使用技巧

簡易數據分析 02 | Web Scraper 的下載與安裝

簡易數據分析 01 | 為什么我們要學習數據分析？

聯系我

因為文章發在各大平台上，賬號較多不能及時回復評論和私信，有問題可關注公眾號 ——「鹵蛋實驗室」，（或 wx 搜索 egglabs）關注上車防失聯。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Web Scraper 翻頁——控制鏈接批量抓取數據（Web Scraper 高級用法）| 簡易數據分析 05 Web Scraper 翻頁——抓取「滾動加載」類型網頁（Web Scraper 高級用法）| 簡易數據分析 10 Web Scraper 翻頁——抓取分頁器翻頁的網頁（Web Scraper 高級用法）| 簡易數據分析 12 Web Scraper 高級用法——Web Scraper 自動控制抓取數量 & Web Scraper 父子選擇器 | 簡易數據分析 09 Web Scraper 高級用法——如何導入別人已經寫好的 Web Scraper 爬蟲 | 簡易數據分析 06 Web Scraper 翻頁——點擊「更多按鈕」翻頁（Web Scraper 高級用法） | 簡易數據分析 08 Web Scraper 翻頁——利用 Link 選擇器翻頁 | 簡易數據分析 14 跟着我一起！！！教你如何抓取豆瓣高分電影數據進行信息分析！ BOSS直聘數據抓取之初級爬蟲(數據分析) Java豆瓣電影爬蟲——抓取電影詳情和電影短評數據

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM