這是簡易數據分析系列的第 6 篇文章。
上兩期我們學習了如何通過 Web Scraper 批量抓取豆瓣電影 TOP250 的數據,內容都太干了,今天我們說些輕松的,講講 Web Scraper 如何導出導入 Sitemap 文件。
前面也沒有說,SItemap 是個什么東西,其實它就是我們操作 Web Scraper 后生成的爬蟲文件,相當於 python 爬蟲的源代碼,導入 Web Scraper 一運行就可以爬取數據。學習了這一章節,就可以分享我們的設置好的爬蟲文件了。
導出 Sitemap
導出 Sitemap 很簡單,比如說我們創建的 top250 Sitemap,點擊 Sitemap top250
,在下拉菜單里選擇 Export Sitemap
,就會跳到一個新的面板。
新的面板里有我們創建的 top250 的 Sitemap 信息,我們把它復制下來,再新建一個 TXT 文件,粘貼保存就好了。
導入 Sitemap
導入 Sitemap 也很簡單,在創建新的 Sitemap 時,點擊 Import Sitemap
就好了。
在新的面板里,在 Sitemap JSON
里把我們導出的文字復制進去,Rename Sitemap
里取個名字,最后點擊 Import Sitemap
按鈕就可以了。
這期我們介紹了 Web Scraper 如何導入導出 Sitemap 爬蟲文件,下一期我們對上一期的內容進行擴展,不單單抓取 250 個電影名,還要抓取每個電影對應的排名,名字,評分和一句話影評。
推薦閱讀:
簡易數據分析 04 | Web Scraper 初嘗--抓取豆瓣高分電影
聯系我
因為文章發在各大平台上,賬號較多不能及時回復評論和私信,有問題可關注公眾號 ——「鹵蛋實驗室」,(或 wx 搜索 egglabs)關注上車防失聯。