新手小白的爬蟲神器-無代碼高效爬取數據

本文轉載自查看原文 2021-01-01 15:52 504 工具

前言

2020年即將過去，回望過去一年是魔幻的一年，今年注定是不平常的一年，我想也是會載入史冊，讓人類永遠銘記今年的重大事件。
全球疫情、中美貿易戰、美國大選等一系列重大事件。今年也許是最好的時代同時也是最壞的時代，機遇和危機都是轉瞬即逝，我們能做的只有把握當下，未雨綢繆，厚積薄發！

今天畢竟是2020年結束，2021年開始的第一天，不免有所感慨和總結。下面回歸到技術博客。。。
年底是跳槽的好時機，最近查看招聘網的各個職位，想要將其爬取下來進行分析。剛開始寫過代碼進行爬取，奈何本人技術有限，對付高級的反爬蟲系統顯得心有余而力不足。
於是經過一段時間的查找發現了這個神器：web scraper ，並且它是開源免費的，雖然使用上有些小問題，但是基本滿足我的需求。

安裝

官網：https://www.webscraper.io/
它是一個谷歌插件，當然也支持火狐，其他的瀏覽器我就不清楚了。至於插件安裝大家可以自己百度，有很多教程。

使用

安裝好之后在瀏覽器的F12或者開發者工具里有一個Web Scraper集成的功能

創建網站地圖
點擊Create new sistemap
填寫信息
Sitemap name ：名稱（可以隨便寫，自己知道意思就行）
URL：爬取地址（填你要爬取的網站地址，我這里爬取的是51job，在此聲明：此數據僅做個人找工作學習參考，無其他任何商用途徑，也希望大家不要用做商用等違法途徑。）
下面的地址能爬取第一頁得數據
https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
如果我們想要爬取后面多個頁面呢，通過分析每一頁的URL地址只是中間的數字進行累加，於是使用正則表達式進行匹配[1-8]，鏈接如下：
https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html？lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

添加子節點
點擊添加子節點
配置子節點
id:可以隨便填，最好見文知意
type：選Text，因為我們是直接獲取文本，如果需要獲取鏈接則選link
點擊select可以選擇網頁上的元素，選擇2個會自動往下匹配相同的
抓取多個數據一定要勾選Multiple
然后選擇_root做為父節點

一個簡單的爬蟲配置就完成了，下面開始爬取數據
5. 檢查
點擊Data preview出現你需要獲取得數據內容，那么說明配置正確

6. 爬取
點擊Scrape，然后點擊開始運行

查看結果
點擊Browse然后點擊Refresh Data就可以查看下面抓取到得數據了
導出數據
點擊Export data as CSV然后保存到你選擇的目錄

打開csv檢查

至此數據爬取完成，那么下面進行數據篩選和處理，具體請看下一篇文章。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python新手爬蟲四：爬取視頻 Python新手爬蟲二：爬取搜狗圖片（動態） Python新手爬蟲三：爬取PPT模板不踩坑的Python爬蟲：如何在一個月內學會爬取大規模數據？新手必學 Python新手爬蟲一：爬取影片名稱評分等爬蟲—Ajax數據爬取「爬蟲」從某網站爬取數據小白學 Python 爬蟲（25）：爬取股票信息 python | 爬蟲筆記（六）- Ajax數據爬取 Python爬蟲爬取數據的步驟