前言
2020年即將過去,回望過去一年是魔幻的一年,今年注定是不平常的一年,我想也是會載入史冊,讓人類永遠銘記今年的重大事件。
全球疫情、中美貿易戰、美國大選等一系列重大事件。今年也許是最好的時代同時也是最壞的時代,機遇和危機都是轉瞬即逝,我們能做的只有把握當下,未雨綢繆,厚積薄發!
今天畢竟是2020年結束,2021年開始的第一天,不免有所感慨和總結。下面回歸到技術博客。。。
年底是跳槽的好時機,最近查看招聘網的各個職位,想要將其爬取下來進行分析。剛開始寫過代碼進行爬取,奈何本人技術有限,對付高級的反爬蟲系統顯得心有余而力不足。
於是經過一段時間的查找發現了這個神器:web scraper ,並且它是開源免費的,雖然使用上有些小問題,但是基本滿足我的需求。
安裝
官網:https://www.webscraper.io/
它是一個谷歌插件,當然也支持火狐,其他的瀏覽器我就不清楚了。至於插件安裝大家可以自己百度,有很多教程。
使用
安裝好之后在瀏覽器的F12或者開發者工具里有一個Web Scraper集成的功能

-
創建網站地圖
點擊Create new sistemap

-
填寫信息
Sitemap name :名稱(可以隨便寫,自己知道意思就行)
URL: 爬取地址(填你要爬取的網站地址,我這里爬取的是51job,在此聲明:此數據僅做個人找工作學習參考,無其他任何商用途徑,也希望大家不要用做商用等違法途徑。)
下面的地址能爬取第一頁得數據
https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99°reefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
如果我們想要爬取后面多個頁面呢,通過分析每一頁的URL地址只是中間的數字進行累加,於是使用正則表達式進行匹配[1-8],鏈接如下:
https://search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html?lang=c&postchannel=0000&workyear=02&cotype=99°reefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

-
添加子節點
點擊添加子節點

-
配置子節點
id:可以隨便填,最好見文知意
type:選Text,因為我們是直接獲取文本,如果需要獲取鏈接則選link
點擊select可以選擇網頁上的元素,選擇2個會自動往下匹配相同的
抓取多個數據一定要勾選Multiple
然后選擇_root做為父節點


一個簡單的爬蟲配置就完成了,下面開始爬取數據
5. 檢查
點擊Data preview出現你需要獲取得數據內容,那么說明配置正確


6. 爬取
點擊Scrape,然后點擊開始運行

-
查看結果
點擊Browse然后點擊Refresh Data就可以查看下面抓取到得數據了

-
導出數據
點擊Export data as CSV然后保存到你選擇的目錄

打開csv檢查

至此數據爬取完成,那么下面進行數據篩選和處理,具體請看下一篇文章。
