.Net實現拉勾網爬蟲
前幾天看到一個.NET Core寫成的爬蟲,有些莫名的小興奮,之前一直用集搜客去爬拉勾網的招聘信息,這個傻瓜化工具相當於用HTML模板頁去標記DOM節點,然后在瀏覽器窗口上模擬人的瀏覽行為同時跟蹤節點信息。它有很多好處,但缺點也明顯:抓取速度慢;數據清洗和轉儲麻煩;只知其過程,不知其原理,網站改了 ...
前幾天看到一個.NET Core寫成的爬蟲,有些莫名的小興奮,之前一直用集搜客去爬拉勾網的招聘信息,這個傻瓜化工具相當於用HTML模板頁去標記DOM節點,然后在瀏覽器窗口上模擬人的瀏覽行為同時跟蹤節點信息。它有很多好處,但缺點也明顯:抓取速度慢;數據清洗和轉儲麻煩;只知其過程,不知其原理,網站改了 ...
拉勾因其結構化的數據比較多因此過去常常被爬,所以在其多次改版之下變得難爬。不過只要清楚它的原理,依然比較好爬。其機制主要就是AJAX異步加載JSON數據,所以至少在搜索頁面里翻頁url不會變化,而且數據也不會出現在源代碼里。 數據解析 這是深圳地區的數據分析師頁面,用Chrome檢查打開 ...