python爬蟲實戰（九）--------拉勾網全站職位（CrawlSpider）

本文轉載自查看原文 2017-04-24 16:10 2384 學習scrapy框架/ python實戰

相關代碼已經修改調試成功----2017-4-24

詳情代碼請移步我的github：https://github.com/pujinxiao/Lagou_spider

一、說明

1.目標網址：拉勾網

2.實現內容：爬取相應的字段

數據表名

3.思路：

1.首先類似於 https://www.lagou.com/jobs/2182417.html 這樣的鏈接是最終要的url。基本都是差不多，要變的就是那一串數字，編寫正則表達式匹配就好。

2.除了首頁還有其他地方也能找到這樣的url，所以我先匹配職位分類的url 例如：https://www.lagou.com/zhaopin/Java/，在抓取最終的url。

3.scrapy會自動去重。

4.數據：

二、運行

1.配置好相關數據庫的信息，運行main.py函數即可

三、問題----歡迎留言提出問題

聲明：此項目主要是學習CrawlSpider類，爬取全站的職位信息，熟悉Rule的一些用法。

1.你會發現爬取一小會兒，會被禁掉IP，要買代理IP才可行，免費的代理IP都不好用了，還有就是放慢抓取的速度。這樣效果會更好。（解決）

歡迎有興趣的小伙伴幫我優化，解決以上問題，之后我將合並你的代碼，作為貢獻者,共同成長。

編者郵箱：jinxiao_pu@163.com

如果本項目對你有用請給我一顆star，萬分感謝。

詳情代碼請移步我的github：https://github.com/pujinxiao/Lagou_spider

作者：今孝

出處：http://www.cnblogs.com/jinxiao-pu/p/6757145.html

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲實戰(三) 用Python爬取拉勾網初級爬蟲--爬取拉勾網職位信息 python爬取拉勾網職位數據【Python3爬蟲】拉勾網爬蟲通過CrawlSpider對招聘網站進行整站爬取（拉勾網實戰） Python爬蟲實戰，requests模塊，Python模擬登錄實現拉勾網數據解析【圖文詳解】scrapy爬蟲與動態頁面——爬取拉勾網職位信息（2）拉勾網爬蟲Python代碼實現 Python爬蟲實戰之一 - 基於Requests爬取拉勾網招聘信息，並保存至本地csv文件 Python爬蟲實戰（一）使用urllib庫爬取拉勾網數據