相關代碼已經修改調試成功----2017-4-24
詳情代碼請移步我的github:https://github.com/pujinxiao/Lagou_spider
一、說明
1.目標網址:拉勾網
2.實現內容:爬取相應的字段
數據表名
3.思路:
1.首先類似於 https://www.lagou.com/jobs/2182417.html 這樣的鏈接是最終要的url。基本都是差不多,要變的就是那一串數字,編寫正則表達式匹配就好。
2.除了首頁還有其他地方也能找到這樣的url,所以我先匹配職位分類的url 例如:https://www.lagou.com/zhaopin/Java/,在抓取最終的url。
3.scrapy會自動去重。
4.數據:
二、運行
1.配置好相關數據庫的信息,運行main.py函數即可
三、問題----歡迎留言提出問題
聲明:此項目主要是學習CrawlSpider類,爬取全站的職位信息,熟悉Rule的一些用法。
1.你會發現爬取一小會兒,會被禁掉IP,要買代理IP才可行,免費的代理IP都不好用了,還有就是放慢抓取的速度。這樣效果會更好。(解決)
歡迎有興趣的小伙伴幫我優化,解決以上問題,之后我將合並你的代碼,作為貢獻者,共同成長。
編者郵箱:jinxiao_pu@163.com
如果本項目對你有用請給我一顆star,萬分感謝。
詳情代碼請移步我的github:https://github.com/pujinxiao/Lagou_spider
作者:今孝
出處:http://www.cnblogs.com/jinxiao-pu/p/6757145.html
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。