python爬蟲實戰(九)--------拉勾網全站職位(CrawlSpider)


相關代碼已經修改調試成功----2017-4-24

詳情代碼請移步我的github:https://github.com/pujinxiao/Lagou_spider

一、說明

1.目標網址拉勾網

2.實現內容:爬取相應的字段

數據表名  

3.思路

1.首先類似於 https://www.lagou.com/jobs/2182417.html 這樣的鏈接是最終要的url。基本都是差不多,要變的就是那一串數字,編寫正則表達式匹配就好。

2.除了首頁還有其他地方也能找到這樣的url,所以我先匹配職位分類的url 例如:https://www.lagou.com/zhaopin/Java/,在抓取最終的url。

3.scrapy會自動去重。

4.數據

二、運行

1.配置好相關數據庫的信息,運行main.py函數即可

三、問題----歡迎留言提出問題

聲明:此項目主要是學習CrawlSpider類,爬取全站的職位信息,熟悉Rule的一些用法。

1.你會發現爬取一小會兒,會被禁掉IP,要買代理IP才可行,免費的代理IP都不好用了,還有就是放慢抓取的速度。這樣效果會更好。(解決)

歡迎有興趣的小伙伴幫我優化,解決以上問題,之后我將合並你的代碼,作為貢獻者,共同成長。

編者郵箱:jinxiao_pu@163.com


如果本項目對你有用請給我一顆star,萬分感謝。

詳情代碼請移步我的github:https://github.com/pujinxiao/Lagou_spider

作者:今孝 

出處:http://www.cnblogs.com/jinxiao-pu/p/6757145.html

本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM