第6章通過CrawlSpider對招聘網站進行整站爬取

本文轉載自查看原文 2017-04-24 20:55 1704 學習scrapy框架

通過前幾章的2個項目的學習，其實本章的拉鈎網項目還是挺容易理解的。

本章主要的還是對CrawlSpider源碼的解析，其實我對源碼還不是很懂，只是會基本的一些功能而已。

不分小節記錄了，直接上知識點，可能比較亂。

1.建立數據表sql語句參考

 1 CREATE TABLE `lagou_job` (
 2   `job_id` int(11) NOT NULL DEFAULT '0' COMMENT '職位頁面的id',
 3   `title` varchar(255) NOT NULL COMMENT '職位名稱',
 4   `url` varchar(255) NOT NULL COMMENT '職位鏈接',
 5   `salary` varchar(255) DEFAULT NULL COMMENT '工資',
 6   `job_city` varchar(255) DEFAULT NULL COMMENT '城市',
 7   `work_years` varchar(255) DEFAULT NULL COMMENT '工作經驗',
 8   `degree_need` varchar(255) DEFAULT NULL COMMENT '學歷',
 9   `job_type` varchar(255) DEFAULT NULL COMMENT '工作性質',
10   `publish_time` varchar(255) DEFAULT NULL COMMENT '發布時間',
11   `job_advantage` varchar(255) DEFAULT '' COMMENT '職位誘惑',
12   `job_desc` longtext COMMENT '職位描述',
13   `job_addr` varchar(255) DEFAULT NULL COMMENT '工作詳細地點',
14   `company_url` varchar(255) DEFAULT NULL COMMENT '公司鏈接',
15   `company_name` varchar(255) DEFAULT NULL COMMENT '公司名稱',
16   PRIMARY KEY (`job_id`)
17 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

2.繼承CrawlSpider

scrapy genspider -t crawl lagou www.lagou.com

3.根目錄問題

有時候from ... import ...出錯的時候，可以看看根目錄是不是對的

4.CrawlSpider使用說明

參考scrapy文檔： http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#crawlspider

作者：今孝

出處：http://www.cnblogs.com/jinxiao-pu/p/6757603.html

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 『Scrapy』爬取騰訊招聘網站爬取某招聘網站的信息 python爬取招聘網站信息【python】:用爬蟲腳本爬取招聘網站上的信息 Python爬取招聘網站數據，並可視化展示招聘需求、薪資、招聘人數等數據 Python爬取拉鈎招聘網數據招聘網站的盈利模式是什么 ? Wget/httrack 爬取整站資源 R分析實現對招聘網站薪資預測分析第4章 scrapy爬取知名技術文章網站(1)

第6章 通過CrawlSpider對招聘網站進行整站爬取

免責聲明！

第6章通過CrawlSpider對招聘網站進行整站爬取