第6章 通過CrawlSpider對招聘網站進行整站爬取


通過前幾章的2個項目的學習,其實本章的拉鈎網項目還是挺容易理解的。

本章主要的還是對CrawlSpider源碼的解析,其實我對源碼還不是很懂,只是會基本的一些功能而已。

不分小節記錄了,直接上知識點,可能比較亂。

1.建立數據表sql語句參考

 1 CREATE TABLE `lagou_job` (
 2   `job_id` int(11) NOT NULL DEFAULT '0' COMMENT '職位頁面的id',
 3   `title` varchar(255) NOT NULL COMMENT '職位名稱',
 4   `url` varchar(255) NOT NULL COMMENT '職位鏈接',
 5   `salary` varchar(255) DEFAULT NULL COMMENT '工資',
 6   `job_city` varchar(255) DEFAULT NULL COMMENT '城市',
 7   `work_years` varchar(255) DEFAULT NULL COMMENT '工作經驗',
 8   `degree_need` varchar(255) DEFAULT NULL COMMENT '學歷',
 9   `job_type` varchar(255) DEFAULT NULL COMMENT '工作性質',
10   `publish_time` varchar(255) DEFAULT NULL COMMENT '發布時間',
11   `job_advantage` varchar(255) DEFAULT '' COMMENT '職位誘惑',
12   `job_desc` longtext COMMENT '職位描述',
13   `job_addr` varchar(255) DEFAULT NULL COMMENT '工作詳細地點',
14   `company_url` varchar(255) DEFAULT NULL COMMENT '公司鏈接',
15   `company_name` varchar(255) DEFAULT NULL COMMENT '公司名稱',
16   PRIMARY KEY (`job_id`)
17 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

2.繼承CrawlSpider

scrapy genspider -t crawl lagou www.lagou.com

3.根目錄問題

有時候from ...  import ...出錯的時候,可以看看根目錄是不是對的

4.CrawlSpider使用說明

參考scrapy文檔: http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#crawlspider

作者:今孝

出處:http://www.cnblogs.com/jinxiao-pu/p/6757603.html

本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM