通過前幾章的2個項目的學習,其實本章的拉鈎網項目還是挺容易理解的。
本章主要的還是對CrawlSpider源碼的解析,其實我對源碼還不是很懂,只是會基本的一些功能而已。
不分小節記錄了,直接上知識點,可能比較亂。
1.建立數據表sql語句參考
1 CREATE TABLE `lagou_job` ( 2 `job_id` int(11) NOT NULL DEFAULT '0' COMMENT '職位頁面的id', 3 `title` varchar(255) NOT NULL COMMENT '職位名稱', 4 `url` varchar(255) NOT NULL COMMENT '職位鏈接', 5 `salary` varchar(255) DEFAULT NULL COMMENT '工資', 6 `job_city` varchar(255) DEFAULT NULL COMMENT '城市', 7 `work_years` varchar(255) DEFAULT NULL COMMENT '工作經驗', 8 `degree_need` varchar(255) DEFAULT NULL COMMENT '學歷', 9 `job_type` varchar(255) DEFAULT NULL COMMENT '工作性質', 10 `publish_time` varchar(255) DEFAULT NULL COMMENT '發布時間', 11 `job_advantage` varchar(255) DEFAULT '' COMMENT '職位誘惑', 12 `job_desc` longtext COMMENT '職位描述', 13 `job_addr` varchar(255) DEFAULT NULL COMMENT '工作詳細地點', 14 `company_url` varchar(255) DEFAULT NULL COMMENT '公司鏈接', 15 `company_name` varchar(255) DEFAULT NULL COMMENT '公司名稱', 16 PRIMARY KEY (`job_id`) 17 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
2.繼承CrawlSpider
scrapy genspider -t crawl lagou www.lagou.com
3.根目錄問題
有時候from ... import ...出錯的時候,可以看看根目錄是不是對的
4.CrawlSpider使用說明
參考scrapy文檔: http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#crawlspider
作者:今孝
出處:http://www.cnblogs.com/jinxiao-pu/p/6757603.html
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。