虛擬環境安裝好了之后,scrapy 框架安裝好了以后:
workon article_spider (項目名稱)
scrapy startproject Article Spider 工程目錄
cd 到 工程目錄
Scrapy genspider jobbole blog.jobbole.com 第一個文件名稱 要爬取網站的域名
啟動一個工程的cmd: scrapy crawl jobbole
如果 運行報 No module named “win32api”
要安裝 pip install pypiwin32 這個包
settings
把
這樣設置,否則 遵循 robots.txt rules ,它將會不爬
如果 是 xpath selector 對象 想提取里面的內容,調用extract()成一個列表,然后索引取出,但是列表沒有值,索引取出就會報錯,所以
extract_first 提取不到就返回None。比較好