第4章 scrapy爬取知名技術文章網站(1)

本文轉載自查看原文 2017-04-15 10:55 3406 學習scrapy框架

4-1 scrapy安裝以及目錄結構介紹

安裝scrapy可以看我另外一篇博文：Scrapy的安裝--------Windows、linux、mac等操作平台，現在是在虛擬環境中安裝可能有不同。

mkvirtualenv --python=C:\Users\admin\AppData\Local\Programs\Python\Python35\python3.exe py3scrapy

進入環境py3scrapy，pip install -i https://pypi.douban.com/simple/ scrapy 豆瓣源安裝非常快。

進入虛擬環境： workon py3scrapy

創建項目： scrapy startproject ArticleSpider

建立spider： scrapy genspider jobbole blog.jobbple.com

建立一個main.py文件，在ArticleSpider文件目錄下

from scrapy.cmdline import execute
import sys,os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy','crawl','jobbole'])

os.path.abspath(__file__) --------main.py目錄

dirname() --------main.py父目錄

在實戰中操作

為什么有時候自己寫的xpath明明對的，卻獲取不到數據？

原因：F12產生的源碼，不同於網頁源代碼，前者可能是js加載完的源代碼。response.xpath()是根據網頁源代碼來提取信息的。

問題：No modle named ‘win32api’

解決： pip install -i https://pypi.douban.com/simple/ pypiwin32

contains()用法

response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").extract()[0]

表示在span標簽中class屬性中含有 bookmark-btn 即為符合

正文保留html標簽，以便后續研究

scrapy shell url 調試xpath

如果在py3中就都顯示中文了

re.math(reg,html).group() #正則匹配

tag_list=['職場','2 評論','今昔']
[element for element in tag_list if not element.strip().endswith('評論')]

#結果['職場', '今昔']

作者：今孝

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 第4章 scrapy爬取知名技術文章網站(2) 『Scrapy』爬取騰訊招聘網站爬蟲Scrapy框架-2爬取網站視頻詳情 Python的scrapy之爬取boss直聘網站 Scrapy+Selenium爬取動態渲染網站 scrapy結合selenium爬取淘寶等動態網站 scrapy多url爬取第6章通過CrawlSpider對招聘網站進行整站爬取 python 爬取文章好的技術文章應該讓讀者更自信而不是更自卑