scrapy簡單入門及選擇器(xpath\css)

本文轉載自查看原文 2017-02-06 10:17 1678 爬蟲框架--scrapy簡介/ 爬蟲_Spider

簡介

　　scrapy被認為是比較簡單的爬蟲框架，資料比較齊全，網上也有很多教程。官網上介紹了它的四種安裝方法，PyPI、Conda、APT、Source，我們只介紹最簡單的安裝方法。

安裝

Windows下的安裝

　　pip install scrapy

Linux下的安裝

　　apt-get install python-scrapy

　　APT

vim編輯器

　　因為Linux的強大及輔助工具比較多，大家比較喜歡在Linux下使用scrapy爬蟲框架，Linux下編寫python代碼最強大的工具可屬eclipse,但最方便的要屬vi的強化版本vim了，對不同的編程語言配合不同的插件，可將vim配置成為一個專屬的IDE。

VIM模塊

選擇器XPath和CSS

　　XPath是一門在XML文檔中查找信息的語言，可用來在XML文檔中對元素和屬性進行遍歷。它有七點類型的節點：元素、屬性、文本、命名空間、處理指令、注釋及文檔節點（根節點），XML文檔是被作為節點樹來對待的，樹的根被稱為根節點。

　　XPath使用路徑表達式在XML文檔中選取節點。

　　XPath最常用的路徑表達式：

　　xpath示例代碼

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

　　舉例說明：

bookstore  選取bookstore元素的所有子節點
/bookstore  選擇根元素下的bookstore元素,假如路徑起始於/
bookstore/book  選取bookstoe的所有子元素中為book的元素
//book  選取文檔中的所有book元素，不管它在什么位置
//bookstore//book   選擇屬於bookstore元素后代的所有book元素，不管它在什么位置
//@lang 選擇所有屬性為lang的元素
/bookstore/book[1]      選取bookstore子元素中的第一個book元素
/bookstore/book[last()]   選取bookstore子元素中的最后一個book元素
/bookstore/book[last()-1]   選取bookstore子元素中倒數第二個book元素
/bookstore/book[postion()<3] 選取bookstore子元素中前兩個book元素
//title[@lang]              選取所有title元素且其屬性擁有lang名
//title[@lang='en']         選取所有title元素且其屬性擁有lang='en'
/bookstore/book[price>30]   選取bookstore元素下所有子元素中元素price>30book的元素
/title/text()  提取title標簽上的文字
/a/@href  提取a標簽的href屬性值  
response.xpath("//a[contains(.,'下一頁')]/text()")[1].extract()  # 根據文本內容查找

　　未知節點

* 任何元素節點
@*    任何屬性節點

/bookstore/*    bookstore元素下的所有子元素
//*             當前文檔的所有元素
//title[@*]     所有帶有屬性的title元素

　　選取若干路徑

//book/title|//book/price       選取book元素下的所有title和price元素
//title|//price                 選取文檔中的所有title和price元素

　　示例代碼2：

<superhero>
    <class>
        <name lang="en">Tony Stark</name>
        <alias>Iron Man</alias>
        <sex>male</sex>
        <birthday>1969</birthday>
        <age>47</age>
    </class>
    <class>
        <name lang="en">Perter Benjamin</name>
        <alias>Spider Man</alias>
        <sex>male</sex>
        <birthday>unknow</birthday>
        <age>unknow</age>
    </class>
    <class>
        <name lang="en">Steven Rogers</name>
        <alias>Captain America</alias>
        <sex>male</sex>
        <birthday>19200704</birthday>
        <age>96</age>
    </class>
</superhero>

分析以上代碼：superhero是根節點，alias是元素節點，lang="en"是屬性節點。

　　小試牛刀

#!/usr/bin/env python
# _*_ coding:utf-8 _*_

from scrapy.selector import Selector

with open("superHero.xml",'r') as fp:
    body = fp.read()

htmlContent = Selector(text=body).xpath("/*").extract()
print htmlContent
結果：XML文件轉成了標准的HTML文件,根節點不再是superhero而是html

　　數據收集的比較

#!/usr/bin/env python
# _*_ coding:utf-8 _*_

from scrapy.selector import Selector

with open("superHero.xml",'r') as fp:
    body = fp.read()

# 采集第一個class節點中的內容,text表示傳入的內容是字符串
Selector(text=body).xpath("//superhero/class[0]").extract()
Selector(text=body).css("superhero class:first-child").extract()

# 采集最后一個class節點中的內容
Selector(text=body).xpath("//superhero/class[last()]").extract()
Selector(text=body).css("superhero class:last-child").extract()

# 采集倒數第二個class節點中name節點的文本,text()表示獲取文本
Selector(text=body).xpath("//superhero/class[last()-1]/name/text()").extract()
Selector(text=body).css("superhero class:nth-last-child(2) name").extract()[0]

# 采集節點name,其屬性節點lang='en'的元素,@前綴代表屬性名稱(@lang代表lang屬性，用中括號圈起來)
Selector(text=body).xpath("//name[@lang='en']").extract()
Selector(text=body).css("name[lang='en']").extract()

# 嵌套選擇器,選擇最后一個class節點中sex節點的內容
subBody = Selector(text=body).xpath("//superhero/class[last()]").extract()
Selector(text=subBody[0]).xpath("/html/body/class/sex/text()").extract()
Selector(text=subBody[0]).xpath("//class/sex/text()").extract()

　　CSS:層疊樣式表

　　CSS經常使用的幾個選擇器：

　　 css也可以嵌套使用，所以它和xpath可以互相嵌套，使用數據收集功能更加強大。

　　 CSS示例代碼（同示例代碼2）：

s.css("title::text").extract_first()  # 提取title標簽的文本
s.css("base::attr(href)").extract_first() # 提取base標簽的herf屬性值
s.css("a[href^=image]::attr(href)").extract() # 提取以image開頭的屬性列表
s.xpath('//a[contains(@href, "image")]/@href').extract()  # href屬性中包含image字符串列表
s.css('a[href^=image]::text').re(r'Name:\s(.*)')  # 正則也可以序列化數據，返回括號中的文本串