XPath在Python的爬蟲學習中,起着舉足輕重的地位,對比正則表達式 re兩者可以完成同樣的工作,實現的功能也差不多,但XPath明顯比re具有優勢,在網頁分析上使re退居二線。
XPath介紹:
是什么? 全稱為XML Path Language 一種小型的查詢語言
說道XPath是門語言,不得不說它所具備的優點:
1) 可在XML中查找信息
2) 支持HTML的查找
3) 通過元素和屬性進行導航
python開發使用XPath條件:
由於XPath屬於lxml庫模塊,所以首先要安裝庫lxml,具體的安裝過程可以查看博客,包括easy_install 和 pip 的安裝方法。
XPath的簡單調用方法:
from lxml import etree
selector=etree.HTML(源碼) #將源碼轉化為能被XPath匹配的格式
selector.xpath(表達式) #返回為一列表
XPath的使用方法:
首先講一下XPath的基本語法知識:
四種標簽的使用方法
1) // 雙斜杠 定位根節點,會對全文進行掃描,在文檔中選取所有符合條件的內容,以列表的形式返回。
2) / 單斜杠 尋找當前標簽路徑的下一層路徑標簽或者對當前路標簽內容進行操作
3) /text() 獲取當前路徑下的文本內容
4) /@xxxx 提取當前路徑下標簽的屬性值
5) | 可選符 使用|可選取若干個路徑 如//p | //div 即在當前路徑下選取所有符合條件的p標簽和div標簽。
6) . 點 用來選取當前節點
7) .. 雙點 選取當前節點的父節點
另外還有starts-with(@屬性名稱,屬性字符相同部分),string(.)兩種重要的特殊方法后面將重點講。
利用實例講解XPath的使用:
from lxml import etree
html="""
<!DOCTYPE html>
<html>
<head lang="en">
<title>測試</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<div id="content">
<ul id="ul">
<li>NO.1</li>
<li>NO.2</li>
<li>NO.3</li>
</ul>
<ul id="ul2">
<li>one</li>
<li>two</li>
</ul>
</div>
<div id="url">
<a href="http://www.58.com" title="58">58</a>
<a href="http://www.csdn.net" title="CSDN">CSDN</a>
</div>
</body>
</html>
"""
selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()') #這里使用id屬性來定位哪個div和ul被匹配 使用text()獲取文本內容
for i in content:
print i
#輸出為
NO.1
NO.2
NO.3
con=selector.xpath('//a/@href') #這里使用//從全文中定位符合條件的a標簽,使用“@標簽屬性”獲取a便簽的href屬性值
for each in con:
print each
#輸出結果為:
http://www.58.com
http://www.csdn.net
con=selector.xpath('/html/body/div/a/@title') #使用絕對路徑和使用相對路徑定位 兩者效果是一樣的
print len(con)
print con[0]con[1]
#輸出結果為:
2
58 CSDN
介紹XPath的特殊用法:
1) starts-with 解決標簽屬性值以相同字符串開頭的情況
舉例說明
from lxml import etree html=""" <body> <div id="aa">aa</div> <div id="ab">ab</div> <div id="ac">ac</div> </body> """ selector=etree.HTML(html) content=selector.xpath('//div[starts-with(@id,"a")]/text()') #這里使用starts-with方法提取div的id標簽屬性值開頭為a的div標簽 for each in content: print each #輸出結果為: aa ab ac
2) string(.) 標簽套標簽
html=""" <div id="a"> left <span id="b"> right <ul> up <li>down</li> </ul> east </span> west </div> """ #下面是沒有用string方法的輸出 sel=etree.HTML(html) con=sel.xpath('//div[@id="a"]/text()') for i in con: print i #輸出內容為left west data=sel.xpath('//div[@id="a"]')[0] info=data.xpath('string(.)') content=info.replace('\n','').replace(' ','') for i in content: print i #輸出為 全部內容
XPath提供的幾個特殊的方法:
XPath中需要取的標簽如果沒有屬性,可以使用text(),posision()來識別標簽。
舉兩個簡單的例子:
from lxml import etree html=""" <div>hello <p>H</p> </div> <div>hehe</div> """ sel=etree.HTML(html) con=sel.xpath('//div[text()="hello"]/p/text()') print con[0] #H
這里使用text()的方法來判別是哪個div標簽
from lxml import etree html=""" <div>hello <p>H</p> <p>J</p> <p>I</p> </div> <div>hehe</div> """ sel=etree.HTML(html) con=sel.xpath('//div[text()="hello"]/p[posision()=2]/text()') print con[0] #J
另外,在XPath中可以使用多重過濾方法尋找標簽,例如ul[3][@id=”a”] 這里使用【3】來尋找第三個ul標簽 並且它的id屬性值為a
獲取XPath的方式有兩種:
1) 使用以上等等的方法通過觀察找規律的方式來獲取XPath
2) 使用Chrome瀏覽器來獲取 在網頁中右擊->選擇審查元素(或者使用F12打開) 就可以在elements中查看網頁的html標簽了,找到你想要獲取XPath的標簽,右擊->Copy XPath 就已經將XPath路徑復制到了剪切板。
有朋友問我正則,,okey,其實我的正則也不好,但是python下xpath是相對較簡單的
簡單了解一下xpath:
XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。
XPath 是 W3C XSLT 標准的主要元素,並且 XQuery 和 XPointer 都構建於 XPath 表達之上。
因此,對 XPath 的理解是很多高級 XML 應用的基礎。
這個是w3c上關於xpath的介紹,可以看出xpath是在xml文檔中查詢信息的語言
在 XPath 中,有七種類型的節點:元素、屬性、文本、命名空間、處理指令、注釋以及文檔(根)節點。XML 文檔是被作為節點樹來對待的。樹的根被稱為文檔節點或者根節點。
根節點在xpath中可以用“//”來啊表示
XPath 使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿着路徑 (path) 或者步 (steps) 來選取的。
接下來一個例子
<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> </bookstore>
這個是基本的語法(掌握了這些基本都可以抓取到):
| 表達式 | 描述 |
|---|---|
| nodename | 選取此節點的所有子節點。 |
| / | 從根節點選取。 |
| // | 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 |
| . | 選取當前節點。 |
| .. | 選取當前節點的父節點。 |
| @ | 選取屬性。 |
實例
在下面的表格中,我們已列出了一些路徑表達式以及表達式的結果:
| 路徑表達式 | 結果 |
|---|---|
| bookstore | 選取 bookstore 元素的所有子節點。 |
| /bookstore | 選取根元素 bookstore。 注釋:假如路徑起始於正斜杠( / ),則此路徑始終代表到某元素的絕對路徑! |
| bookstore/book | 選取屬於 bookstore 的子元素的所有 book 元素。 |
| //book | 選取所有 book 子元素,而不管它們在文檔中的位置。 |
| bookstore//book | 選擇屬於 bookstore 元素的后代的所有 book 元素,而不管它們位於 bookstore 之下的什么位置。 |
| //@lang | 選取名為 lang 的所有屬性。 |
謂語(Predicates)
謂語用來查找某個特定的節點或者包含某個指定的值的節點。
謂語被嵌在方括號中。
實例
在下面的表格中,我們列出了帶有謂語的一些路徑表達式,以及表達式的結果:
| 路徑表達式 | 結果 |
|---|---|
| /bookstore/book[1] | 選取屬於 bookstore 子元素的第一個 book 元素。 |
| /bookstore/book[last()] | 選取屬於 bookstore 子元素的最后一個 book 元素。 |
| /bookstore/book[last()-1] | 選取屬於 bookstore 子元素的倒數第二個 book 元素。 |
| /bookstore/book[position()<3] | 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。 |
| //title[@lang] | 選取所有擁有名為 lang 的屬性的 title 元素。 |
| //title[@lang='eng'] | 選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。 |
| /bookstore/book[price>35.00] | 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。 |
| /bookstore/book[price>35.00]/title | 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。 |
選取未知節點
XPath 通配符可用來選取未知的 XML 元素。
| 通配符 | 描述 |
|---|---|
| * | 匹配任何元素節點。 |
| @* | 匹配任何屬性節點。 |
| node() | 匹配任何類型的節點。 |
實例
在下面的表格中,我們列出了一些路徑表達式,以及這些表達式的結果:
| 路徑表達式 | 結果 |
|---|---|
| /bookstore/* | 選取 bookstore 元素的所有子元素。 |
| //* | 選取文檔中的所有元素。 |
| //title[@*] | 選取所有帶有屬性的 title 元素。 |
選取若干路徑
通過在路徑表達式中使用“|”運算符,您可以選取若干個路徑。
實例
在下面的表格中,我們列出了一些路徑表達式,以及這些表達式的結果:
| 路徑表達式 | 結果 |
|---|---|
| //book/title | //book/price | 選取 book 元素的所有 title 和 price 元素。 |
| //title | //price | 選取文檔中的所有 title 和 price 元素。 |
| /bookstore/book/title | //price | 選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。 |
這些就是xpath的語法內容
在運用到python抓取時要先轉換為xml
Import lxml #首先要先導入庫
etree.HTML() #這個就是轉換為xml的python的語法,HTML括號內填入目標站點的源碼,可以參照另一篇博文,《爬蟲下載百度貼吧圖片》
之后各位就可以抓取指定的內容了
xpath語法
一、選取節點
常用的路徑表達式:
| 表達式 | 描述 | 實例 | |
|---|---|---|---|
| nodename | 選取nodename節點的所有子節點 | xpath(‘//div’) | 選取了div節點的所有子節點 |
| / | 從根節點選取 | xpath(‘/div’) | 從根節點上選取div節點 |
| // | 選取所有的當前節點,不考慮他們的位置 | xpath(‘//div’) | 選取所有的div節點 |
| . | 選取當前節點 | xpath(‘./div’) | 選取當前節點下的div節點 |
| .. | 選取當前節點的父節點 | xpath(‘..’) | 回到上一個節點 |
| @ | 選取屬性 | xpath(’//@class’) | 選取所有的class屬性 |
二、謂語
謂語被嵌在方括號內,用來查找某個特定的節點或包含某個制定的值的節點
實例:
| 表達式 | 結果 |
|---|---|
| xpath(‘/body/div[1]’) | 選取body下的第一個div節點 |
| xpath(‘/body/div[last()]’) | 選取body下最后一個div節點 |
| xpath(‘/body/div[last()-1]’) | 選取body下倒數第二個div節點 |
| xpath(‘/body/div[positon()<3]’) | 選取body下前兩個div節點 |
| xpath(‘/body/div[@class]’) | 選取body下帶有class屬性的div節點 |
| xpath(‘/body/div[@class=”main”]’) | 選取body下class屬性為main的div節點 |
| xpath(‘/body/div[price>35.00]’) | 選取body下price元素值大於35的div節點 |
三、通配符
Xpath通過通配符來選取未知的XML元素
| 表達式 | 結果 |
|---|---|
| xpath(’/div/*’) | 選取div下的所有子節點 |
| xpath(‘/div[@*]’) | 選取所有帶屬性的div節點 |
四、取多個路徑
使用“|”運算符可以選取多個路徑
| 表達式 | 結果 |
|---|---|
| xpath(‘//div|//table’) | 選取所有的div和table節點 |
五、Xpath軸
軸可以定義相對於當前節點的節點集
| 軸名稱 | 表達式 | 描述 |
|---|---|---|
| ancestor | xpath(‘./ancestor::*’) | 選取當前節點的所有先輩節點(父、祖父) |
| attribute | xpath(‘./attribute::*’) | 選取當前節點的所有屬性 |
| child | xpath(‘./child::*’) | 返回當前節點的所有子節點 |
| descendant | xpath(‘./descendant::*’) | 返回當前節點的所有后代節點(子節點、孫節點) |
| following | xpath(‘./following::*’) | 選取文檔中當前節點結束標簽后的所有節點 |
| following-sibing | xpath(‘./following-sibing::*’) | 選取當前節點之后的兄弟節點 |
| parent | xpath(‘./parent::*’) | 選取當前節點的父節點 |
| preceding | xpath(‘./preceding::*’) | 選取文檔中當前節點開始標簽前的所有節點 |
| preceding-sibling | xpath(‘./preceding-sibling::*’) | 選取當前節點之前的兄弟節點 |
| self | xpath(‘./self::*’) | 選取當前節點 |
六、功能函數
使用功能函數能夠更好的進行模糊搜索
| 函數 | 用法 | 解釋 |
|---|---|---|
| starts-with | xpath(‘//div[starts-with(@id,”ma”)]‘) | 選取id值以ma開頭的div節點 |
| contains | xpath(‘//div[contains(@id,”ma”)]‘) | 選取id值包含ma的div節點 |
| and | xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘) | 選取id值包含ma和in的div節點 |
| text() | xpath(‘//div[contains(text(),”ma”)]‘) | 選取節點文本包含ma的div節點 |
