python中使用XPath


轉載自:https://www.cnblogs.com/gaochsh/p/6757475.html

XPath在Python的爬蟲學習中,起着舉足輕重的地位,對比正則表達式 re兩者可以完成同樣的工作,實現的功能也差不多,但XPath明顯比re具有優勢,在網頁分析上使re退居二線。

XPath介紹: 
是什么? 全稱為XML Path Language 一種小型的查詢語言 
說道XPath是門語言,不得不說它所具備的優點: 
1) 可在XML中查找信息 
2) 支持HTML的查找 
3) 通過元素和屬性進行導航

python開發使用XPath條件: 
由於XPath屬於lxml庫模塊,所以首先要安裝庫lxml,具體的安裝過程可以查看博客,包括easy_install 和 pip 的安裝方法。

XPath的簡單調用方法:

from lxml import etree

selector=etree.HTML(源碼) #將源碼轉化為能被XPath匹配的格式

selector.xpath(表達式) #返回為一列表

 

XPath的使用方法: 
首先講一下XPath的基本語法知識: 
四種標簽的使用方法 
1) // 雙斜杠 定位根節點,會對全文進行掃描,在文檔中選取所有符合條件的內容,以列表的形式返回。 
2) / 單斜杠 尋找當前標簽路徑的下一層路徑標簽或者對當前路標簽內容進行操作 
3) /text() 獲取當前路徑下的文本內容 
4) /@xxxx 提取當前路徑下標簽的屬性值 
5) | 可選符 使用|可選取若干個路徑 如//p | //div 即在當前路徑下選取所有符合條件的p標簽和div標簽。 
6) . 點 用來選取當前節點 
7) .. 雙點 選取當前節點的父節點 
另外還有starts-with(@屬性名稱,屬性字符相同部分),string(.)兩種重要的特殊方法后面將重點講。

利用實例講解XPath的使用:

 

from lxml import etree
html="""
<!DOCTYPE html>
<html>
<head lang="en">
<title>測試</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<div id="content">
<ul id="ul">
<li>NO.1</li>
<li>NO.2</li>
<li>NO.3</li>
</ul>
<ul id="ul2">
<li>one</li>
<li>two</li>
</ul>
</div>
<div id="url">
<a href="http:www.58.com" title="58">58</a>
<a href="http:www.csdn.net" title="CSDN">CSDN</a>
</div>
</body>
</html>
"""
selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()') #這里使用id屬性來定位哪個div和ul被匹配 使用text()獲取文本內容
for i in content:
print i
#輸出為
NO.1
NO.2
NO.3

con=selector.xpath('//a/@href') #這里使用//從全文中定位符合條件的a標簽,使用“@標簽屬性”獲取a便簽的href屬性值
for each in con:
print each
#輸出結果為:
http:www.58.com
http:www.csdn.net

con=selector.xpath('/html/body/div/a/@title') #使用絕對路徑�20 <a href="http:www.csdn.2Fa/@title') #使用相對路徑定位 兩者效果是一樣的
print len(con)
print con[0]con[1]

#輸出結果為:
2
58 CSDN

 

介紹XPath的特殊用法: 
1) starts-with 解決標簽屬性值以相同字符串開頭的情況

舉例說明

from lxml import etree html=""" <body> <div id="aa">aa</div> <div id="ab">ab</div> <div id="ac">ac</div> </body> """ selector=etree.HTML(html) content=selector.xpath('//div[starts-with(@id,"a")]/text()') #這里使用starts-with方法提取div的id標簽屬性值開頭為a的div標簽 for each in content: print each #輸出結果為: aa ab ac

2) string(.) 標簽套標簽

html=""" <div id="a"> left <span id="b"> right <ul> up <li>down</li> </ul> east </span> west </div> """ #下面是沒有用string方法的輸出 sel=etree.HTML(html) con=sel.xpath('//div[@id="a"]/text()') for i in con: print i #輸出內容為left west data=sel.xpath('//div[@id="a"]')[0] info=data.xpath('string(.)') content=info.replace('\n','').replace(' ','') for i in content: print i #輸出為 全部內容

XPath提供的幾個特殊的方法: 
XPath中需要取的標簽如果沒有屬性,可以使用text(),posision()來識別標簽。

舉兩個簡單的例子:

from lxml import etree html=""" <div>hello <p>H</p> </div> <div>hehe</div> """ sel=etree.HTML(html) con=sel.xpath('//div[text()="hello"]/p/text()') print con[0] #H

這里使用text()的方法來判別是哪個div標簽

from lxml import etree html=""" <div>hello <p>H</p> <p>J</p> <p>I</p> </div> <div>hehe</div> """ sel=etree.HTML(html) con=sel.xpath('//div[text()="hello"]/p[posision()=2]/text()') print con[0] #J

另外,在XPath中可以使用多重過濾方法尋找標簽,例如ul[3][@id=”a”] 這里使用【3】來尋找第三個ul標簽 並且它的id屬性值為a

獲取XPath的方式有兩種: 
1) 使用以上等等的方法通過觀察找規律的方式來獲取XPath 
2) 使用Chrome瀏覽器來獲取 在網頁中右擊->選擇審查元素(或者使用F12打開) 就可以在elements中查看網頁的html標簽了,找到你想要獲取XPath的標簽,右擊->Copy XPath 就已經將XPath路徑復制到了剪切板。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM