xpath定位不到原因淺析


在爬蟲中,我們經常使用xpath來對元素進行定位,xpath定位分為兩種,一種是絕對定位,/html/body/div[2]/div[1]/div/div[3]/a[7],另外一種是相對定位,比如r'//*[@id ='ul' ]/a[7]' 

通常我們可以通過開發者工具,復制元素對應的xpath,這種xpath都是絕對定位,方便獲取,但是絕對路徑太長,如果里面元素被隱藏了或者元素有變動的話,絕對定位就會出錯,就會出現定位不到的情況。這個時候用相對定位可以解決這個問題,相對定位更精准,相對定位通常可以和id或者class-name結合使用。

方法,我們可以將我們寫的xpath 放到開發者工具里,看是不是能定位到,如果能定位到,說明不是xpath定位的問題。

還有的情況是頁面幾個元素的xpah一模一樣,這個我們可以用下標解決,舉例

 

 現在我們要抓取的是華東地區這個標簽,但是問題是華北中心,華南中心,華東中心的三個標簽的xpah是一樣的。都是//*[@id="common.query_case_list_DW_CDptCdes"] 。這個時候我們選擇華東中心,可以通過下標定位,既是

//*[@id="common.query_case_list_DW_CDptCdes"][3] 這樣就可以了。

另外看標簽是否選中,還有一個小知識點,就是 is_selected(),如果返回true 則表名被選中,如果返回false ,則表名未被選中

browser.find_element_by_xpath('//*[@id="report.report_loss_type_DW_HasGds"]').is_selected()
下面的是一位大神總結的:

什么是xpath呢?

官方介紹:XPath即為XML路徑語言,它是一種用來確定XML1標准通用標記語言3的子集)文檔中某部分位置的語言。反正小編看這個介紹是雲里霧里的,通俗一點講就是通過元素的路徑來查找到這個元素的,相當於通過定位一個對象的坐標,來找到這個對象。

一、xpath:屬性定位

  1. xptah也可以通過元素的id、name、class這些屬性定位,如下圖

 

    2.於是可以用以下xpath方法定位

 

二、xpath:其它屬性

    1.如果一個元素id、name、class屬性都沒有,這時候也可以通過其它屬性定位到


三、xpath:標簽

    1.有時候同一個屬性,同名的比較多,這時候可以通過標簽篩選下,定位更准一點

    2.如果不想制定標簽名稱,可以用*號表示任意標簽

    3.如果想制定具體某個標簽,就可以直接寫標簽名稱

 

四、xpath:層級

    1.如果一個元素,它的屬性不是很明顯,無法直接定位到,這時候我們可以先找它老爸(父元素)

    2.找到它老爸后,再找下個層級就能定位到了

    3.如上圖所示,要定位的是input這個標簽,它的老爸的id=s_kw_wrap.

    4.要是它老爸的屬性也不是很明顯,就找它爺爺id=form

    5.於是就可以通過層級關系定位到

 

五、xpath:索引

    ​1.如果一個元素它的兄弟元素跟它的標簽一樣,這時候無法通過層級定位到。因為都是一個父親生的,多胞胎兄弟。

    ​2.雖然雙胞胎兄弟很難識別,但是出生是有先后的,於是可以通過它在家里的排行老幾定位到。

    ​3.如下圖三胞胎兄弟

 

    ​4.用xpath定位老大、老二和老三(這里索引是從1開始算起的,跟Python的索引不一樣)

 

六、xpath:邏輯運算

    ​1.xpath還有一個比較強的功能,是可以多個屬性邏輯運算的,可以支持與(and)、或(or)、非(not)

    ​2.一般用的比較多的是and運算,同時滿足兩個屬性

 

 

七、xpath:模糊匹配

    ​1.xpath還有一個非常強大的功能,模糊匹配

    ​2.掌握了模糊匹配功能,基本上沒有定位不到的

    ​3.比如我要定位百度頁面的超鏈接“hao123”,在上一篇中講過可以通過by_link,也可以通過by_partial_link,模糊匹配定位到。當然xpath也可以有同樣的功能,並且更為強大。

 

可以把xpath看成是元素定位界的屠龍刀。武林至尊,寶刀xpath,css不出,誰與爭鋒?下節課將亮出倚天劍css定位。

 原文鏈接https://www.cnblogs.com/wanghaihong200/p/8461770.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM