在爬蟲中,我們經常使用xpath來對元素進行定位,xpath定位分為兩種,一種是絕對定位,/html/body/div[2]/div[1]/div/div[3]/a[7],另外一種是相對定位,比如r'//*[@id ='ul' ]/a[7]'
通常我們可以通過開發者工具,復制元素對應的xpath,這種xpath都是絕對定位,方便獲取,但是絕對路徑太長,如果里面元素被隱藏了或者元素有變動的話,絕對定位就會出錯,就會出現定位不到的情況。這個時候用相對定位可以解決這個問題,相對定位更精准,相對定位通常可以和id或者class-name結合使用。
方法,我們可以將我們寫的xpath 放到開發者工具里,看是不是能定位到,如果能定位到,說明不是xpath定位的問題。
還有的情況是頁面幾個元素的xpah一模一樣,這個我們可以用下標解決,舉例
現在我們要抓取的是華東地區這個標簽,但是問題是華北中心,華南中心,華東中心的三個標簽的xpah是一樣的。都是//*[@id="common.query_case_list_DW_CDptCdes"] 。這個時候我們選擇華東中心,可以通過下標定位,既是
//*[@id="common.query_case_list_DW_CDptCdes"][3] 這樣就可以了。
另外看標簽是否選中,還有一個小知識點,就是 is_selected(),如果返回true 則表名被選中,如果返回false ,則表名未被選中
browser.find_element_by_xpath('//*[@id="report.report_loss_type_DW_HasGds"]').is_selected()
下面的是一位大神總結的:
什么是xpath呢?
官方介紹:XPath即為XML路徑語言,它是一種用來確定XML1(標准通用標記語言3的子集)文檔中某部分位置的語言。反正小編看這個介紹是雲里霧里的,通俗一點講就是通過元素的路徑來查找到這個元素的,相當於通過定位一個對象的坐標,來找到這個對象。
一、xpath:屬性定位
- xptah也可以通過元素的id、name、class這些屬性定位,如下圖
2.於是可以用以下xpath方法定位
二、xpath:其它屬性
1.如果一個元素id、name、class屬性都沒有,這時候也可以通過其它屬性定位到
三、xpath:標簽
1.有時候同一個屬性,同名的比較多,這時候可以通過標簽篩選下,定位更准一點
2.如果不想制定標簽名稱,可以用*號表示任意標簽
3.如果想制定具體某個標簽,就可以直接寫標簽名稱
四、xpath:層級
1.如果一個元素,它的屬性不是很明顯,無法直接定位到,這時候我們可以先找它老爸(父元素)
2.找到它老爸后,再找下個層級就能定位到了
3.如上圖所示,要定位的是input這個標簽,它的老爸的id=s_kw_wrap.
4.要是它老爸的屬性也不是很明顯,就找它爺爺id=form
5.於是就可以通過層級關系定位到
五、xpath:索引
1.如果一個元素它的兄弟元素跟它的標簽一樣,這時候無法通過層級定位到。因為都是一個父親生的,多胞胎兄弟。
2.雖然雙胞胎兄弟很難識別,但是出生是有先后的,於是可以通過它在家里的排行老幾定位到。
3.如下圖三胞胎兄弟
4.用xpath定位老大、老二和老三(這里索引是從1開始算起的,跟Python的索引不一樣)
六、xpath:邏輯運算
1.xpath還有一個比較強的功能,是可以多個屬性邏輯運算的,可以支持與(and)、或(or)、非(not)
2.一般用的比較多的是and運算,同時滿足兩個屬性
七、xpath:模糊匹配
1.xpath還有一個非常強大的功能,模糊匹配
2.掌握了模糊匹配功能,基本上沒有定位不到的
3.比如我要定位百度頁面的超鏈接“hao123”,在上一篇中講過可以通過by_link,也可以通過by_partial_link,模糊匹配定位到。當然xpath也可以有同樣的功能,並且更為強大。
可以把xpath看成是元素定位界的屠龍刀。武林至尊,寶刀xpath,css不出,誰與爭鋒?下節課將亮出倚天劍css定位。
原文鏈接https://www.cnblogs.com/wanghaihong200/p/8461770.html