每一個寫爬蟲、或者是做網頁分析的人,相信都會因為在定位、獲取xpath路徑上花費大量的時間,甚至有時候當爬蟲框架成熟之后,基本上主要的時間都花費在了頁面的解析上。在沒有這些輔助工具的日子里,我們只能通過搜索html源代碼,定位一些id去找到對應的位置,非常的麻煩,而且經常出錯。這里介紹一個chrome的xpath輔助插件給大家。
先給到下載鏈接:xpath-helper
安裝好之后,我們重新打開瀏覽器,按ctrl+shift+x就能調出xpath-helper框了。界面如下:
如果我們要查找某一個、或者某一塊元素的xpath路徑,可以按住shift,並移動到這一塊中,上面的框就會顯示這個元素的xpath路徑,右邊則會顯示解析出的文本內容,並且我們可以自己改動xpath路徑,程序也會自動的顯示對應的位置,可以很方便的幫助我們判斷我們的xpath語句是否書寫正確。
雖然這個小插件使用非常方便,但它也不是萬能的,有兩個問題:
1.XPath Helper 自動提取的 XPath 都是從根路徑開始的,這幾乎必然導致 XPath 過長,不利於維護;
2.當提取循環的列表數據時,XPath Helper 是使用的下標來分別提取的列表中的每一條數據,這樣並不適合程序批量處理,還是需要人為修改一些類似於*標記等。
不過,合理的使用Xpath,還是能幫我們省下很多時間的!