關於python中selector問題


在做大型的爬蟲時,re表達式往往效率不高,scrapy框架為爬蟲提供了很好的爬蟲方法

scrapy提取數據時有一套自己的機制,即selectors,一般通過特定的XPath,或者特定

的CSS表達式來進行提取HTML中的部分。

Xpath使用在XML文檔中,用來對文檔中的元素和屬性歷遍,此時XML時被當作節點樹

來對待,它包括元素、屬性、文本、命名空間、處理指令、注釋、根節點(文檔節點)

xpath使用表達路徑在xml文檔中選取節點

nodename:選取此節點的所有子節點

/:從根節點選取

//:從匹配選擇的當前節點選擇文檔中的節點,不考慮位置

.:選取當前節點

..:選取


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM