在做大型的爬蟲時,re表達式往往效率不高,scrapy框架為爬蟲提供了很好的爬蟲方法
scrapy提取數據時有一套自己的機制,即selectors,一般通過特定的XPath,或者特定
的CSS表達式來進行提取HTML中的部分。
Xpath使用在XML文檔中,用來對文檔中的元素和屬性歷遍,此時XML時被當作節點樹
來對待,它包括元素、屬性、文本、命名空間、處理指令、注釋、根節點(文檔節點)
xpath使用表達路徑在xml文檔中選取節點
nodename:選取此節點的所有子節點
/:從根節點選取
//:從匹配選擇的當前節點選擇文檔中的節點,不考慮位置
.:選取當前節點
..:選取
