xpath獲取當前標簽下的所有文本

本文轉載自查看原文 2019-01-10 00:18 6761

舉個栗子，也是在下爬新浪微博移動端時遇到的問題，微博評論有普通評論、回復他人評論和熱門評論，詳情：

普通評論

回復他人評論

熱門評論

用戶評論內容都在<span class="ctt"></span>中，其中，普通評論和熱門評論內容都很容易提取，采用.xpath['span[@class='ctt']/text()']即可

但回復他人評論的內容被分割成三個部分，要全部獲取代碼如下

1 test= comment.xpath(".//span[@class='ctt']")
2 result = test[0].xpath('string(.)').strip()

就可提取出：“回復@仙兒哥哥：您好，小v私信您了解下，請您查看下消息”

注：".//span[@class='ctt']"中的“.”表示選取當前節點，必須有！參考的下文鏈接中沒有“.”,經試驗只能爬取到子標簽下的全部文本，有需要提取子標簽下全部文本的可自行去掉“.”

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 xpath提取多個標簽下的text 獲取某標簽下的某屬性中值 Java 獲取Html文本中的img標簽下src中的內容方法 xpath獲取當前標簽的兄弟節點，父節點(轉) 獲取文本中所有的標簽的位置，獲取所有img標簽的src xpath表達式，提取標簽下的全部內容（將其他標簽過濾） xpath提取網頁的所有href標簽 XPATH怎么獲取TITLE中有中文的標簽通過xpath獲取html中的特定標簽 jquery獲取span標簽下的第一個span子標簽內容