xpath獲取當前標簽下的所有文本


舉個栗子,也是在下爬新浪微博移動端時遇到的問題,微博評論有普通評論、回復他人評論和熱門評論,詳情:

普通評論

回復他人評論

 熱門評論

 用戶評論內容都在<span class="ctt"></span>中,其中,普通評論和熱門評論內容都很容易提取,采用.xpath['span[@class='ctt']/text()']即可

 但回復他人評論的內容被分割成三個部分,要全部獲取代碼如下

1 test= comment.xpath(".//span[@class='ctt']")
2 result = test[0].xpath('string(.)').strip()

就可提取出:“回復@仙兒哥哥:您好,小v私信您了解下,請您查看下消息”

注:".//span[@class='ctt']"中的“.”表示選取當前節點,必須有!參考的下文鏈接中沒有“.”,經試驗只能爬取到子標簽下的全部文本,有需要提取子標簽下全部文本的可自行去掉“.”

參考:https://blog.csdn.net/qq_39429962/article/details/84196938

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM