爬蟲:網頁里元素的xpath結構,scrapy不一定就找的到


這種情況原因是html界面關聯的js文件可能會動態修改DOM結構,這樣瀏覽器完成了動態修改DOM,在 瀏覽器上看到的DOM結構,就和后台抓到的DOM結構不通

舉例:新浪微博發的微博,在瀏覽器通過firebug的插件FirePath可以很容易計算出xpath

通過Firefinder可以查看xpath的匹配情況

但是查看頁面的源代碼,可以發現,微博的內容都是包含在js里的FM.view里的,這些會被js動態生成DOM,但是抓取返回的內容都是下面這些內容,是還沒有生成DOM的

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM