關於爬取異步加載的頁面


        在爬取網站時常遇到異步加載的情況,必須點擊或者下拉滾動條才會加載出更多的圖片或視頻,在源碼中卻一片空白,我一開始遇到時候也有點懵,了解了就好,還是請求。學過一些前端知識的朋友都清楚其實就是ajax異步加載js,這是為了提高用戶的體驗,許多網站都使用這種方法。

        究其根本,其實就是將這部分請求放在了后台,查看的話,按F12然后F5刷新頁面,在Network標簽下都會顯示出來,比如下面這個網站。


      隨便點一個發現看下啥情況


        好吧,其實就是個get請求罷了,只是將正常的點擊翻頁查詢變成了下拉查詢,多了一步數據加載罷了但本質上還是一些url按順序增加頁數,也就是說不用管外面的網站鏈接,直接找到翻頁的js的鏈接,把它當做源碼,直接獲得對應頁面里的圖片或視頻鏈接(可能需要拼接),嗯,還有修改js鏈接里哪個參數可以達到翻頁效果。


        對了,上圖的js內容是瀏覽器美化后的,實際效果如下圖,,,哈哈,沒法看是吧,想用正則或xpath之類匹配其中需要的信息前最好把內容復制js美化工具的網頁中點擊美化會規范排列滴,然后再分析匹配。


         直接百度  js美化工具  就好,有很多,推薦個我常用的https://tool.lu/js/,請看效果圖


           搞定,收工~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM