python之beautifulsoap知識點


        beautifusoap庫簡稱bs在爬蟲中比較方便。

1.  find_all()函數返回的是list,即使只有一個數據,find()函數返回的是查找到的第一個數據。

2. 如果查找抓取數據div的參數屬性,可以通過div[屬性]或者div.attrs或者div.get(屬性)等方法。其中attrs是一個字典形式,需要繼續提取

3.  div.string 使用這個需要這樣的條件:div標簽里面有且僅有一個內容。如果div標簽或者其子標簽也有內容,則可以使用div.strings,其返回為列表。

4. div.contents 抓取div的所有直接子節點,以list形式;div.children與contents雷同,只是其輸出為生成器,需要使用for。div.descendants 抓取div的所有子節點,從大到小。這三個關鍵字抓取的數據較雜

5. div.parent 和div.parents較簡單

6. div.next_sibling 和div.previous_sibling 是前后兄弟節點,分等級的

7.next_element 是下一節點,部分等級,就是下一個tag,可以遍歷文檔中所有的內嵌節點


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM