python爬蟲數據提取之bs4的使用方法

本文轉載自查看原文 2020-06-16 15:49 1256 爬蟲從入門到入獄

1.下載

pip install bs4 
pip install lxml # 解析器 官方推薦

2.引用方法

from bs4 import BeautifulSoup # 引入我們的主題

3.解析原理

4.使用方法

將一段文檔傳入BeautifulSoup 的構造方法,就能得到一個文檔的對象, 可以傳入一段字符串或一個文件句柄

soup = BeautifulSoup(open("index.html"),'lxml') # 文件句柄

soup = BeautifulSoup("<html>data</html>",'lxml') # 網頁源數據

tag

純標簽定位

soup.tagName:定位到第一個TagName標簽,返回的是單數

屬性定位

屬性定位:soup.find('tagName',attrName='value'),返回也是單數(第一個元素)
find_all:和find用法一致,但是返回值是列表
注:attrname中查詢class字段為class_,id為id

selector

返回值為列表

選擇器定位:select('選擇器')
返回值類型為bs4.element.ResultSet
標簽,類,id,層級(>:一個層級,空格:多個層級)

5.注意事項

只有bs4.element.Tag對象才擁有上述的方法和屬性,select返回的對象集合是不具有該屬性和方法,通過索引拿到對應的Tag對象才能進行數據提取操作

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲BS4庫的解析器正確使用方法 python爬蟲的頁面數據解析和提取/xpath/bs4/jsonpath/正則(2) python爬蟲的頁面數據解析和提取/xpath/bs4/jsonpath/正則(1) python bs4的使用 Python網絡爬蟲(數據解析-bs4模塊) 爬蟲-使用BeautifulSoup4（bs4）解析html數據【Python 庫】bs4的使用 Python爬蟲bs4解析實戰 Python爬蟲准備——requests和bs4安裝 python爬蟲基礎_requests和bs4