BeautifulSoup
對象支持使用CSS選擇器查找標簽。這些選擇器是CSS語言中使用的指定HTML Tag樣式的方式。
下面是一些例子:
p a
— 在p標記中找到所有的a標簽。body p a
— 在body標記內的p標記內查找所有a標簽。html body
— 查找html標記內的body標簽。p.outer-text
— 查找帶有類是outer-text
所有p標記。p#first
— 查找id為first
的所有p標簽。body p.outer-text
— 在body標記中查找類是outer-text
的p標簽。
使用CSS選擇器查找標簽,可以使用select
方法:
import requests from bs4 import BeautifulSoup page = requests.get("https://kevinhwu.github.io/demo/python-scraping/simple2.html") soup = BeautifulSoup(page.content, 'html.parser') soup.select("div p")
輸出
[<p class="inner-text first-item" id="first"> First paragraph. </p>, <p class="inner-text"> Second paragraph. </p>]
注意,上面的select
方法返回一個BeautifulSoup
對象列表,就像find
和find_all
一樣。