HTML 遍歷
HTML基本格式:

1.下行遍歷:
屬性 |
說明 |
contents |
子節點的列表,將
所有兒子節點存入列表
|
children |
子節點的迭代類型,與.contents類似,用於循環遍歷兒子節點 |
descendants |
子孫節點的迭代類型,包含所有子孫節點,用於循環遍歷 |
##遍歷兒子結點
for child in soup.body.children:
print(child)
##遍歷子孫結點
for child in soup.body.descendants:
print(child)
2.上行遍歷:
屬性 |
說明 |
parent |
結點的父親標簽 |
parents |
節點先輩標簽的迭代類型,用於循環遍歷先輩節點 |
##遍歷父輩結點
for parent in soup.a.parents:
if parent is None:
print(parent)
else:
print(parent.name)
3. 平行遍歷
屬性 |
說明 |
next_sibling |
返回按照HTML文本順序的下一個平行節點標簽 |
previous_sibling |
返回按照HTML文本順序的上一個平行節點標簽 |
next_siblings |
迭代類型,返回按照HTML文本順序的后續所有平行節點標簽 |
previous_siblings |
迭代類型,返回按照HTML文本順序的前續所有平行節點標簽 |
注: 平行遍歷發生在同一個父節點下的各節點間
##遍歷后續結點
for sibling in soup.a.next_siblings:
print(sibling)
##遍歷前續結點
for sibling in soup.a.previous_siblings:
print(sibling)