用Python寫一個爬蟲,用BeautifulSoup解析html。
其中一個地方需要抓取下面兩類標簽:
<dd class="ab " >blabla1</dd>
<dd class="ab cd" >blabla2</dd>
第一類class的值的末尾有一個空格。
第二類class的值中間有一個空格,而且開頭部分和第一類相同。
在css中,class的值不應該有空格,所以第一類會忽略空格,第二類會被當做多值屬性。參考官方文檔多值屬性。
所以在處理時也不需再考慮class值中的空格。
傳入參數時用列表過濾器是最方便的,如下:
soup.find_all("dd", class_= ["ab", "cd"])