一、bs4信息提取后返回的數據類型
soup.find('tbody') ---> 返回結構是一個bs4.element.Tag soup.find('tbody').children ---> 返回結果是一個 list.iter
二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取
舉例標簽:
<tbody>
<tr>
<td>1<td>
<td>清華大學<td>
<td>北京市<td>
<td>98.00<td>
<td>100.00<td>
<td>-1<td>
<tr>
</tbody>
(1)查找html中所有'tbody'標簽;
>>>> soup.find_all('tbody')
(2)查找html中tbody標簽的所有<tr>子標簽,是所有的<tr>。
>>>> soup.find('tbody').children
(3)查找html文檔中第一個tbody標簽
>>>> soup.find('tbody')
三、 常用查找之"名稱"、"屬性"、"字符串"信息提取
舉例標簽:
<img src = 'http://www.abc.com/123.jpg'>
(1) tag.name
>>>> 標簽名稱提取
(2) tag.get('attrs')
>>>> tag標簽中屬性內容提取,比如圖片鏈接提取:
>>>> for x in soup.find_all('img'):
x.get('src')
(3)tag.string
>>>> tag標簽中所有字符串提取。
