python 之 BeautifulSoup 常用提取

本文轉載自查看原文 2017-03-31 01:19 6560 python學習

一、bs4信息提取后返回的數據類型

soup.find('tbody')            ---> 返回結構是一個bs4.element.Tag

soup.find('tbody').children   ---> 返回結果是一個 list.iter

二、常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取

舉例標簽：

<tbody>
    <tr>
        <td>1<td>
        <td>清華大學<td>
        <td>北京市<td>
        <td>98.00<td>
        <td>100.00<td>
        <td>-1<td>
    <tr>
</tbody>

（1）查找html中所有'tbody'標簽；

>>>> soup.find_all('tbody')

（2）查找html中tbody標簽的所有<tr>子標簽，是所有的<tr>。

>>>> soup.find('tbody').children

（3）查找html文檔中第一個tbody標簽

>>>> soup.find('tbody')

三、常用查找之"名稱"、"屬性"、"字符串"信息提取

舉例標簽：

<img src = 'http://www.abc.com/123.jpg'>

（1） tag.name
>>>> 標簽名稱提取

（2） tag.get('attrs')

>>>> tag標簽中屬性內容提取，比如圖片鏈接提取：

>>>> for x in soup.find_all('img'):
         x.get('src')

（3）tag.string
>>>> tag標簽中所有字符串提取。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python beautifulsoup提取cdata數據 python 之 BeautifulSoup標簽查找與信息提取 Python網絡爬蟲與信息提取（二）—— BeautifulSoup python——beautifulsoup標簽搜索以及信息提取 Python【BeautifulSoup解析和提取網頁數據】 Python中BeautifulSoup中對HTML標簽的提取 Python之BeautifulSoup常用詳細使用 [譯]使用BeautifulSoup和Python從網頁中提取文本 python爬蟲學習(一)：BeautifulSoup庫基礎及一般元素提取方法 Python爬蟲常用模塊，BeautifulSoup筆記