python 之 BeautifulSoup 常用提取


一、bs4信息提取后返回的數據類型

soup.find('tbody')            ---> 返回結構是一個bs4.element.Tag

soup.find('tbody').children   ---> 返回結果是一個 list.iter



二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取

舉例標簽:

<tbody>
    <tr>
        <td>1<td>
        <td>清華大學<td>
        <td>北京市<td>
        <td>98.00<td>
        <td>100.00<td>
        <td>-1<td>
    <tr>
</tbody>


(1)查找html中所有'tbody'標簽;

>>>> soup.find_all('tbody')


(2)查找html中tbody標簽的所有<tr>子標簽,是所有的<tr>。

>>>> soup.find('tbody').children


(3)查找html文檔中第一個tbody標簽

>>>> soup.find('tbody')



三、 常用查找之"名稱"、"屬性"、"字符串"信息提取

舉例標簽:

<img src = 'http://www.abc.com/123.jpg'>

 

(1) tag.name
>>>> 標簽名稱提取

(2) tag.get('attrs')    

>>>> tag標簽中屬性內容提取,比如圖片鏈接提取:

>>>> for x in soup.find_all('img'):
         x.get('src')

 
(3)tag.string
>>>> tag標簽中所有字符串提取。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM