soup.select的用法

本文轉載自查看原文 2019-12-11 23:07 532

1、通過標簽選擇

 
            # 選擇所有title標簽
soup.select("title")
# 選擇所有p標簽中的第三個標簽
soup.select("p:nth-of-type(3)") 相當於soup.select(p)[2]
# 選擇body標簽下的所有a標簽
soup.select("body a")
# 選擇body標簽下的直接a子標簽
soup.select("body > a")
# 選擇id=link1后的所有兄弟節點標簽
soup.select("#link1 ~ .mysis")
# 選擇id=link1后的下一個兄弟節點標簽
soup.select("#link1 + .mysis") 
           

　　2、通過類名查找

# 選擇a標簽，其類屬性為mysis的標簽
soup.select("a.mysis")

　　3、通過id查找

# 選擇a標簽，其id屬性為link1的標簽
soup.select("a#link1")

　　4、通過【屬性】查找，當然也適用於class

# 選擇a標簽，其屬性中存在myname的所有標簽
soup.select("a[myname]")
# 選擇a標簽，其屬性href=http://example.com/lacie的所有標簽
soup.select("a[href='http://example.com/lacie']")
# 選擇a標簽，其href屬性以http開頭
soup.select('a[href^="http"]')
# 選擇a標簽，其href屬性以lacie結尾
soup.select('a[href$="lacie"]')
# 選擇a標簽，其href屬性包含.com
soup.select('a[href*=".com"]')
# 從html中排除某標簽，此時soup中不再有script標簽
[s.extract() for s in soup('script')]
# 如果想排除多個呢
[s.extract() for s in soup(['script','fram']

1、通過標簽選擇

 
                 # 選擇所有title標簽 
                
                 soup. 
                 select 
                 ( 
                 "title" 
                 ) 
                
                 # 選擇所有p標簽中的第三個標簽 
                
                 soup. 
                 select 
                 ( 
                 "p:nth-of-type(3)" 
                 ) 相當於soup. 
                 select 
                 (p)[2] 
                
                 # 選擇body標簽下的所有a標簽 
                
                 soup. 
                 select 
                 ( 
                 "body a" 
                 ) 
                
                 # 選擇body標簽下的直接a子標簽 
                
                 soup. 
                 select 
                 ( 
                 "body > a" 
                 ) 
                
                 # 選擇id=link1后的所有兄弟節點標簽 
                
                 soup. 
                 select 
                 ( 
                 "#link1 ~ .mysis" 
                 ) 
                
                 # 選擇id=link1后的下一個兄弟節點標簽 
                
                 soup. 
                 select 
                 ( 
                 "#link1 + .mysis" 
                 )

　　2、通過類名查找

 
                 # 選擇a標簽，其類屬性為mysis的標簽 
                
                 soup. 
                 select 
                 ( 
                 "a.mysis" 
                 )

　　3、通過id查找

 
                 # 選擇a標簽，其id屬性為link1的標簽 
                
                 soup. 
                 select 
                 ( 
                 "a#link1" 
                 )

　　4、通過【屬性】查找，當然也適用於class

 
                 # 選擇a標簽，其屬性中存在myname的所有標簽 
                
                 soup. 
                 select 
                 ( 
                 "a[myname]" 
                 ) 
                
                 # 選擇a標簽，其屬性href=http://example.com/lacie的所有標簽 
                
                 soup. 
                 select 
                 ( 
                 "a[href='http://example.com/lacie']" 
                 ) 
                
                 # 選擇a標簽，其href屬性以http開頭 
                
                 soup. 
                 select 
                 ( 
                 'a[href^="http"]' 
                 ) 
                
                 # 選擇a標簽，其href屬性以lacie結尾 
                
                 soup. 
                 select 
                 ( 
                 'a[href$="lacie"]' 
                 ) 
                
                 # 選擇a標簽，其href屬性包含.com 
                
                 soup. 
                 select 
                 ( 
                 'a[href*=".com"]' 
                 ) 
                
                 # 從html中排除某標簽，此時soup中不再有script標簽 
                
                 [s.extract()  
                 for 
                 s  
                 in 
                 soup( 
                 'script' 
                 )]  
                
                 # 如果想排除多個呢 
                
                 [s.extract()  
                 for 
                 s  
                 in 
                 soup([ 
                 'script' 
                 , 
                 'fram' 
                 ]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 記錄BeautifulSoup中soup.select的用法 Python爬蟲利器二之Beautiful Soup的用法 beautiful soup 的select 選擇器使用時報錯 TypeError: 'NoneType' object is not callable SQL - SELECT COUNT用法 CollectionUtils.select用法 SQL insert into select 用法 select 語句中 if 的用法 MySQL select into outfile用法 Linq 之 Select 和 where 的用法 LINQ學習：Select的用法