Python3 BeautifulSoup和Pyquery解析庫隨筆


BeautifuSoup和Pyquery解析庫方法比較

1.對象初始化:

  • BeautifySoup庫:
    1 from bs4 import BeautifulSoup
    2 
    3 html = 'html string......'
    4 soup = BeautifulSoup(html, 'lxml')
  • Pyquery庫:
    1 from pyquery import PyQuery as pq
    2 
    3 # 以字符串初始化
    4 html = 'html string...'
    5 doc = pq(html)
    6 # 以url初始化
    7 doc = pq(url='https://....')
    8 # 以文件初始化
    9 doc = pq(filename='XXX.html')

     

2. 節點屬性獲取:

  • BeautifuSoup庫:
    1 # 在根據節點選擇器、方法選擇器或者CSS選擇器,選擇出節點(例如:li)后,兩種方法獲取屬性值
    2 value = li['attr_name']
    3 value = li.attrs['attr_name']
  • Pyquery庫:
    1 # 在根據CSS選擇器定位到節點(例如li)后,兩種方法獲取屬性值
    2 value = li.attr.attr_name
    3 value = li.attr('attr_name')

     

3. 文本內容獲取

  • BeautifulSoup庫:
    # 在根據節點選擇器、方法選擇器或者CSS選擇器,選擇出節點(例如:li)后,兩種方法獲取屬性值
    text = li.string
    text = li.get_text()
  • Pyquery庫: 
    1 # 在根據CSS選擇器定位到節點(例如li)后
    2 text = li.text()

     

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM