使用Beautiful Soup扒取指定標題


# coding:utf-8
import requests
from bs4 import BeautifulSoup
BASE_LIB='html5lib'
UA='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
HEADERS={'user-agent':UA}
url='http://www.runoob.com/'
resp = requests.get(url, headers=HEADERS) #向指定的url發出請求得到響應對象resp
text = resp.text.encode('iso-8859-1').decode('utf-8') #通過resp對象的text可以得到響應文本,但需要字符編碼的轉換
bs = BeautifulSoup(text, BASE_LIB)  # 如果不使用html5lib,系統默認會使用lxml,beautiful soup就是html解析器
divs=bs.select('div.col.middle-column-home > div') #獲取符合css選擇器內容,得到一個list
for div in divs[:10]: #只取前10個(pc端)分類,后面是移動端
    h4s=div.select('h4') #從每個分類中找出h4標題
    for h4 in h4s:
        print h4.text

從菜鳥教程中扒取的標題截圖:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM