使用Beautiful Soup扒取指定標題

本文轉載自查看原文 2017-11-29 09:51 1050 大數據/ Python

# coding:utf-8
import requests
from bs4 import BeautifulSoup
BASE_LIB='html5lib'
UA='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
HEADERS={'user-agent':UA}
url='http://www.runoob.com/'
resp = requests.get(url, headers=HEADERS) #向指定的url發出請求得到響應對象resp
text = resp.text.encode('iso-8859-1').decode('utf-8') #通過resp對象的text可以得到響應文本，但需要字符編碼的轉換
bs = BeautifulSoup(text, BASE_LIB)  # 如果不使用html5lib,系統默認會使用lxml，beautiful soup就是html解析器
divs=bs.select('div.col.middle-column-home > div') #獲取符合css選擇器內容,得到一個list
for div in divs[:10]: #只取前10個（pc端）分類，后面是移動端
    h4s=div.select('h4') #從每個分類中找出h4標題
    for h4 in h4s:
        print h4.text

從菜鳥教程中扒取的標題截圖：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python Beautiful Soup的使用 etree和Beautiful Soup的使用 Python之Beautiful Soup 4使用實例 python爬蟲之Beautiful Soup的基本使用爬蟲之Beautiful Soup4(bs4)的基本使用 python之Beautiful Soup的基本用法爬蟲---Beautiful Soup 初始 Beautiful Soup 定位指南 JAVA獲取指定標簽的屬性值 beautiful soup的用法