# coding:utf-8 import requests from bs4 import BeautifulSoup BASE_LIB='html5lib' UA='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36' HEADERS={'user-agent':UA} url='http://www.runoob.com/' resp = requests.get(url, headers=HEADERS) #向指定的url發出請求得到響應對象resp text = resp.text.encode('iso-8859-1').decode('utf-8') #通過resp對象的text可以得到響應文本,但需要字符編碼的轉換 bs = BeautifulSoup(text, BASE_LIB) # 如果不使用html5lib,系統默認會使用lxml,beautiful soup就是html解析器 divs=bs.select('div.col.middle-column-home > div') #獲取符合css選擇器內容,得到一個list for div in divs[:10]: #只取前10個(pc端)分類,后面是移動端 h4s=div.select('h4') #從每個分類中找出h4標題 for h4 in h4s: print h4.text
從菜鳥教程中扒取的標題截圖:

