十五 web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

本文轉載自查看原文 2018-01-03 10:45 967 python 爬蟲

在urllib中，我們一樣可以使用xpath表達式進行信息提取，此時，你需要首先安裝lxml模塊，然后將網頁數據通過lxml下的etree轉化為treedata的形式

urllib庫中使用xpath表達式

etree.HTML()將獲取到的html字符串，轉換成樹形結構，也就是xpath表達式可以獲取的格式

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #導入html樹形結構轉換模塊

wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #將獲取到的html字符串，轉換成樹形結構，也就是xpath表達式可以獲取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通過xpath表達式獲取標題

#注意，xpath表達式獲取到數據，有時候是列表，有時候不是列表所以要做如下處理
if str(type(hqq)) == "<class 'list'>":  #判斷獲取到的是否是列表
    print(hqq)
else:
    xh_hqq = [i for i in hqq]       #如果不是列表，循環數據組合成列表
    print(xh_hqq)


#返回 ：['【今日爆點】你的專屬資訊平台']

BeautifulSoup基礎

BeautifulSoup是獲取thml元素的模塊

BeautifulSoup-3.2.1版本

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Python爬蟲】：Xpath表達式的使用六 web爬蟲講解2—urllib庫爬蟲—基礎使用—超時設置—自動模擬http請求爬蟲之使用chrome驗證xpath表達式在xpath中使用正則表達式爬蟲基礎庫之beautifulsoup的簡單使用 Python爬蟲基礎（一）urllib2庫的基本使用 xpath語法、lxml模塊、beautifulsoup4、正則表達式和re模塊 XPATH表達式寫法 Xpath表達式的粗介紹爬蟲（四）：BeautifulSoup庫的使用