十五 web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎


在urllib中,我們一樣可以使用xpath表達式進行信息提取,此時,你需要首先安裝lxml模塊,然后將網頁數據通過lxml下的etree轉化為treedata的形式

 

urllib庫中使用xpath表達式

etree.HTML()將獲取到的html字符串,轉換成樹形結構,也就是xpath表達式可以獲取的格式

復制代碼
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #導入html樹形結構轉換模塊

wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #將獲取到的html字符串,轉換成樹形結構,也就是xpath表達式可以獲取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通過xpath表達式獲取標題

#注意,xpath表達式獲取到數據,有時候是列表,有時候不是列表所以要做如下處理
if str(type(hqq)) == "<class 'list'>":  #判斷獲取到的是否是列表
    print(hqq)
else:
    xh_hqq = [i for i in hqq]       #如果不是列表,循環數據組合成列表
    print(xh_hqq)


#返回 :['【今日爆點】你的專屬資訊平台']
復制代碼

 

 

BeautifulSoup基礎

BeautifulSoup是獲取thml元素的模塊

BeautifulSoup-3.2.1版本

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM