xpath和lxml類庫
1. 為什么要學習xpath和lxml
lxml是一款高性能的 Python HTML/XML 解析器,我們可以利用XPath,來快速的定位特定元素以及獲取節點信息
2. 什么是xpath
XPath (XML Path Language) 是一門在 HTML\XML 文檔中查找信息的語言,可用來在 HTML\XML 文檔中對元素和屬性進行遍歷。
W3School官方文檔:http://www.w3school.com.cn/xpath/index.asp
3. 認識xml
3.1 html和xml的區別
3.2 xml的樹結構
<bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price> </book> </bookstore>
4. xpath的節點關系
4.1 xpath中的節點是什么
每個XML的標簽我們都稱之為節點,其中最頂層的節點稱為根節點。
4.2 xpath中節點的關系
5. xpath中節點選擇的工具
- Chrome插件 XPath Helper
- 下載地址:https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密碼:337b
- Firefox插件 XPath Checker
注意: 這些工具是用來學習xpath語法的,他們都是從elements中匹配數據,elements中的數據和url地址對應的響應不相同,所以在代碼中,不建議使用這些工具進行數據的提取.
6. xpath語法
6.1 選取節點
XPath 使用路徑表達式來選取 XML 文檔中的節點或者節點集。這些路徑表達式和我們在常規的電腦文件系統中看到的表達式非常相似。
使用chrome插件選擇標簽時候,選中時,選中的標簽會添加屬性class="xh-highlight"
實例
在下面的表格中,我已列出了一些路徑表達式以及表達式的結果
下來我們聽過豆瓣電影top250的頁面來練習上述語法:https://movie.douban.com/top250
- 選擇所有的h1下的文本
//h1/text()
- 獲取所有的a標簽的href
//a/@href
- 獲取html下的head下的title的文本
/html/head/title/text()
- 獲取html下的head下的link標簽的href
/html/head/link/@href
6.2 查找特定的節點
注意點: 在xpath中,第一個元素的位置是1,最后一個元素的位置是last(),倒數第二個是last()-1
6.3 選取未知節點
XPath 通配符可用來選取未知的 XML 元素。
* 匹配任何元素節點
@* 匹配任何屬性節點
node() 匹配任何類型的節點
實例
/bookstore/* 選取 bookstore 元素的所有子元素。
//* 選取文檔中所有的元素
//title[@*] 選取帶有屬性的title元素
6.4 選取若干路徑
通過在路徑表達式中使用“|”運算符,您可以選取若干個路徑。
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素。
//title | //price 選取所有的title或者price元素
/bookstore/book/title | //price 選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。
lxml模塊的學習
1. lxml的認識
在前面學習了xpath的語法,那么在代碼中我們如何使用xpath呢,對應的我們需要lxml
安裝方式:pip install lxml
2. lxml的使用
2.1 lxml模塊的入門使用
-
導入lxml 的 etree 庫 (導入沒有提示不代表不能用)
`from lxml import etree`
-
利用etree.HTML,將字符串轉化為Element對象,Element對象具有xpath的方法,返回結果的列表,能夠接受bytes類型的數據和str類型的數據
html = etree.HTML(text) ret_list = html.xpath("xpath字符串")
-
把轉化后的element對象轉化為字符串,返回bytes類型結果
etree.tostring(element)
假設我們現有如下的html字符換,嘗試對他進行操作
<div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標簽 </ul> </div> from lxml import etree text = ''' <div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> ''' html = etree.HTML(text) print(type(html)) handeled_html_str = etree.tostring(html).decode() print(handeled_html_str)
輸出為
<class 'lxml.etree._Element'> <html><body><div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </li></ul> </div> </body></html>
可以發現,lxml確實能夠把確實的標簽補充完成,但是請注意lxml是人寫的,很多時候由於網頁不夠規范,或者是lxml的bug,即使參考url地址對應的響應去提取數據,仍然獲取不到,這個時候我們需要使用etree.tostring的方法,觀察etree到底把html轉化成了什么樣子,即根據轉化后的html字符串去進行數據的提取。
2.2 lxml的深入練習
接下來我們繼續操作,假設每個class為item-1的li標簽是1條新聞數據,如何把這條新聞數據組成一個字典
from lxml import etree text = ''' <div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> ''' html = etree.HTML(text) #獲取href的列表和title的列表 href_list = html.xpath("//li[@class='item-1']/a/@href") title_list = html.xpath("//li[@class='item-1']/a/text()") #組裝成字典 for href in href_list: item = {} item["href"] = href item["title"] = title_list[href_list.index(href)] print(item)
輸出為:
{'href': 'link1.html', 'title': 'first item'} {'href': 'link2.html', 'title': 'second item'} {'href': 'link4.html', 'title': 'fourth item'}
2.3 lxml模塊的進階使用
前面我們取到屬性,或者是文本的時候,返回字符串
但是如果我們取到的是一個節點,返回的是element對象,可以繼續使用xpath方法,對此我們可以在后面的數據提取過程中:先根據某個標簽進行分組,分組之后再進行數據的提取
from lxml import etree text = ''' <div> <ul> <li class="item-1"><a>first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> ''' html = etree.HTML(text) li_list = html.xpath("//li[@class='item-1']") print(li_list)
可以發現結果是一個element對象,這個對象能夠繼續使用xpath方法,先根據li標簽進行分組,之后再進行數據的提取.
from lxml import etree text = ''' <div> <ul> <li class="item-1"><a>first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> ''' #根據li標簽進行分組 html = etree.HTML(text) li_list = html.xpath("//li[@class='item-1']") #在每一組中繼續進行數據的提取 for li in li_list: item = {} item["href"] = li.xpath("./a/@href")[0] if len(li.xpath("./a/@href"))>0 else None item["title"] = li.xpath("./a/text()")[0] if len(li.xpath("./a/text()"))>0 else None print(item)
以上提取數據的方式:先分組再提取,都會是我們進行數據的提取的主要方法.
3. 動手
用XPath來做一個簡單的爬蟲,爬取某個貼吧里的所有帖子,獲取每個帖子的標題,連接和帖子中圖片
思路分析:
-
推薦使用極速版的頁面,響應不包含js,elements和url地址對應的響應一樣
-
獲取所有的列表頁的數據即連接和標題
2.1. 確定url地址,確定程序停止的條件
url地址的數量不固定,不能夠去構造url列表,需要手動獲取下一頁的url地址進行翻頁.
2.2. 確定列表頁數據的位置
由於沒有js,可以直接從elements中進行數據的提取.
-
獲取帖子中的所有數據
3.1 確定url地址url詳情頁的規律和列表頁相似.
3.2 確定數據的位置
代碼如下:
# coding=utf-8 import requests from lxml import etree class TieBaSpider: def __init__(self,tieba_name): #1. start_url self.start_url= "http://tieba.baidu.com/mo/q---C9E0BC1BC80AA0A7CE472600CDE9E9E3%3AFG%3D1-sz%40320_240%2C-1-3-0--2--wapp_1525330549279_782/m?kw={}&lp=6024".format(tieba_name) self.headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Mobile Safari/537.36"} self.part_url = "http://tieba.baidu.com/mo/q---C9E0BC1BC80AA0A7CE472600CDE9E9E3%3AFG%3D1-sz%40320_240%2C-1-3-0--2--wapp_1525330549279_782" def parse_url(self,url): #發送請求,獲取響應 print(url) response = requests.get(url,headers=self.headers) return response.content def get_content_list(self,html_str): #3. 提取數據 html = etree.HTML(html_str) div_list = html.xpath("//body/div/div[contains(@class,'i')]") content_list = [] for div in div_list: item = {} item["href"] = self.part_url+div.xpath("./a/@href")[0] item["title"] = div.xpath("./a/text()")[0] item["img_list"] = self.get_img_list(item["href"],[]) content_list.append(item) #提取下一頁的url地址 next_url = html.xpath("//a[text()='下一頁']/@href") next_url =self.part_url+ next_url[0] if len(next_url)>0 else None return content_list,next_url def get_img_list(self,detail_url,img_list): #1. 發送請求,獲取響應 detail_html_str = self.parse_url(detail_url) #2. 提取數據 detail_html = etree.HTML(detail_html_str) img_list += detail_html.xpath("//img[@class='BDE_Image']/@src") #詳情頁下一頁的url地址 next_url = detail_html.xpath("//a[text()='下一頁']/@href") next_url =self.part_url+ next_url[0] if len(next_url)>0 else None if next_url is not None: #當存在詳情頁的下一頁,請求 return self.get_img_list(next_url,img_list) #else不用寫 img_list = [requests.utils.unquote(i).split("src=")[-1] for i in img_list] return img_list def save_content_list(self,content_list):#保存數據 for content in content_list: print(content) def run(self): #實現主要邏輯 next_url = self.start_url while next_url is not None: #1. start_url #2. 發送請求,獲取響應 html_str = self.parse_url(next_url) #3. 提取數據 content_list,next_url = self.get_content_list(html_str) #4。保存 self.save_content_list(content_list) #5.獲取next_url,循環2-5 if __name__ == '__main__': tieba = TieBaSpider("李毅") tieba.run()