最近一個朋友問我怎么把一個指定區域的內容轉成pdf,網上查了一下python里面有個wkhtmltopdf模塊可以將str、file、url轉成pdf,我們今天不聊怎么轉PDF,聊聊怎么獲取頁面中指定區域的html源碼。用到的模塊是lxml和requests這兩個模塊,沒有裝的小伙伴可以裝一下 pip install lxml requests
主要思想是利用xpath獲取到指定區域的Element對象,然后再將Element對象傳給etree.tostring(),即可得到指定區域的html代碼,看一下需求:
1、我們要得到 http://www.w3school.com.cn/ w3c首頁中的這個位置的html代碼:
看一下頁面源碼是這樣的
2、下面開始編碼:
1 from lxml import etree 2 import requests 3 4 res=requests.get('http://www.w3school.com.cn/') 5 tree=etree.HTML(res.content) 6 div=tree.xpath('//div[@id="d1"]')[0] 7 div_str=etree.tostring(div,encoding='utf-8') 8 print div_str
3、結果如下:
4、成功獲取到了指定區域的html代碼。