python xpath 獲取指定頁面中指定區域的html代碼

本文轉載自查看原文 2018-10-12 16:32 6672 Python xpath 爬蟲

　　最近一個朋友問我怎么把一個指定區域的內容轉成pdf，網上查了一下python里面有個wkhtmltopdf模塊可以將str、file、url轉成pdf，我們今天不聊怎么轉PDF，聊聊怎么獲取頁面中指定區域的html源碼。用到的模塊是lxml和requests這兩個模塊，沒有裝的小伙伴可以裝一下 pip install lxml requests

主要思想是利用xpath獲取到指定區域的Element對象，然后再將Element對象傳給etree.tostring()，即可得到指定區域的html代碼，看一下需求:

　　　　1、我們要得到 http://www.w3school.com.cn/ w3c首頁中的這個位置的html代碼：

　　　　　看一下頁面源碼是這樣的

　　　2、下面開始編碼：　　　　

1 from lxml import etree
2 import requests
3 
4 res=requests.get('http://www.w3school.com.cn/')
5 tree=etree.HTML(res.content)
6 div=tree.xpath('//div[@id="d1"]')[0]
7 div_str=etree.tostring(div,encoding='utf-8')
8 print div_str

3、結果如下：

4、成功獲取到了指定區域的html代碼。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Android Demo】獲取指定網頁的頁面源代碼 html2canvas實現截取指定區域或iframe的區域 Android 獲取html中指定標簽通過xpath獲取頁面html代碼 git獲取指定release版本代碼 GIT 獲取指定歷史版本代碼 git 如何獲取指定版本代碼 [Git] 獲取指定的歷史版本代碼 python爬蟲使用Xpath爬取指定位置的內容 NCBI獲取指定區域基因序列及其引物設計