python xpath 獲取指定頁面中指定區域的html代碼


    最近一個朋友問我怎么把一個指定區域的內容轉成pdf,網上查了一下python里面有個wkhtmltopdf模塊可以將str、file、url轉成pdf,我們今天不聊怎么轉PDF,聊聊怎么獲取頁面中指定區域的html源碼。用到的模塊是lxml和requests這兩個模塊,沒有裝的小伙伴可以裝一下 pip install  lxml requests  

        主要思想是利用xpath獲取到指定區域的Element對象,然后再將Element對象傳給etree.tostring(),即可得到指定區域的html代碼,看一下需求:

    1、我們要得到 http://www.w3school.com.cn/   w3c首頁中的這個位置的html代碼:

      

        看一下頁面源碼是這樣的

         

   2、下面開始編碼:           

1 from lxml import etree
2 import requests
3 
4 res=requests.get('http://www.w3school.com.cn/')
5 tree=etree.HTML(res.content)
6 div=tree.xpath('//div[@id="d1"]')[0]
7 div_str=etree.tostring(div,encoding='utf-8')
8 print div_str

 

        3、結果如下:

     

       4、成功獲取到了指定區域的html代碼。

 

 

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM