python學習(十五) 屏幕抓取


15.1 屏幕抓取

  15.1.1 Tidy和XHTML解析

   Tidy:用來修復不規范且隨意的HTML文檔的工具。

   為什么用XHTML: 和舊版本的HTML之間最主要的區別:HTML可能只用一個開始標簽(<p>)結束一段然后開始下一段,而在XHTML中,首先要顯示的關閉當前段落(</p>),  這種行為讓XHTML更容易解析,

  另外一個好處是:它是XML的一種,可以對他使用XML工具,例如xpath。

  解析XTML用HTMLParser.

  15.1.2 Beautiful Soup

  是個小模塊,用來解析和檢查經常在網上看到的那類亂七八糟而且不規范的HTML。

15.2 使用CGI創建動態網頁

  15.2.1 第一步:准備網絡服務器

  15.2.2 第二步:加入Pound Bang行

  15.2.3 第三步: 設置文件權限

  15.2.4 CGI安全風險

  15.2.5 簡單的CGI腳本

  15.2.6 使用CGITB調試

  15.2.7 使用CGI模塊

15.3 更近一步:mod_python

  15.3.1 安裝mod_python

  15.3.2 CGI處理程序

  15.3.3 PSP

  15.3.4 發布

15.4 網絡應用程序框架

15.5 Web服務:正確分析

  15.5.1 RSS和相關內容

  15.5.2 使用XML-RPC進行遠程過程調用

  15.5.3 SOAP

15.6 小結

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM