什么是XML?
XML 指可擴展標記語言(eXtensible Markup Language)。
XML 被設計用來傳輸和存儲數據。
XML是一套定義語義標記的規則,這些標記將文檔分成許多部件並對這些部件加以標識。
它也是元標記語言,即定義了用於定義其他與特定領域有關的、語義的、結構化的標記語言的句法語言。
python有三種方法解析XML,SAX,DOM,以及ElementTree:
1.SAX (simple API for XML )
pyhton 標准庫包含SAX解析器,SAX用事件驅動模型,通過在解析XML的過程中觸發一個個的事件並調用用戶定義的回調函數來處理XML文件。
2.DOM(Document Object Model)
將XML數據在內存中解析成一個樹,通過對樹的操作來操作XML。
3.ElementTree(元素樹)
ElementTree就像一個輕量級的DOM,具有方便友好的API。代碼可用性好,速度快,消耗內存少。
注:因DOM需要將XML數據映射到內存中的樹,一是比較慢,二是比較耗內存,而SAX流式讀取XML文件,比較快,占用內存少,但需要用戶實現回調函數(handler)。
python使用SAX解析xml
SAX是一種基於事件驅動的API。
利用SAX解析XML文檔牽涉到兩個部分:解析器和事件處理器。
解析器負責讀取XML文檔,並向事件處理器發送事件,如元素開始跟元素結束事件;
而事件處理器則負責對事件作出相應,對傳遞的XML數據進行處理。
<psax適於處理下面的問題:< p="">
- 1、對大型文件進行處理;
- 2、只需要文件的部分內容,或者只需從文件中得到特定信息。
- 3、想建立自己的對象模型的時候。
在python中使用sax方式處理xml要先引入xml.sax中的parse函數,還有xml.sax.handler中的ContentHandler。
ContentHandler類方法介紹
characters(content)方法
調用時機:
從行開始,遇到標簽之前,存在字符,content的值為這些字符串。
從一個標簽,遇到下一個標簽之前, 存在字符,content的值為這些字符串。
從一個標簽,遇到行結束符之前,存在字符,content的值為這些字符串。
標簽可以是開始標簽,也可以是結束標簽。
startDocument()方法
文檔啟動的時候調用。
endDocument()方法
解析器到達文檔結尾時調用。
startElement(name, attrs)方法
遇到XML開始標簽時調用,name是標簽的名字,attrs是標簽的屬性值字典。
endElement(name)方法
遇到XML結束標簽時調用。
make_parser方法
以下方法創建一個新的解析器對象並返回。
xml.sax.make_parser( [parser_list] )
參數說明:
- parser_list - 可選參數,解析器列表
parser方法
以下方法創建一個 SAX 解析器並解析xml文檔:
xml.sax.parse( xmlfile, contenthandler[, errorhandler])
參數說明:
- xmlfile - xml文件名
- contenthandler - 必須是一個ContentHandler的對象
- errorhandler - 如果指定該參數,errorhandler必須是一個SAX ErrorHandler對象
parseString方法
parseString方法創建一個XML解析器並解析xml字符串:
xml.sax.parseString(xmlstring, contenthandler[, errorhandler])
參數說明:
- xmlstring - xml字符串
- contenthandler - 必須是一個ContentHandler的對象
- errorhandler - 如果指定該參數,errorhandler必須是一個SAX ErrorHandler對象