Python 標准庫之 xml.etree.ElementTree


簡介

 

Element類型是一種靈活的容器對象,用於在內存中存儲結構化數據。

[注意]xml.etree.ElementTree模塊在應對惡意結構數據時顯得並不安全。

每個element對象都具有以下屬性:

  1. tag:string對象,表示數據代表的種類。

  2. attrib:dictionary對象,表示附有的屬性。

  3. text:string對象,表示element的內容。

  4. tail:string對象,表示element閉合之后的尾跡。

  5. 若干子元素(child elements)。

<tag attrib1=1>text</tag>tail
1 2 3 4

創建元素的方法有Element或者SubElement(),前者稱作元素的構建函數(constructor),用以構建任一獨存的元素;后者稱作元素的制造函數(factory function),用以制造某一元素的子元素。

有了一串元素之后,使用ElementTree類來將其打包,把一串元素轉換為xml文件或者從xml文件中解析出來。

若想加快速度,可以使用C語言編譯的API xml.etree.cElementTree。

 

 導入ElementTree

 

在使用xml.etree.ElementTree時,一般都按如下導入:

try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

XML是中結構化數據形式,在ET中使用ElementTree代表整個XML文檔,並視其為一棵樹,Element代表這個文檔樹中的單個節點。

ET對象具有多種方法從不同來源導入數據,如下:

#從硬盤的xml文件讀取數據

import xml.etree.ElementTree as ET
tree = ET.parse('country_data.xml')    #載入數據
root = tree.getroot()    #獲取根節點

#從字符串讀取數據
root = ET.fromstring(country_data_as_string)

[注意]fromstring()是直接獲取string對象中的根節點,因此以上root其實是一個Element。

作為一個Element對象,本身是具有子元素,因此可以直接對Element進行迭代取值:

>>> for child in root:
...   print child.tag, child.attrib
...
country {'name': 'Liechtenstein'}
country {'name': 'Singapore'}
country {'name': 'Panama'}

或者直接使用索引尋找子節點:
>>> root[0][1].text
'2008'

 

 Element中的遍歷與查詢

 

Element.iter(tag=None):遍歷該Element所有后代,也可以指定tag進行遍歷尋找。

Element.findall(path):查找當前元素下tag或path能夠匹配的直系節點。

Element.find(path):查找當前元素下tag或path能夠匹配的首個直系節點。

Element.text: 獲取當前元素的text值。

Element.get(key, default=None):獲取元素指定key對應的屬性值,如果沒有該屬性,則返回default值。

 

 Element對象 

 

class xml.etree.ElementTree.Element(tag, attrib={}, **extra)

  tag:string,元素代表的數據種類。
  text:string,元素的內容。
  tail:string,元素的尾形。
  attrib:dictionary,元素的屬性字典。
  
  #針對屬性的操作
  clear():清空元素的后代、屬性、text和tail也設置為None。
  get(key, default=None):獲取key對應的屬性值,如該屬性不存在則返回default值。
  items():根據屬性字典返回一個列表,列表元素為(key, value)。
  keys():返回包含所有元素屬性鍵的列表。
  set(key, value):設置新的屬性鍵與值。

  #針對后代的操作
  append(subelement):添加直系子元素。
  extend(subelements):增加一串元素對象作為子元素。#python2.7新特性
  find(match):尋找第一個匹配子元素,匹配對象可以為tag或path。
  findall(match):尋找所有匹配子元素,匹配對象可以為tag或path。
  findtext(match):尋找第一個匹配子元素,返回其text值。匹配對象可以為tag或path。
  insert(index, element):在指定位置插入子元素。
  iter(tag=None):生成遍歷當前元素所有后代或者給定tag的后代的迭代器。#python2.7新特性
  iterfind(match):根據tag或path查找所有的后代。
  itertext():遍歷所有后代並返回text值。
  remove(subelement):刪除子元素。

  

 ElementTree對象

 

class xml.etree.ElementTree.ElementTree(element=None, file=None)
  element如果給定,則為新的ElementTree的根節點。

  _setroot(element):用給定的element替換當前的根節點。慎用。
  
  # 以下方法與Element類中同名方法近似,區別在於它們指定以根節點作為操作對象。
  find(match)
  findall(match)
  findtext(match, default=None)
  getroot():獲取根節點.
  iter(tag=None)
  iterfind(match)
  parse(source, parser=None):裝載xml對象,source可以為文件名或文件類型對象.
  write(fileencoding="us-ascii"xml_declaration=Nonedefault_namespace=None,method="xml") 

 

 模塊方法

 

xml.etree.ElementTree. Comment ( text=None )

創建一個特別的element,通過標准序列化使其代表了一個comment。comment可以為bytestring或unicode。

 

xml.etree.ElementTree. dump ( elem )

生成一個element tree,通過sys.stdout輸出,elem可以是元素樹或單個元素。這個方法最好只用於debug。

 

xml.etree.ElementTree. fromstring ( text )

text是一個包含XML數據的字符串,與XML()方法類似,返回一個Element實例。

 

xml.etree.ElementTree. fromstringlist ( sequenceparser=None )

從字符串的序列對象中解析xml文檔。缺省parser為XMLParser,返回Element實例。

New in version 2.7.

 

xml.etree.ElementTree. iselement ( element )

檢查是否是一個element對象。

 

xml.etree.ElementTree. iterparse ( sourceevents=Noneparser=None )

將文件或包含xml數據的文件對象遞增解析為element tree,並且報告進度。events是一個匯報列表,如果忽略,將只有end事件會匯報出來。

注意,iterparse()只會在看見開始標簽的">"符號時才會拋出start事件,因此屆時屬性是已經定義了,但是text和tail屬性在那時還沒有定義,同樣子元素也沒有定義,因此他們可能不能被顯示出來。如果你想要完整的元素,請查找end事件。

 

xml.etree.ElementTree. parse ( sourceparser=None )

將一個文件或者字符串解析為element tree。

 

xml.etree.ElementTree. ProcessingInstruction ( targettext=None )

這個方法會創建一個特別的element,該element被序列化為一個xml處理命令。

 

xml.etree.ElementTree. register_namespace ( prefixuri )

注冊命名空間前綴。這個注冊是全局有效,任何已經給出的前綴或者命名空間uri的映射關系會被刪除。

New in version 2.7.

 

xml.etree.ElementTree. SubElement ( parenttagattrib={}**extra )

子元素工廠,創建一個Element實例並追加到已知的節點。

 

xml.etree.ElementTree. tostring ( elementencoding="us-ascii"method="xml" )

生成一個字符串來表示表示xml的element,包括所有子元素。element是Element實例,method為"xml","html","text"。返回包含了xml數據的字符串。

 

xml.etree.ElementTree. tostringlist ( elementencoding="us-ascii"method="xml" )

生成一個字符串來表示表示xml的element,包括所有子元素。element是Element實例,method為"xml","html","text"。返回包含了xml數據的字符串列表。

New in version 2.7.

 

xml.etree.ElementTree. XML ( textparser=None )

從一個字符串常量中解析出xml片段。返回Element實例。

 

xml.etree.ElementTree. XMLID ( textparser=None )

從字符串常量解析出xml片段,同時返回一個字典,用以映射element的id到其自身。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM