簡介
Element類型是一種靈活的容器對象,用於在內存中存儲結構化數據。
[注意]xml.etree.ElementTree模塊在應對惡意結構數據時顯得並不安全。
每個element對象都具有以下屬性:
1. tag:string對象,表示數據代表的種類。
2. attrib:dictionary對象,表示附有的屬性。
3. text:string對象,表示element的內容。
4. tail:string對象,表示element閉合之后的尾跡。
5. 若干子元素(child elements)。
<tag attrib1=1>text</tag>tail
1 2 3 4
創建元素的方法有Element或者SubElement(),前者稱作元素的構建函數(constructor),用以構建任一獨存的元素;后者稱作元素的制造函數(factory function),用以制造某一元素的子元素。
有了一串元素之后,使用ElementTree類來將其打包,把一串元素轉換為xml文件或者從xml文件中解析出來。
若想加快速度,可以使用C語言編譯的API xml.etree.cElementTree。
導入ElementTree
在使用xml.etree.ElementTree時,一般都按如下導入:
try: import xml.etree.cElementTree as ET except ImportError: import xml.etree.ElementTree as ET
XML是中結構化數據形式,在ET中使用ElementTree代表整個XML文檔,並視其為一棵樹,Element代表這個文檔樹中的單個節點。
ET對象具有多種方法從不同來源導入數據,如下:
#從硬盤的xml文件讀取數據
import xml.etree.ElementTree as ET tree = ET.parse('country_data.xml') #載入數據 root = tree.getroot() #獲取根節點 #從字符串讀取數據 root = ET.fromstring(country_data_as_string)
[注意]fromstring()是直接獲取string對象中的根節點,因此以上root其實是一個Element。
作為一個Element對象,本身是具有子元素,因此可以直接對Element進行迭代取值:
>>> for child in root: ... print child.tag, child.attrib ... country {'name': 'Liechtenstein'} country {'name': 'Singapore'} country {'name': 'Panama'}
或者直接使用索引尋找子節點:
>>> root[0][1].text '2008'
Element中的遍歷與查詢
Element.iter(tag=None):遍歷該Element所有后代,也可以指定tag進行遍歷尋找。
Element.findall(path):查找當前元素下tag或path能夠匹配的直系節點。
Element.find(path):查找當前元素下tag或path能夠匹配的首個直系節點。
Element.text: 獲取當前元素的text值。
Element.get(key, default=None):獲取元素指定key對應的屬性值,如果沒有該屬性,則返回default值。
Element對象
class xml.etree.ElementTree.Element(tag, attrib={}, **extra) tag:string,元素代表的數據種類。 text:string,元素的內容。 tail:string,元素的尾形。 attrib:dictionary,元素的屬性字典。 #針對屬性的操作 clear():清空元素的后代、屬性、text和tail也設置為None。 get(key, default=None):獲取key對應的屬性值,如該屬性不存在則返回default值。 items():根據屬性字典返回一個列表,列表元素為(key, value)。 keys():返回包含所有元素屬性鍵的列表。 set(key, value):設置新的屬性鍵與值。 #針對后代的操作 append(subelement):添加直系子元素。 extend(subelements):增加一串元素對象作為子元素。#python2.7新特性 find(match):尋找第一個匹配子元素,匹配對象可以為tag或path。 findall(match):尋找所有匹配子元素,匹配對象可以為tag或path。 findtext(match):尋找第一個匹配子元素,返回其text值。匹配對象可以為tag或path。 insert(index, element):在指定位置插入子元素。 iter(tag=None):生成遍歷當前元素所有后代或者給定tag的后代的迭代器。#python2.7新特性 iterfind(match):根據tag或path查找所有的后代。 itertext():遍歷所有后代並返回text值。 remove(subelement):刪除子元素。
ElementTree對象
class xml.etree.ElementTree.ElementTree(element=None, file=None)
element如果給定,則為新的ElementTree的根節點。
_setroot(element):用給定的element替換當前的根節點。慎用。
# 以下方法與Element類中同名方法近似,區別在於它們指定以根節點作為操作對象。
find(match)
findall(match)
findtext(match, default=None)
getroot():獲取根節點.
iter(tag=None)
iterfind(match)
parse(source, parser=None):裝載xml對象,source可以為文件名或文件類型對象.
write(file, encoding="us-ascii", xml_declaration=None, default_namespace=None,method="xml")
模塊方法
- xml.etree.ElementTree. Comment ( text=None )
-
創建一個特別的element,通過標准序列化使其代表了一個comment。comment可以為bytestring或unicode。
- xml.etree.ElementTree. dump ( elem )
-
生成一個element tree,通過sys.stdout輸出,elem可以是元素樹或單個元素。這個方法最好只用於debug。
- xml.etree.ElementTree. fromstring ( text )
-
text是一個包含XML數據的字符串,與XML()方法類似,返回一個Element實例。
- xml.etree.ElementTree. fromstringlist ( sequence, parser=None )
-
從字符串的序列對象中解析xml文檔。缺省parser為XMLParser,返回Element實例。
New in version 2.7.
- xml.etree.ElementTree. iselement ( element )
-
檢查是否是一個element對象。
- xml.etree.ElementTree. iterparse ( source, events=None, parser=None )
-
將文件或包含xml數據的文件對象遞增解析為element tree,並且報告進度。events是一個匯報列表,如果忽略,將只有end事件會匯報出來。
注意,iterparse()只會在看見開始標簽的">"符號時才會拋出start事件,因此屆時屬性是已經定義了,但是text和tail屬性在那時還沒有定義,同樣子元素也沒有定義,因此他們可能不能被顯示出來。如果你想要完整的元素,請查找end事件。
- xml.etree.ElementTree. parse ( source, parser=None )
-
將一個文件或者字符串解析為element tree。
- xml.etree.ElementTree. ProcessingInstruction ( target, text=None )
-
這個方法會創建一個特別的element,該element被序列化為一個xml處理命令。
- xml.etree.ElementTree. register_namespace ( prefix, uri )
-
注冊命名空間前綴。這個注冊是全局有效,任何已經給出的前綴或者命名空間uri的映射關系會被刪除。
New in version 2.7.
- xml.etree.ElementTree. SubElement ( parent, tag, attrib={}, **extra )
-
子元素工廠,創建一個Element實例並追加到已知的節點。
-
xml.etree.ElementTree.
tostring
(
element,
encoding="us-ascii",
method="xml"
)
-
生成一個字符串來表示表示xml的element,包括所有子元素。element是Element實例,method為"xml","html","text"。返回包含了xml數據的字符串。
- xml.etree.ElementTree. tostringlist ( element, encoding="us-ascii", method="xml" )
-
生成一個字符串來表示表示xml的element,包括所有子元素。element是Element實例,method為"xml","html","text"。返回包含了xml數據的字符串列表。
New in version 2.7.
- xml.etree.ElementTree. XML ( text, parser=None )
-
從一個字符串常量中解析出xml片段。返回Element實例。
- xml.etree.ElementTree. XMLID ( text, parser=None )
-
從字符串常量解析出xml片段,同時返回一個字典,用以映射element的id到其自身。
