Python 標准庫之 xml.etree


簡介

 

Element類型是一種靈活的容器對象,用於在內存中存儲結構化數據。

[注意]xml.etree.ElementTree模塊在應對惡意結構數據時顯得並不安全。

每個element對象都具有以下屬性:

  1. tag:string對象,表示數據代表的種類。

  2. attrib:dictionary對象,表示附有的屬性。

  3. text:string對象,表示element的內容。

  4. tail:string對象,表示element閉合之后的尾跡。

  5. 若干子元素(child elements)。

<tag attrib1=1>text</tag>tail
1 2 3 4

創建元素的方法有Element或者SubElement(),前者稱作元素的構建函數(constructor),用以構建任一獨存的元素;后者稱作元素的制造函數(factory function),用以制造某一元素的子元素。

有了一串元素之后,使用ElementTree類來將其打包,把一串元素轉換為xml文件或者從xml文件中解析出來。

若想加快速度,可以使用C語言編譯的API xml.etree.cElementTree。

 

 導入ElementTree

 

在使用xml.etree.ElementTree時,一般都按如下導入:

try: import xml.etree.cElementTree as ET except ImportError: import xml.etree.ElementTree as ET

XML是中結構化數據形式,在ET中使用ElementTree代表整個XML文檔,並視其為一棵樹,Element代表這個文檔樹中的單個節點。

ET對象具有多種方法從不同來源導入數據,如下:

 
#從硬盤的xml文件讀取數據

import xml.etree.ElementTree as ET tree = ET.parse('country_data.xml') #載入數據 root = tree.getroot() #獲取根節點 #從字符串讀取數據 root = ET.fromstring(country_data_as_string)
 

[注意]fromstring()是直接獲取string對象中的根節點,因此以上root其實是一個Element。

作為一個Element對象,本身是具有子元素,因此可以直接對Element進行迭代取值:

 
>>> for child in root: ... print child.tag, child.attrib ... country {'name': 'Liechtenstein'} country {'name': 'Singapore'} country {'name': 'Panama'}

或者直接使用索引尋找子節點:
>>> root[0][1].text '2008'
 

 

 Element中的遍歷與查詢

 

Element.iter(tag=None):遍歷該Element所有后代,也可以指定tag進行遍歷尋找。

Element.findall(path):查找當前元素下tag或path能夠匹配的直系節點。

Element.find(path):查找當前元素下tag或path能夠匹配的首個直系節點。

Element.text: 獲取當前元素的text值。

Element.get(key, default=None):獲取元素指定key對應的屬性值,如果沒有該屬性,則返回default值。

 

 Element對象 

 

 
class xml.etree.ElementTree.Element(tag, attrib={}, **extra)   tag:string,元素代表的數據種類。   text:string,元素的內容。   tail:string,元素的尾形。   attrib:dictionary,元素的屬性字典。      #針對屬性的操作   clear():清空元素的后代、屬性、text和tail也設置為None。   get(key, default=None):獲取key對應的屬性值,如該屬性不存在則返回default值。   items():根據屬性字典返回一個列表,列表元素為(key, value)。   keys():返回包含所有元素屬性鍵的列表。   set(key, value):設置新的屬性鍵與值。   #針對后代的操作   append(subelement):添加直系子元素。   extend(subelements):增加一串元素對象作為子元素。#python2.7新特性   find(match):尋找第一個匹配子元素,匹配對象可以為tag或path。   findall(match):尋找所有匹配子元素,匹配對象可以為tag或path。   findtext(match):尋找第一個匹配子元素,返回其text值。匹配對象可以為tag或path。   insert(index, element):在指定位置插入子元素。   iter(tag=None):生成遍歷當前元素所有后代或者給定tag的后代的迭代器。#python2.7新特性   iterfind(match):根據tag或path查找所有的后代。   itertext():遍歷所有后代並返回text值。   remove(subelement):刪除子元素。
 

  

 ElementTree對象

 

 
class xml.etree.ElementTree.ElementTree(element=None, file=None)
  element如果給定,則為新的ElementTree的根節點。

  _setroot(element):用給定的element替換當前的根節點。慎用。
  
  # 以下方法與Element類中同名方法近似,區別在於它們指定以根節點作為操作對象。
  find(match)
  findall(match)
  findtext(match, default=None)
  getroot():獲取根節點.
  iter(tag=None)
  iterfind(match)
  parse(source, parser=None):裝載xml對象,source可以為文件名或文件類型對象.
  write(fileencoding="us-ascii"xml_declaration=Nonedefault_namespace=None,method="xml") 
 

 

 模塊方法

 

 
xml.etree.ElementTree. Comment ( text=None )

創建一個特別的element,通過標准序列化使其代表了一個comment。comment可以為bytestring或unicode。

 

xml.etree.ElementTree. dump ( elem )

生成一個element tree,通過sys.stdout輸出,elem可以是元素樹或單個元素。這個方法最好只用於debug。

 

xml.etree.ElementTree. fromstring ( text )

text是一個包含XML數據的字符串,與XML()方法類似,返回一個Element實例。

 

xml.etree.ElementTree. fromstringlist ( sequenceparser=None )

從字符串的序列對象中解析xml文檔。缺省parser為XMLParser,返回Element實例。

New in version 2.7.

 

xml.etree.ElementTree. iselement ( element )

檢查是否是一個element對象。

 

xml.etree.ElementTree. iterparse ( sourceevents=Noneparser=None )

將文件或包含xml數據的文件對象遞增解析為element tree,並且報告進度。events是一個匯報列表,如果忽略,將只有end事件會匯報出來。

注意,iterparse()只會在看見開始標簽的">"符號時才會拋出start事件,因此屆時屬性是已經定義了,但是text和tail屬性在那時還沒有定義,同樣子元素也沒有定義,因此他們可能不能被顯示出來。如果你想要完整的元素,請查找end事件。

 

xml.etree.ElementTree. parse ( sourceparser=None )

將一個文件或者字符串解析為element tree。

 

xml.etree.ElementTree. ProcessingInstruction ( targettext=None )

這個方法會創建一個特別的element,該element被序列化為一個xml處理命令。

 

xml.etree.ElementTree. register_namespace ( prefixuri )

注冊命名空間前綴。這個注冊是全局有效,任何已經給出的前綴或者命名空間uri的映射關系會被刪除。

New in version 2.7.

 

xml.etree.ElementTree. SubElement ( parenttagattrib={}**extra )

子元素工廠,創建一個Element實例並追加到已知的節點。

 

xml.etree.ElementTree. tostring ( elementencoding="us-ascii"method="xml" )

生成一個字符串來表示表示xml的element,包括所有子元素。element是Element實例,method為"xml","html","text"。返回包含了xml數據的字符串。

 

xml.etree.ElementTree. tostringlist ( elementencoding="us-ascii"method="xml" )

生成一個字符串來表示表示xml的element,包括所有子元素。element是Element實例,method為"xml","html","text"。返回包含了xml數據的字符串列表。

New in version 2.7.

 

xml.etree.ElementTree. XML ( textparser=None )

從一個字符串常量中解析出xml片段。返回Element實例。

 

xml.etree.ElementTree. XMLID ( textparser=None )

從字符串常量解析出xml片段,同時返回一個字典,用以映射element的id到其自身。

實例

  • xml
<?xml version="1.0" encoding="utf-8"?>
<root>
  <title>導購碼接口測試</title>
  <host>dgm.boweixin.com</host>
  <port>80</port>
  <No>[]</No>
  <InterfaceList>
    <params>
          <name type="str">account</name>
            <value>1</value>
            <must>2</must>
        </params>
        <params><name type="int">userId</name><value>3</value><must>4</must></params>
        <login>user_id</login>
        <isList>0</isList><id>1001</id>
        <name>登陸</name>
        <method>POST</method>
        <url>/Login</url>
        <hope>{"appStatus":{"errorCode":0,"message":"操作成功"},
        "content":[{"user_sex":0,"fk_user_city":440300,
              "user_id":30,"nickname":"18576759587",
              "user_phone":"18576759587",
              "head_picture":"http:\/\/dgm.boweixin.com\/",
              "has_finance":1,
              "user_state":1
              }]
      }                  
    </hope>
        <login>user_id</login>
        <isList>0</isList>
    </InterfaceList>
  <InterfaceList>
    <params>
      <name type="str">account</name>
      <value>5</value>
      <must>6</must>
    </params>
    <params>
      <name type="int">userId</name>
      <value>7</value>
      <must>8</must>
    </params>
    <login>user_id</login>
    <id>10012</id>
    <name>登陸1</name>
    <method>POST1</method>
    <url>/Login1</url>
    <hope>{"appStatus":{"errorCode":0,"message":"操作成功"},
        "content":[{"user_sex":0,"fk_user_city":440300,
              "user_id":30,"nickname":"18576759587",
              "user_phone":"18576759587",
              "head_picture":"http:\/\/dgm.boweixin.com\/",
              "has_finance":1,
              "user_state":1
              }]
      }
    </hope>
    <login>0</login>
    <isList>0</isList>
  </InterfaceList>
</root>
  • 代碼解析
from xml.etree import ElementTree as ET def getXML(xml): """ """ tree = ET.parse(xml) root = tree.getroot() i_base = {} interfaceName = [] i_base["title"] = root.find("title").text i_base["host"] = root.find("host").text i_base["port"] = root.find("port").text i_base["No"] = root.find("No").text

interfaceName.append(i_base) for elem in root.findall("InterfaceList"): i_app = {} i_app["id"] = elem.find('id').text i_app["name"] = elem.find('name').text i_app["method"] = elem.find('method').text i_app["url"] = elem.find('url').text i_app["hope"] = elem.find('hope').text i_app["login"] = elem.find('login').text i_app["isList"] = elem.find('isList').text interfaceName.append(i_app) for p in elem.findall("params"): print(p.find("name").attrib.get("type")) print(p.find("value").text) print(p.find("must").text) # print(interfaceName) return interfaceName getXML("test4.xml")

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM