XML 指的是可擴展標記語言(eXtensible Markup Language),和json類似也是用於存儲和傳輸數據,還可以用作配置文件。類似於HTML超文本標記語言,但是HTML所有的標簽都是預定義的,而xml的標簽可以隨便定義。
XML元素
指從開始標簽到結束標簽的部分(均包括開始和結束)
一個元素可以包括:
- 其它元素
<aa>
<bb></bb>
</aa>
- 屬性
<a id=’132’></a>
- 文本
<a >abc</a>
- 混合以上所有
XML語法規則
- 所有的元素都必須有開始標簽和結束標簽,省略結束標簽是非法的。如:
<root>根元素</root>
- 大小寫敏感,以下是兩個不同的標簽
<Note>this is a test1</Note>
<note>this is a test2</note>
- xml文檔必須有根元素
<note>
<b>this is a test2</b>
<name>joy</name>
</note>
- XML必須正確嵌套,父元素必須完全包住子元素。如:
<note><b>this is a test2</b></note>
- XML屬性值必須加引號,元素的屬性值都是一個鍵值對形式。如:
<book category=" Python"></book>
注意:元素book的category屬性值python必須用引號括起來,單引號雙引號都可以。如果屬性值中包含單引號那么用雙引號括起來,如果屬性值包含單引號那么外面用雙引號括起來。
XML命名規則
名稱可以包含字母、數字以及其他字符
名稱不能以數字或標點符號開頭
名稱不能以字母xml或XML開始
名稱不能包含空格
可以使用任何名稱,沒有保留字
名稱應該具有描述性,簡短和簡單,可以同時使用下划線。
避免“-”、“.”、“:”等字符
Xml的注釋格式
<!--注釋內容-->
Python對XML的解析
常見的XML編程接口有DOM和SAX,這兩種接口處理XML文件的方式不同,使用場合也不同。python有三種方法解析XML:SAX,DOM和ElementTree
- DOM(Document Object Model)
DOM的解析器在解析一個XML文檔時,一次性讀取整個文檔,把文檔中所有元素保存在內存中的一個樹結構里,之后利用DOM提供的不同函數來讀取該文檔的內容和結構,也可以把修改過的內容寫入XML文件。由於DOM是將XML讀取到內存,然后解析成一個樹,如果要處理的XML文本比較大的話,就會很耗內存,所以DOM一般偏向於處理一些小的XML,(如配置文件)比較快。 - SAX(simple API for XML)
Python標准庫中包含SAX解析器,SAX是用的是事件驅動模型,通過在解析XML過程
中觸發一個個的事件並調用用戶定義的回調函數來處理XML文件。
解析的基本過程:
讀到一個XML開始標簽,就會開始一個事件,然后事件就會調用一系列的函數去處理
一些事情,當讀到一個結束標簽時,就會觸發另一個事件。所以,我們寫XML文檔入
如果有格式錯誤的話,解析就會出錯。
這是一種流式處理,一邊讀一邊解析,占用內存少。適用場景如下:
1、對大型文件進行處理;
2、只需要文件的部分內容,或者只需從文件中得到特定信息。
3、想建立自己的對象模型的時候。 - ElementTree(元素樹)
ElementTree就像一個輕量級的DOM,具有方便友好的API。代碼可用性好,速度快,消耗內存少。
注:因DOM需要將XML數據映射到內存中的樹,一是比較慢,二是比較耗內存,而SAX流式讀取XML文件,比較快,占用內存少,但需要用戶實現回調函數(handler)
xml.dom解析XML
本次先介紹DOM方式操作XML,先建立名為book.xml的文件供后續使用。
<?xml version="1.0" encoding="utf-8" ?>
<!--this is a test about xml.-->
<booklist type="science and engineering">
<book category="math">
<title>learning math</title>
<author>張三</author>
<pageNumber>561</pageNumber>
</book>
<book category="Python">
<title>learning Python</title>
<author>李四</author>
<pageNumber>600</pageNumber>
</book>
</booklist>
minidom.parse(parse=None,bufsie=None)
函數作用:使用parse解析器打開xml文檔,並將其解析為DOM文檔,也就是內存中的一棵樹,並得到這個對象
doc.documentElement
獲取xml文檔對象,就是拿到DOM樹的根
代碼示例:
>>> from xml.dom.minidom import parse
>>> DOMTree=parse(r'book.xml')
>>> type(DOMTree)
<class 'xml.dom.minidom.Document'>
>>> booklist=DOMTree.documentElement
>>> booklist
<DOM Element: booklist at 0x19c0606b340>
doc.toxml(encoding=None)
返回xml的文檔內容
>>> booklist=DOMTree.documentElement
>>> print (booklist.toxml())
<booklist type="science and engineering">
<book category="math">
<title>learning math</title>
<author>張三</author>
<pageNumber>561</pageNumber>
</book>
<book category="Python">
<title>learning Python</title>
<author>李四</author>
<pageNumber>600</pageNumber>
</book>
</booklist>
node.lastChild
返回元素的最后一個子節點
node.firstChild
返回元素的首個子節點
代碼示例:
>>> booklist.lastChild
>>> booklist.firstChild
getElementsByTagName(name)獲取節點元素
獲取xml文檔中的某個父節點下具有相同節點名的節點對象的集合。返回的是list
代碼示例:
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'book.xml')
#獲取xml文檔對象,就是拿到樹的根
booklist=DOMTree.documentElement
#獲取booklist對象中所有book節點的list集合
books=booklist.getElementsByTagName('book')
print(books)
print (type(books))
print(books)
print('有%d個book節點'%len(books))
print('*'*40)
print('第一個book節點%s'%booklist.getElementsByTagName('book')[0])
print('*'*40)
print('第一個book節點節點內容%s'%booklist.getElementsByTagName('book')[0].toxml())
print('*'*40)
print('第一個title節點%s'%booklist.getElementsByTagName('title')[0].toxml())
hasAttribute(name)判斷是否包含屬性值
代碼示例:
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'book.xml')
#獲取xml文檔對象,就是拿到樹的根
booklist=DOMTree.documentElement
print('DOM樹的根對象:',booklist)
if booklist.hasAttribute('type'):
#判斷根節點booklist是否有type屬性
print('booklist 元素存在type屬性')
else:
print('booklist 元素不存在type屬性!!!')
if booklist.getElementsByTagName('book')[0].hasAttribute('category'):
#判斷第一個book節點是否有category屬性
print('第一個book節點存在category屬性')
else:
print('第一個book節點不存在category屬性!!!')
node.getAttribute(name):獲取節點node的屬性值
代碼示例:’’‘Node.getAttribute獲取節點的屬性值’’’
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'book.xml')
#獲取xml文檔對象,就是拿到樹的根
booklist=DOMTree.documentElement
if booklist.hasAttribute('type'):
#判斷根節點booklist是否有type屬性
print('booklist 元素存在type屬性')
print ('根節點booklist的type屬性值為:',booklist.getAttribute('type'))
else:
print('booklist 元素不存在type屬性!!!')
node.childNodes:返回節點node下所有的子節點組成的list
代碼示例:’’‘node.childNodes’’’
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'book.xml')
#獲取xml文檔對象,就是拿到樹的根
booklist=DOMTree.documentElement
#獲取booklist對象中所有book節點的list集合
books=booklist.getElementsByTagName('book')
print('第一個book元素的所有子節點:',books[0].childNodes)
獲得標簽屬性
每一個結點都有它的nodeName,nodeValue,nodeType屬性
node.nodeName
node.nodeValue #nodeValue是結點的值,只對文本結點有效
node.nodeType
代碼示例:’’‘獲取標簽屬性’’'
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'movie.xml')
#獲取xml文檔對象,就是拿到樹的根
collection=DOMTree.documentElement
print ('collection屬性',collection.nodeName,collection.nodeValue,collection.nodeType)
#獲取所有的movies節點
movies=collection.getElementsByTagName('movie')
#遍歷集合,打印所有節點的nodename/nodeValue/nodeType
for movie in movies:
print ("*******************movie*******************")
for node in movie.childNodes:
print (node.nodeName,node.nodeValue,node.nodeType)
獲取節點文本值
代碼示例:’’‘獲取節點文本值’’'
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'book.xml')
#獲取xml文檔對象,就是拿到樹的根
booklist=DOMTree.documentElement
if booklist.hasAttribute('type'):
#判斷根節點booklist是否有type屬性,有則獲取並打印屬性值
print('Root element is ',booklist.getAttribute('type'))
#獲取booklist對象中所有的book節點的list集合
books=booklist.getElementsByTagName('book')
print('book節點的個數為:',len(books))
print('book節點的個數為:',books.length)
print ()
for book in books:
print ("*******************book*******************")
if book.hasAttribute('category'):
print ('category is ',book.getAttribute('category'))
#根據節點名title/author/pageNumber得到這些節點的集合list
title=book.getElementsByTagName('title')[0]
author=book.getElementsByTagName('author')[0]
pageNumber=book.getElementsByTagName('pageNumber')[0]
print ('title is ',title.childNodes[0].data)
print ('author is ',author.childNodes[0].data)
print ('pageNumber is ',pageNumber.childNodes[0].data)
node.hasChildNodes():判斷是否有子節點
代碼示例:’’‘node .hasChildNodes()’’'
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'book.xml')
#獲取xml文檔對象,就是拿到樹的根
booklist=DOMTree.documentElement
if booklist.hasAttribute('type'):
#判斷根節點booklist是否有type屬性,有則獲取並打印屬性值
print('Root element is ',booklist.getAttribute('type'))
#獲取booklist對象中所有的book節點的list集合
books=booklist.getElementsByTagName('book')
print('book節點的個數為:',books.length)
print ()
if books[0].hasChildNodes():
print('存在子節點:',books[0].childNodes)
else:
print('不存在子節點')
主要方法總結:
minidom.parse(filename):加載讀取XML文件
doc.documentElement:獲取XML文檔對象
node.getAttribute(AttributeName):獲取XML節點屬性值
node.getElementsByTagName(TagName):獲取XML節點對象集合
node.childNodes :返回子節點列表。
node.childNodes[index].nodeValue:獲取XML節點值
node.firstChild:訪問第一個節點,等價於pagexml.childNodes[0]
返回Node節點的xml表示的文本:
doc = minidom.parse(filename)
doc.toxml(‘UTF-8’)
訪問元素屬性:
Node.attributes[“id”]
a.name #就是上面的 “id”
a.value #屬性的值
root.nodeName/root.tagName:節點的名稱
root.nodeValue:節點的值,文本節點才有值,其它節點返回的是None
root.nodeType:節點的類型
NodeType Named Constant
練習1:讀取xml文件寫入excel
代碼示例:
‘’‘將xml文件寫入到文件中’’’
from xml.dom.minidom import parse
from openpyxl import Workbook
DOMTree=parse(r’book.xml’)
booklist=DOMTree.documentElement
type_name=booklist.getAttribute(‘type’)
#獲取第二個book對象的內容
book=booklist.getElementsByTagName(‘book’)[1]
book_name=book.getAttribute(‘category’)
title=book.getElementsByTagName(‘title’)[0].childNodes[0].data
author=book.getElementsByTagName(‘author’)[0].childNodes[0].data
pageNumber=book.getElementsByTagName(‘pageNumber’)[0].childNodes[0].data
wb=Workbook()
ws=wb.active
ws.append([book_name,title,author,pageNumber])
wb.save(r’book.xlsx’)
練習2:xml.dom解析xml的一個實例
xml文件內容:
<?xml version="1.0" encoding="utf-8" ?>
<!--this is a test about xml.-->
<collection shelf="New Arrivals">
<movie title="Enemy Behind">
<type>War, Thriller</type>
<format>DVD</format>
<year>2003</year>
<rating>PG</rating>
<stars>10</stars>
<description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
<type>Anime, Science Fiction</type>
<format>DVD</format>
<year>1989</year>
<rating>R</rating>
<stars>8</stars>
<description>A schientific fiction</description>
</movie>
<movie title="Trigun">
<type>Anime, Action</type>
<format>DVD</format>
<episodes>4</episodes>
<rating>PG</rating>
<stars>10</stars>
<description>Vash the Stampede!</description>
</movie>
<movie title="Ishtar">
<type>Comedy</type>
<format>VHS</format>
<rating>PG</rating>
<stars>2</stars>
<description>Viewable boredom</description>
</movie>
</collection>
代碼示例:’’‘xml.dom解析xml的一個實例’’’
from xml.dom.minidom import parse
#minidom解析器打開xml文檔並將其解析為內存中的一棵樹
DOMTree=parse(r'move.xml')
#獲取xml文檔對象,就是拿到樹的根
collection=DOMTree.documentElement
if collection.hasAttribute('shelf'):
#判斷根節點collection是否有shelf屬性,有則獲取並打印屬性值
print('Root element is ',collection.getAttribute('shelf'))
#獲取所有的movies節點
movies=collection.getElementsByTagName('movie')
#遍歷集合,打印每部電影的詳細信息
for movie in movies:
print ("*******************movie*******************")
my_list=[]
if movie.hasAttribute('title'):
print ('title is ',movie.getAttribute('title'))
for node in movie.childNodes:
my_list.append (node.nodeName)
type=movie.getElementsByTagName('type')[0]
print ('type is ',type.childNodes[0].data)
format=movie.getElementsByTagName('format')[0]
print ('format is ',format.childNodes[0].data)
if 'year' in my_list:
year=movie.getElementsByTagName('year')[0]
print ('year is ',year.childNodes[0].data)
rating=movie.getElementsByTagName('rating')[0]
print ('rating is ',rating.firstChild.data)
stars=movie.getElementsByTagName('stars')[0]
print ('stars is ',stars.childNodes[0].data)
description=movie.getElementsByTagName('description')[0]
print ('description is ',description.childNodes[0].data)
xml.dom創建XML文件
創建步驟:
1.創建XML空白文檔
2.產生根對象
3.向根對象中加入數據
4.將xml內存對象寫入文件
minidom.Document()創建xml空白文檔
該方法用於創建一個空白的xml文檔對象,並返回這個doc對象。每個xml文檔都是一個Document對象,代表着內存中的DOM樹
代碼示例:’’‘minidom.Document()創建xml空白文檔’’'
import xml.dom.minidom
#在內存中創建一個空的文檔
doc=xml.dom.minidom.Document()
print(doc)
doc.createElement(tagName)
生成XML文檔節點。參數表示待生成的節點名稱
代碼示例:
import xml.dom.minidom
#在內存中創建一個空的文檔
doc=xml.dom.minidom.Document()
#創建一個根節點對象
root=doc.createElement('Manager')
print('添加的xml標簽為:',root.tagName)
node.setAttribute(attname,value)
函數作用:給節點添加屬性-值對(attribute)
參數說明:
attname:屬性的名稱
value:屬性的值
代碼示例:’’‘node.setAttribute(attname,value)’’'
import xml.dom.minidom
#在內存中創建一個空的文檔
doc=xml.dom.minidom.Document()
#創建一個根節點對象
root=doc.createElement('Manager')
print('添加的xml標簽為:',root.tagName)
#給根節點添加屬性
root.setAttribute('name','kongsh')
value=root.getAttribute('name')
print('root元素的name屬性為:',value)
doc.createTextNode(data)
給葉子節點添加文本節點
代碼示例:’’‘doc.createTextNode(data)’’'
import xml.dom.minidom
#在內存中創建一個空的文檔
doc=xml.dom.minidom.Document()
#創建一個根節點對象
root=doc.createElement('test')
print('添加的xml標簽為:',root.tagName)
#給根節點添加屬性
root.setAttribute('name','python')
value=root.getAttribute('name')
print('root元素的name屬性為:',value)
#給根節點添加一個葉子節點
ceo=doc.createElement('person')
#給葉子節點ceo設置一個文本節點,用於顯示文本內容
ceo.appendChild(doc.createTextNode('kongsh'))
print (ceo.tagName)
print ("給葉子節點添加文本節點成功")
parent.appendChild(childNode)
把子節點childNode添加到父節點parent中
代碼示例:’’‘parent.appendChild(childNode)’’'
import xml.dom.minidom
#在內存中創建一個空的文檔
doc=xml.dom.minidom.Document()
#創建一個根節點companys對象
root=doc.createElement('companys')
print('添加的xml標簽為:',root.tagName)
#給根節點添加屬性
root.setAttribute('name','公司信息')
#將根節點添加到文檔對象中
doc.appendChild(root)
#給根節點添加一個葉子節點
company=doc.createElement('gloryroad')
#葉子節點下再嵌套葉子節點
name=doc.createElement('name')
#給節點添加文本節點
name.appendChild(doc.createTextNode('光榮之路'))
ceo=doc.createElement('CEO')
ceo.appendChild(doc.createTextNode('吳老師'))
#將各葉子節點添加到父節點company中
company.appendChild(name)
company.appendChild(ceo)
#將company節點添加到根節點companys中
root.appendChild(company)
print (doc.toxml())
doc.writexml():生成xml文檔
函數作用:用於將內存中的xml文檔樹寫入到文件中,並保存到本地磁盤。只有調用該方法后,才能將上面創建的存在於內存中的xml文檔寫入本地硬盤中,這時才能看到新建的xml文檔
語法:
writexml(file,indent=’’,addindent=’’,newl=’’,endocing=None)
參數說明:
file:要保存為的文件對象名
indent:根節點的縮進方式
allindent:子節點的縮進方式
newl:針對新行,指明換行方式
encoding:保存文件的編碼方式
代碼示例:’’‘writexml(file,indent=’’,addindent=’’,newl=’’,endocing=None)’’'
import xml.dom.minidom
#在內存中創建一個空的文檔
doc=xml.dom.minidom.Document()
#創建一個根節點companys對象
root=doc.createElement('companys')
print('添加的xml標簽為:',root.tagName)
#給根節點添加屬性
root.setAttribute('name','公司信息')
#將根節點添加到文檔對象中
doc.appendChild(root)
#給根節點添加一個葉子節點
company=doc.createElement('gloryroad')
#葉子節點下再嵌套葉子節點
name=doc.createElement('name')
#給節點添加文本節點
name.appendChild(doc.createTextNode('光榮之路'))
ceo=doc.createElement('CEO')
ceo.appendChild(doc.createTextNode('吳老師'))
#將各葉子節點添加到父節點company中
company.appendChild(name)
company.appendChild(ceo)
#將company節點添加到根節點companys中
root.appendChild(company)
#此處需要用codecs.open可以指定編碼方式
fp=open(r'company.xml','w','utf-8')
#將內存中的xml寫入到文件
doc.writexml(fp,indent='',addindent='\t',newl='\n',encoding='utf-8')
fp.close()