XML 特殊字符處理和 CDATA


在處理XML數據時,特殊字符要特殊處理,不能和節點字符混淆。

所有 XML 文檔中的文本均會被解析器解析。

只有 CDATA 區段(CDATA section)中的文本會被解析器忽略。

PCDATA

PCDATA 指的是被解析的字符數據(Parsed Character Data)。

XML 解析器通常會解析 XML 文檔中所有的文本。

當某個 XML 元素被解析時,其標簽之間的文本也會被解析:

<message>此文本也會被解析</message>

解析器之所以這么做是因為 XML 元素可包含其他元素,就像這個例子中,其中的 <name> 元素包含着另外的兩個元素(first 和 last):

<name><first>Bill</first><last>Gates</last></name>

而解析器會把它分解為像這樣的子元素:

<name>

<first>Bill</first>

<last>Gates</last>

</name>

轉義字符

非法的 XML 字符必須被替換為實體引用(entity reference)。

假如您在 XML 文檔中放置了一個類似 "<" 字符,那么這個文檔會產生一個錯誤,這是因為解析器會把它解釋為新元素的開始。因此你不能這樣寫:

<message>if salary < 1000 then</message>

為了避免此類錯誤,需要把字符 "<" 替換為實體引用,就像這樣:

<message>if salary &lt; 1000 then</message>

XML 中有 5 個預定義的實體引用:

&lt; < 小於
&gt; > 大於
&amp; & 和號
&apos; ' 單引號
&quot; " 雙引號

注釋:嚴格地講,在 XML 中僅有字符 "<"和"&" 是非法的。省略號、引號和大於號是合法的,但是把它們替換為實體引用是個好的習慣。

CDATA

術語 CDATA 指的是不應由 XML 解析器進行解析的文本數據(Unparsed Character Data)。

在 XML 元素中,"<" 和 "&" 是非法的。

"<" 會產生錯誤,因為解析器會把該字符解釋為新元素的開始。

"&" 也會產生錯誤,因為解析器會把該字符解釋為字符實體的開始。

某些文本,比如 JavaScript 代碼,包含大量 "<" 或 "&" 字符。為了避免錯誤,可以將腳本代碼定義為 CDATA。

CDATA 部分中的所有內容都會被解析器忽略。

CDATA 部分由 "<![CDATA[" 開始,由 "]]>" 結束:

<script>

<![CDATA[

function matchwo(a,b)

{

if (a < b && a < 0) then

{

return 1;

}

else

{

return 0;

}

}

]]>

</script>

在上面的例子中,解析器會忽略 CDATA 部分中的所有內容。

關於 CDATA 部分的注釋:

CDATA 部分不能包含字符串 "]]>"。也不允許嵌套的 CDATA 部分。

標記 CDATA 部分結尾的 "]]>" 不能包含空格或折行。

 

摘自:http://www.w3school.com.cn/xml/xml_cdata.asp


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM