HTML 中的預留字符(如標簽的小於號 < )必須被替換為字符實體( < )。 不間斷空格( )


1. 參考

HTML 字符實體

 

Python處理HTML轉義字符

比方說一個從網頁中抓到的字符串

html = '&lt;abc&gt;'

用Python可以這樣處理:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #這樣就得到了txt = '<abc>'

如果還想轉回去,可以這樣:

import cgi
html = cgi.escape(txt) # 這樣又回到了 html = '&lt;abc&gt'

2. 常用

顯示結果 描述 實體名稱 實體編號
  空格 &nbsp; &#160;
< 小於號 &lt; &#60;
> 大於號 &gt; &#62;
& 和號 &amp; &#38;
" 引號 &quot; &#34;
' 撇號  &apos; (IE不支持) &#39;

3. 代碼

 1 In [354]: soup = BeautifulSoup("&ldquo;Dammit!&rdquo; he said.")
 2 
 3 In [355]: unicode(soup)
 4 Out[355]: u'<html><body><p>\u201cDammit!\u201d he said.</p></body></html>'
 5 
 6 In [358]: str(soup)
 7 Out[358]: '<html><body><p>\xe2\x80\x9cDammit!\xe2\x80\x9d he said.</p></body></html>'
 8 
 9 In [359]: print str(soup).decode('utf-8')
10 <html><body><p>“Dammit!” he said.</p></body></html>
11 
12 In [360]: print unicode(soup)
13 <html><body><p>“Dammit!” he said.</p></body></html>

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM