在做網絡爬蟲的時候經常需要unescape得到的html,
因為得到的html經常如下:
html = '<abc>'
在python 3 中如下:
from html.parser import HTMLParser html = '<abc>' html_parser = HTMLParser() txt = html_parser.unescape(html)
得到的結果如下:
txt = '<abc>'
如果要轉回去,可以用cgi模塊
import cgi html = cgi.escape(txt) # 這樣又回到了 html = '<abc>'