Python escape unescape html


在做網絡爬蟲的時候經常需要unescape得到的html,

因為得到的html經常如下:

html = '<abc>'

在python 3 中如下:

from html.parser import HTMLParser

html = '<abc>'
html_parser = HTMLParser()
txt = html_parser.unescape(html)

 得到的結果如下:

txt = '<abc>'

 如果要轉回去,可以用cgi模塊

import cgi

html = cgi.escape(txt) # 這樣又回到了 html = '<abc&gt'

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM